Katalogdatenexport und -anreicherung für Swissbib: Unterschied zwischen den Versionen

Aus Admin Kuhn GmbH
Wechseln zu: Navigation, Suche
(Die Seite wurde neu angelegt: «thumb|right|Bibliotheken Schaffhausen: Einzeltreffer in Swissbib <b><span class="plainlinks">[https://de.wikipedia.org/wiki…»)
 
Zeile 1: Zeile 1:
 
[[image:Swissbib_schaffhausen02.png|thumb|right|Bibliotheken Schaffhausen: Einzeltreffer in Swissbib]]
 
[[image:Swissbib_schaffhausen02.png|thumb|right|Bibliotheken Schaffhausen: Einzeltreffer in Swissbib]]
<b><span class="plainlinks">[https://de.wikipedia.org/wiki/Swissbib Swissbib]</span></b> ist der öffentlich zugängliche Gesamtkatalog  der Schweizer Hochschulbibliotheken, der Schweizerischen Nationalbibliothek und weiterer Schweizer Institutionen.
+
<b><span class="plainlinks">[https://de.wikipedia.org/wiki/Swissbib Swissbib]</span></b> ist der öffentlich zugängliche Gesamtkatalog  von rund 900 Schweizer Institutionen, worunter sämtliche Hochschulbibliotheken und die Nationalbibliothek, mit über 21 Millionen Titeldatensätzen.
  
 +
Seit Juli 2018 stellen die <span class="plainlinks">[http://www.bibliotheken-schaffhausen.ch/ Bibliotheken Schaffhausen]</span> rund 165'000 Titeldatensätze über Swissbib zur Verfügung. Die Admin Kuhn GmbH schrieb zu diesem Zweck eine Routine für die automatische (derzeit wöchentliche) Durchführung folgender Aufgaben:
  
Enthalten sind insgesamt ... 390 Millionen Titeldatensätzen und ... 2.5 Milliarden Bestandsnachweisen umfasst.
+
* Entladen sämtlicher 186'000 Titel- und Exemplardatensätze mittels ENTLMASS
 +
* Entfernung von rund 22'000 nicht für die Fernleihe zur Verfügung stehenden Medien: sämtliche E-Medien von Divibib und Overdrive sowie sämtliche Katalogisate der Schaffhauser Bibliografie
 +
* ...
 +
* Versand einer E-Mail bezüglich Erfolg oder Misserfolg von Katalogdatenexport und -anreicherung
 +
* Übertragung der komprimierten Daten via FTP auf den Webrechner der Bibliotheken Schaffhausen, von wo sie per wget abgeholt werden können
 +
* Versand einer E-Mail bezüglich Erfolg oder Misserfolg der Datenübertragung auf den Webrechner
 +
 
 +
<!--
 +
NNNN
 +
* Entladen und Bearbeiten der Kategorien 0000, 0001 und 0451 im MAB-Format
 +
* Extraktion aller Katalognummern mit Inhalt in MAB 0001. Diese werden in die Datei "MAB0001.unl" geschrieben und enthalten jeweils die Katalognummer sowie den Inhalt von MAB 0001.
 +
* Extraktion aller Katalognummern mit Inhalt " [Zeitschrift]" in MAB 0451
 +
 
 +
* Entladen aller Titeldatensätze der SISIS-Sunrise-Datenbank "sisis" über den Konverter "SisisToMarcJeromeXml" im Format MARCXML
 +
* Bearbeitung der Daten
 +
** Entfernen des unerwünschten Namensraum-Präfix "mx:" in den XML-Tags
 +
** Umwandlung aller Zeichenfolgen "&amp;" zu "AMPampAMP"
 +
** Umwandlung aller Zeichenfolgen "&gt;" zu "GTgtGT"
 +
** Umwandlung aller Zeichenfolgen "&lt;" zu "LTltLT"
 +
** Entfernen der Zeichenfolgen "&#152;" und "&#156;"
 +
** Entfernen der ersten beiden Zeilen der Datei / <?xml version="1.0" encoding="UTF-8"?><collection xmlns:mx="http://www.loc.gov/MARC21/slim">
 +
** Entfernen der letzten Zeile der Datei / </collection>
 +
* Auftrennen der Entladedatei in die einzelnen Titeldatensätze
 +
* Entfernen aller Titeldatensätze der folgenden Zweigstellen: 04 (SH Bibliographie) / 05 (Digitale Bibliothek)
 +
* Umbenennen aller Dateien gemäss der enthaltenen Datensatznummer
 +
 
 +
Hauptprogramm: Veränderungen der MARCXML-Daten gemäss AK-0276 Position 1, Punkt 2 und dem Dokument "Anbindung an Swissbib (2017.10.07).pdf"
 +
 
 +
Zur Verschnellerung des Vorgangs findet die Verarbeitung über das Skript "Swissbib-Sub.sh" in mehreren Unterprozessen statt
 +
<pre>
 +
# Katalognummer des Datensatzes
 +
KATNR="$(${XML} "/record/controlfield [@tag=001]" ${AUSGABE})"
 +
 
 +
# MARC LDR (Satzkennung)
 +
# * Position 6 (Art des Datensatzes)
 +
#  * e (Cartographic material) - Falls MARC 245 $a mit "Landeskarte" beginnt
 +
#    oder Zeichenfolge " [Kartenmaterial]" enthält
 +
 
 +
#  * g (Projected medium) - Falls MARC 245 $a die Zeichenfolge
 +
#    " [Blu-ray Disc]" oder " [DVD]" enthält
 +
 
 +
#  * i (Nonmusical sound recording) - Falls MARC 245 $a die Zeichenfolge
 +
#    "[CD]" oder "[Kassette]" enthält und MARC 852 $c keine der folgenden
 +
#    Zeichenfolgen enthält: KINDERLIEDER, KLASSIK, POP, ROCK, UNTERHALTUNG,
 +
#    VOLKSMUSIK
 +
 
 +
#  * j (Musical sound recording) - Falls MARC 245 $a die Zeichenfolge "[CD]"
 +
#    enthält und MARC 852 $c eine der folgenden Zeichenfolgen enthält:
 +
#    KINDERLIEDER, KLASSIK, POP, ROCK, UNTERHALTUNG, VOLKSMUSIKi (Nonmusical
 +
#    sound recording)
 +
 
 +
# * Position 7 (Bibliografischer Level)
 +
#  * a (Monographic component part) - Falls MAB 0001 gefüllt ist, so handelt
 +
#    es sich um eine analytische Aufnahme, dieses Kürzel kann also nur in
 +
#    Zusammenhang mit einem gleichzeitigen Entladen der MAB-Daten ermittelt
 +
#    werden
 +
 
 +
#  * m (Monograph/item) - Keine Veränderung, falls die für den Wert "a"
 +
#    genannte Bedingung nicht zutrifft
 +
#
 +
#  * s (Serial) - Falls MAB 0451 die Zeichenfolge " [Zeitschrift]" enthält
 +
 
 +
# MARC 007 (Feld mit fester Länge zur physischen Beschreibung)
 +
# * Position 0 (Typ des Materials)
 +
#  * Karte
 +
#    a (Karte) - Falls MARC 245 $a mit "Landeskarte" beginnt oder Zeichenfolge
 +
#    " [Kartenmaterial]" enthält
 +
 
 +
#  * Elektronische Ressource
 +
#    c (Elektronische Ressource) - Falls MARC 245 $a die Zeichenfolge
 +
#    "[CD-ROM]" enthält oder MARC 852 nicht vorhanden ist
 +
 
 +
#    s (Tonaufzeichnung) - Falls MARC 245 $a die Zeichenfolge "[CD]" enthält
 +
#    oder MARC 336 $a die Zeichenfolge "spoken word" enthält
 +
 
 +
#  * Tonaufzeichnung
 +
#    s (Tonaufzeichnung) - Falls MARC 245 $a eine der Zeichenfolgen "[CD]",
 +
#    "[Kassette]" oder "[Schallplatte]" enthält
 +
 
 +
#  * Videoaufnahme
 +
#    v (Videoaufnahme) - Falls MARC 245 $a eine der Zeichenfolgen
 +
#    " [Blu-ray Disc]", " [Bluray Disc]", " [DVD]" oder " [DVD-Video]" enthält
 +
 
 +
#  * Text
 +
#    t (Text) - Falls keine der übrigen unter MARC 007,0 genannten
 +
#    Bedingungen zutrifft
 +
 
 +
# * Position 1 (Spezifische Materialbenennung)
 +
#  * Karte
 +
#    j (Karte) - Falls MARC 245 $a mit "Landeskarte" beginnt
 +
 
 +
#  * Elektronische Ressource
 +
#    f (Magnetbandkassette) - Falls MARC 245 $a die Zeichenfolge "[Kassette]"
 +
#    enthält
 +
 
 +
#    o (Optische Speicherplatte) - Falls MARC 245 $a die Zeichenfolge
 +
#    "[CD-ROM]" enthält
 +
 
 +
#    r (Fernzugriff) - Falls MARC 852 nicht vorhanden ist
 +
#    enthält
 +
 
 +
#  * Tonaufzeichnung
 +
#    d (Schallplatte) - Falls MARC 245 $a eine der Zeichenfolgen "[CD]" oder
 +
#    "[Schallplatte]" enthält
 +
 
 +
#    s (Tonkassette) - Falls MARC 245 $a die Zeichenfolge "[Kassette]" enthält
 +
 
 +
#  * Videoaufnahme
 +
#    d (Videodisk) - Falls MARC 245 $a eine der Zeichenfolgen
 +
#    "[Blu-ray Disc]" oder "[Bluray Disc]" oder "[DVD]" oder "[DVD-Video]"
 +
#    enthält
 +
 
 +
#  * Text
 +
#    a (Normaldruck) - Falls keine der übrigen unter MARC 007,1 genannten
 +
#    Bedingungen zutrifft
 +
 
 +
# * Position 3 (Geschwindigkeit der Tonaufzeichnung)
 +
#  * Tonaufnahme
 +
#    f (1.4 m pro Sekunde) - Falls MARC 245 $a die Zeichenfolge "[CD]" enthält
 +
 
 +
# * Position 4 (Format der Videoaufnahme)
 +
#  * Videoaufnahme
 +
#    s (Blu-ray Disc) - Falls MARC 245 $a die Zeichenfolge "[Blu-ray Disc]"
 +
#    oder "[Bluray Disc]" enthält
 +
 
 +
#    v (DVD) - Falls MARC 245 $a die Zeichenfolge "[DVD]" oder "[DVD-Video]"
 +
#    enthält
 +
 
 +
# MARC 008 (Feld mit fester Länge zur physischen Beschreibung - allgemeine
 +
#          Angaben)
 +
# * Die Veränderung von Position MARC 008,6 wird erst NACH der Veränderung von
 +
#  MARC 008,7-10 und MARC 008,11-14 durchgeführt!
 +
#
 +
# * Position 7-10 (erstes Datum)
 +
#  * Hier ist keine Veränderung notwendig
 +
#
 +
# * Position 11-14 (zweites Datum)
 +
#  * Als zweites Datum werden die allenfalls in MARC 260 $c nach einem
 +
#    Bindestrich gefundenen ersten vier aufeinanderfolgenden Zahlen angesehen
 +
 
 +
#  * Allfällig übrigbleibende Zeichenfolgen "uuuu" werden durch "||||" ersetzt
 +
 
 +
# * Position 6 (Art der Datumsangaben)
 +
 
 +
#  * m (Mehrfache Datumsangaben) - Falls nach der Veränderung von MARC 008,7-10#    und MARC 008,11-14 sowohl MARC 008,7-10 als auch MARC 008,11-14 eine
 +
#    vierstellige Zahl enthalten
 +
 
 +
#  * s (Einzig bekanntes Datum) - Falls nach der Veränderung von MARC 008,7-10
 +
#    und MARC 008,11-14 nur MARC 008,7-10 eine vierstellige Zahl enthält,
 +
#    MARC 008,11-14 aber nicht. MARC 008,11-14 wird mit vier Leerzeichen
 +
#    belegt.
 +
 
 +
#  * | (Keine Angabe) - Falls nach der Neubesetzung von MARC 008,6 mit "m"
 +
#    oder "s" noch immer andere Werte vorkommen (z. B. "n")
 +
 
 +
# * Position 35-37 (Sprache)
 +
#  * Die mit dem Konverter "SisisToMarcJeromeXml" ausgegebenen Daten enthalten
 +
#    kein MARC 041!
 +
 
 +
# MARC 245 (Titelangabe)
 +
# * Falls Unterfeld $a mit der öffnenden eckigen Klammer "[" beginnt, so werden
 +
#  alle Zeichen bis und mit der ersten gefundenen schliessenden eckigen Klammer
 +
#  "]" sowie einem darauf folgenden Leerzeichen gelöscht
 +
 
 +
  # Der Klammerinhalt wird in ein neues MARC 246 $a geschrieben
 +
  # * Aufgrund fehlender Kenntnisse bzw. technischer Möglichkeiten schreibe ich
 +
  #  MARC 246 $a vor MARC 245 anstatt dahinter.
 +
 
 +
# MARC 983 $b (Zweigstelle)
 +
 
 +
# * Auflösung der enthaltenen Codes
 +
 
 +
#  0 - Stadtbibliothek am Münsterplatz
 +
#  1 - Bibliothek Agnesenschütte
 +
#  2 - Gemeindebibliothek Neuhausen
 +
#  3 - Staatsarchiv
 +
5 - Digitale Bibliothek
 +
 
 +
# MARC 983 $c (Standort)
 +
# * Auflösung der enthaltenen Codes
 +
#  1 (Wirts) - Wirtschaft
 +
#  2 (Tiere) - Tiere
 +
#  3 (Garten) - Garten
 +
#  4 (Freiz) - Freizeit
 +
#  100 - STASH Kanzlei
 +
#  101 - STASH Lesesaal
 +
#  102 - STASH 2. Stock Zeitungsraum
 +
#  103 - STASH 3. Stock nicht laufend
 +
#  104 - STASH 3. Stock A-R laufend
 +
#  105 - STASH 3. Stock T-Z
 +
#  106 - STASH 3. Stock S Audiovisuelle Medien
 +
#  107 - STASH 3. Stock Staatsarchivar
 +
#  108 - STASH Rathauslaube
 +
#  109 - STASH In Bearbeitung
 +
#  110 - STASH 3. Stock HZ 2000-5999
 +
 
 +
# MARC 983 $d (Entleihbarzeichen)
 +
ENTLEIHBARZEICHEN="$(${XML} "/record/datafield [@tag=983]/subfield [@code='d']" ${AUSGABE})"
 +
# * Auflösung der enthaltenen Codes
 +
#  (leer) - entleihbar
 +
#  L - Lesesaal
 +
#  W - Wochenende
 +
#  X - nicht entleihbar
 +
 
 +
# Prüfung mit xmlwf, ob das erstellte MARCXML wohlgeformt ist
  
Seit Juli 2018 stellen die <span class="plainlinks">[http://www.bibliotheken-schaffhausen.ch/ Bibliotheken Schaffhausen]</span> in Swissbib rund 165'000 Titeldatensätze zur Verfügung.
 
  
Die Admin Kuhn GmbH schrieb zu diesem Zweck eine Routine für die automatische (wöchentliche) Durchführung folgender Aufgaben:
 
  
* Entladen sämtlicher 186'000 Titel- und Exemplardatensätze mittels ENTLMASS
 
* Entfernung von rund 22'000 nicht für die Fernleihe zur Verfügung stehenden Medien: sämtliche E-Medien von Divibib und Overdrive sowie sämtliche Medien Schaffhauser Bibliografie
 
* ...
 
* Übertragung der Daten via FTP auf den Webrechner der Bibliotheken Schaffhausen, von wo sie per wget abgeholt werden können
 
* Versand einer E-Mail bezüglich Erfolg oder Misserfolg der Aktion
 
  
 +
Schreiben aller Einzeldateien (.marcxml) in eine grosse MARCXML-Datei
 +
* Umwandlung aller Zeichenfolgen "GTgtGT" zu "&gt;"
 +
* Umwandlung aller Zeichenfolgen "LTltLT" zu "&lt;"
 +
* Umwandlung aller Zeichenfolgen "AMPampAMP" zu "&amp;"
 +
* Ergänzen der Datei mit zwei Zeilen am Anfang: <?xml version="1.0" encoding="UTF-8"?> / <collection xmlns:mx="http://www.loc.gov/MARC21/slim">
 +
* Ergänzen der Datei mit einer Zeile am Ende: </collection>
 +
* Komprimieren der Ausgabedatei
 +
* Übermittlung der veränderten MARCXML-Daten mittels FTP auf den Webrechner "sr-bib912" zur Bereitstellung für Swissbib mit E-Mail-Benachrichtigung über Erfolg
  
  
Zeile 21: Zeile 227:
  
 
(Stand: ... Juli 2018)
 
(Stand: ... Juli 2018)
 
+
-->
 
== Einige Bildschirmkopien ==
 
== Einige Bildschirmkopien ==
  

Version vom 24. Juli 2018, 21:59 Uhr

Datei:Swissbib schaffhausen02.png
Bibliotheken Schaffhausen: Einzeltreffer in Swissbib

Swissbib ist der öffentlich zugängliche Gesamtkatalog von rund 900 Schweizer Institutionen, worunter sämtliche Hochschulbibliotheken und die Nationalbibliothek, mit über 21 Millionen Titeldatensätzen.

Seit Juli 2018 stellen die Bibliotheken Schaffhausen rund 165'000 Titeldatensätze über Swissbib zur Verfügung. Die Admin Kuhn GmbH schrieb zu diesem Zweck eine Routine für die automatische (derzeit wöchentliche) Durchführung folgender Aufgaben:

  • Entladen sämtlicher 186'000 Titel- und Exemplardatensätze mittels ENTLMASS
  • Entfernung von rund 22'000 nicht für die Fernleihe zur Verfügung stehenden Medien: sämtliche E-Medien von Divibib und Overdrive sowie sämtliche Katalogisate der Schaffhauser Bibliografie
  • ...
  • Versand einer E-Mail bezüglich Erfolg oder Misserfolg von Katalogdatenexport und -anreicherung
  • Übertragung der komprimierten Daten via FTP auf den Webrechner der Bibliotheken Schaffhausen, von wo sie per wget abgeholt werden können
  • Versand einer E-Mail bezüglich Erfolg oder Misserfolg der Datenübertragung auf den Webrechner

Einige Bildschirmkopien

Weblinks

Herausgeber Sprache Webseitentitel Anmerkungen
country CH.gif Swiss Universities ger Swissbibwbm Katalog derer Schweizer Hochschulbibliotheken, der Schweizerischen Nationalbibliothek, vieler Kantonsbibliotheken und weiterer Institutionen