Katalogdatenexport und -anreicherung für Swissbib: Unterschied zwischen den Versionen
Zur Navigation springen
Zur Suche springen
Admin (Diskussion | Beiträge) (Die Seite wurde neu angelegt: «thumb|right|Bibliotheken Schaffhausen: Einzeltreffer in Swissbib <b><span class="plainlinks">[https://de.wikipedia.org/wiki…») |
Admin (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
||
(5 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
<!-- | |||
< | |||
ARTIKEL WURDE NIE FERTIGGESTELLT ODER VERÖFFENTLICHT | |||
[[image:Swissbib_schaffhausen02.png|thumb|right|Bibliotheken Schaffhausen: Einzeltreffer in Swissbib]] | |||
<b><span class="plainlinks">[https://de.wikipedia.org/wiki/Swissbib Swissbib]</span></b> ist der öffentlich zugängliche Gesamtkatalog von rund 900 Schweizer Institutionen, worunter sämtliche Hochschulbibliotheken und die Nationalbibliothek, mit über 21 Millionen Titeldatensätzen. | |||
Die Admin Kuhn GmbH schrieb zu diesem Zweck eine Routine für die automatische (wöchentliche) Durchführung folgender Aufgaben: | Seit Juli 2018 stellen die <span class="plainlinks">[http://www.bibliotheken-schaffhausen.ch/ Bibliotheken Schaffhausen]</span> rund 165'000 Titeldatensätze über Swissbib zur Verfügung. Die Admin Kuhn GmbH schrieb zu diesem Zweck eine Routine für die automatische (derzeit wöchentliche) Durchführung folgender Aufgaben: | ||
* Entladen sämtlicher 186'000 Titel- und Exemplardatensätze mittels ENTLMASS | * Entladen sämtlicher 186'000 Titel- und Exemplardatensätze mittels ENTLMASS | ||
* Entfernung von rund 22'000 nicht für die Fernleihe zur Verfügung stehenden Medien: sämtliche E-Medien von Divibib und Overdrive sowie sämtliche | * Entfernung von rund 22'000 nicht für die Fernleihe zur Verfügung stehenden Medien: sämtliche E-Medien von Divibib und Overdrive sowie sämtliche Katalogisate der Schaffhauser Bibliografie | ||
* ... | * ... | ||
* Übertragung der Daten via FTP auf den Webrechner der Bibliotheken Schaffhausen, von wo sie per wget abgeholt werden können | * Versand einer E-Mail bezüglich Erfolg oder Misserfolg von Katalogdatenexport und -anreicherung | ||
* Versand einer E-Mail bezüglich Erfolg oder Misserfolg der | * Übertragung der komprimierten Daten via FTP auf den Webrechner der Bibliotheken Schaffhausen, von wo sie per wget abgeholt werden können | ||
* Versand einer E-Mail bezüglich Erfolg oder Misserfolg der Datenübertragung auf den Webrechner | |||
NNNN | |||
* Entladen und Bearbeiten der Kategorien 0000, 0001 und 0451 im MAB-Format | |||
* Extraktion aller Katalognummern mit Inhalt in MAB 0001. Diese werden in die Datei "MAB0001.unl" geschrieben und enthalten jeweils die Katalognummer sowie den Inhalt von MAB 0001. | |||
* Extraktion aller Katalognummern mit Inhalt " [Zeitschrift]" in MAB 0451 | |||
* Entladen aller Titeldatensätze der SISIS-Sunrise-Datenbank "sisis" über den Konverter "SisisToMarcJeromeXml" im Format MARCXML | |||
* Bearbeitung der Daten | |||
** Entfernen des unerwünschten Namensraum-Präfix "mx:" in den XML-Tags | |||
** Umwandlung aller Zeichenfolgen "&" zu "AMPampAMP" | |||
** Umwandlung aller Zeichenfolgen ">" zu "GTgtGT" | |||
** Umwandlung aller Zeichenfolgen "<" zu "LTltLT" | |||
** Entfernen der Zeichenfolgen "˜" und "œ" | |||
** Entfernen der ersten beiden Zeilen der Datei / <?xml version="1.0" encoding="UTF-8"?><collection xmlns:mx="http://www.loc.gov/MARC21/slim"> | |||
** Entfernen der letzten Zeile der Datei / </collection> | |||
* Auftrennen der Entladedatei in die einzelnen Titeldatensätze | |||
* Entfernen aller Titeldatensätze der folgenden Zweigstellen: 04 (SH Bibliographie) / 05 (Digitale Bibliothek) | |||
* Umbenennen aller Dateien gemäss der enthaltenen Datensatznummer | |||
Hauptprogramm: Veränderungen der MARCXML-Daten gemäss AK-0276 Position 1, Punkt 2 und dem Dokument "Anbindung an Swissbib (2017.10.07).pdf" | |||
Zur Verschnellerung des Vorgangs findet die Verarbeitung über das Skript "Swissbib-Sub.sh" in mehreren Unterprozessen statt | |||
<pre> | |||
# Katalognummer des Datensatzes | |||
KATNR="$(${XML} "/record/controlfield [@tag=001]" ${AUSGABE})" | |||
# MARC LDR (Satzkennung) | |||
# * Position 6 (Art des Datensatzes) | |||
# * e (Cartographic material) - Falls MARC 245 $a mit "Landeskarte" beginnt | |||
# oder Zeichenfolge " [Kartenmaterial]" enthält | |||
# * g (Projected medium) - Falls MARC 245 $a die Zeichenfolge | |||
# " [Blu-ray Disc]" oder " [DVD]" enthält | |||
# * i (Nonmusical sound recording) - Falls MARC 245 $a die Zeichenfolge | |||
# "[CD]" oder "[Kassette]" enthält und MARC 852 $c keine der folgenden | |||
# Zeichenfolgen enthält: KINDERLIEDER, KLASSIK, POP, ROCK, UNTERHALTUNG, | |||
# VOLKSMUSIK | |||
# * j (Musical sound recording) - Falls MARC 245 $a die Zeichenfolge "[CD]" | |||
# enthält und MARC 852 $c eine der folgenden Zeichenfolgen enthält: | |||
# KINDERLIEDER, KLASSIK, POP, ROCK, UNTERHALTUNG, VOLKSMUSIKi (Nonmusical | |||
# sound recording) | |||
# * Position 7 (Bibliografischer Level) | |||
# * a (Monographic component part) - Falls MAB 0001 gefüllt ist, so handelt | |||
# es sich um eine analytische Aufnahme, dieses Kürzel kann also nur in | |||
# Zusammenhang mit einem gleichzeitigen Entladen der MAB-Daten ermittelt | |||
# werden | |||
# * m (Monograph/item) - Keine Veränderung, falls die für den Wert "a" | |||
# genannte Bedingung nicht zutrifft | |||
# | |||
# * s (Serial) - Falls MAB 0451 die Zeichenfolge " [Zeitschrift]" enthält | |||
# MARC 007 (Feld mit fester Länge zur physischen Beschreibung) | |||
# * Position 0 (Typ des Materials) | |||
# * Karte | |||
# a (Karte) - Falls MARC 245 $a mit "Landeskarte" beginnt oder Zeichenfolge | |||
# " [Kartenmaterial]" enthält | |||
# * Elektronische Ressource | |||
# c (Elektronische Ressource) - Falls MARC 245 $a die Zeichenfolge | |||
# "[CD-ROM]" enthält oder MARC 852 nicht vorhanden ist | |||
# s (Tonaufzeichnung) - Falls MARC 245 $a die Zeichenfolge "[CD]" enthält | |||
# oder MARC 336 $a die Zeichenfolge "spoken word" enthält | |||
# * Tonaufzeichnung | |||
# s (Tonaufzeichnung) - Falls MARC 245 $a eine der Zeichenfolgen "[CD]", | |||
# "[Kassette]" oder "[Schallplatte]" enthält | |||
# * Videoaufnahme | |||
# v (Videoaufnahme) - Falls MARC 245 $a eine der Zeichenfolgen | |||
# " [Blu-ray Disc]", " [Bluray Disc]", " [DVD]" oder " [DVD-Video]" enthält | |||
# * Text | |||
# t (Text) - Falls keine der übrigen unter MARC 007,0 genannten | |||
# Bedingungen zutrifft | |||
# * Position 1 (Spezifische Materialbenennung) | |||
# * Karte | |||
# j (Karte) - Falls MARC 245 $a mit "Landeskarte" beginnt | |||
# * Elektronische Ressource | |||
# f (Magnetbandkassette) - Falls MARC 245 $a die Zeichenfolge "[Kassette]" | |||
# enthält | |||
# o (Optische Speicherplatte) - Falls MARC 245 $a die Zeichenfolge | |||
# "[CD-ROM]" enthält | |||
# r (Fernzugriff) - Falls MARC 852 nicht vorhanden ist | |||
# enthält | |||
# * Tonaufzeichnung | |||
# d (Schallplatte) - Falls MARC 245 $a eine der Zeichenfolgen "[CD]" oder | |||
# "[Schallplatte]" enthält | |||
# s (Tonkassette) - Falls MARC 245 $a die Zeichenfolge "[Kassette]" enthält | |||
# * Videoaufnahme | |||
# d (Videodisk) - Falls MARC 245 $a eine der Zeichenfolgen | |||
# "[Blu-ray Disc]" oder "[Bluray Disc]" oder "[DVD]" oder "[DVD-Video]" | |||
# enthält | |||
# * Text | |||
# a (Normaldruck) - Falls keine der übrigen unter MARC 007,1 genannten | |||
# Bedingungen zutrifft | |||
# * Position 3 (Geschwindigkeit der Tonaufzeichnung) | |||
# * Tonaufnahme | |||
# f (1.4 m pro Sekunde) - Falls MARC 245 $a die Zeichenfolge "[CD]" enthält | |||
# * Position 4 (Format der Videoaufnahme) | |||
# * Videoaufnahme | |||
# s (Blu-ray Disc) - Falls MARC 245 $a die Zeichenfolge "[Blu-ray Disc]" | |||
# oder "[Bluray Disc]" enthält | |||
# v (DVD) - Falls MARC 245 $a die Zeichenfolge "[DVD]" oder "[DVD-Video]" | |||
# enthält | |||
# MARC 008 (Feld mit fester Länge zur physischen Beschreibung - allgemeine | |||
# Angaben) | |||
# * Die Veränderung von Position MARC 008,6 wird erst NACH der Veränderung von | |||
# MARC 008,7-10 und MARC 008,11-14 durchgeführt! | |||
# | |||
# * Position 7-10 (erstes Datum) | |||
# * Hier ist keine Veränderung notwendig | |||
# | |||
# * Position 11-14 (zweites Datum) | |||
# * Als zweites Datum werden die allenfalls in MARC 260 $c nach einem | |||
# Bindestrich gefundenen ersten vier aufeinanderfolgenden Zahlen angesehen | |||
# * Allfällig übrigbleibende Zeichenfolgen "uuuu" werden durch "||||" ersetzt | |||
# * Position 6 (Art der Datumsangaben) | |||
# * m (Mehrfache Datumsangaben) - Falls nach der Veränderung von MARC 008,7-10# und MARC 008,11-14 sowohl MARC 008,7-10 als auch MARC 008,11-14 eine | |||
# vierstellige Zahl enthalten | |||
# * s (Einzig bekanntes Datum) - Falls nach der Veränderung von MARC 008,7-10 | |||
# und MARC 008,11-14 nur MARC 008,7-10 eine vierstellige Zahl enthält, | |||
# MARC 008,11-14 aber nicht. MARC 008,11-14 wird mit vier Leerzeichen | |||
# belegt. | |||
# * | (Keine Angabe) - Falls nach der Neubesetzung von MARC 008,6 mit "m" | |||
# oder "s" noch immer andere Werte vorkommen (z. B. "n") | |||
# * Position 35-37 (Sprache) | |||
# * Die mit dem Konverter "SisisToMarcJeromeXml" ausgegebenen Daten enthalten | |||
# kein MARC 041! | |||
# MARC 245 (Titelangabe) | |||
# * Falls Unterfeld $a mit der öffnenden eckigen Klammer "[" beginnt, so werden | |||
# alle Zeichen bis und mit der ersten gefundenen schliessenden eckigen Klammer | |||
# "]" sowie einem darauf folgenden Leerzeichen gelöscht | |||
# Der Klammerinhalt wird in ein neues MARC 246 $a geschrieben | |||
# * Aufgrund fehlender Kenntnisse bzw. technischer Möglichkeiten schreibe ich | |||
# MARC 246 $a vor MARC 245 anstatt dahinter. | |||
# MARC 983 $b (Zweigstelle) | |||
# * Auflösung der enthaltenen Codes | |||
# 0 - Stadtbibliothek am Münsterplatz | |||
# 1 - Bibliothek Agnesenschütte | |||
# 2 - Gemeindebibliothek Neuhausen | |||
# 3 - Staatsarchiv | |||
# 5 - Digitale Bibliothek | |||
# MARC 983 $c (Standort) | |||
# * Auflösung der enthaltenen Codes | |||
# 1 (Wirts) - Wirtschaft | |||
# 2 (Tiere) - Tiere | |||
# 3 (Garten) - Garten | |||
# 4 (Freiz) - Freizeit | |||
# 100 - STASH Kanzlei | |||
# 101 - STASH Lesesaal | |||
# 102 - STASH 2. Stock Zeitungsraum | |||
# 103 - STASH 3. Stock nicht laufend | |||
# 104 - STASH 3. Stock A-R laufend | |||
# 105 - STASH 3. Stock T-Z | |||
# 106 - STASH 3. Stock S Audiovisuelle Medien | |||
# 107 - STASH 3. Stock Staatsarchivar | |||
# 108 - STASH Rathauslaube | |||
# 109 - STASH In Bearbeitung | |||
# 110 - STASH 3. Stock HZ 2000-5999 | |||
# MARC 983 $d (Entleihbarzeichen) | |||
ENTLEIHBARZEICHEN="$(${XML} "/record/datafield [@tag=983]/subfield [@code='d']" ${AUSGABE})" | |||
# * Auflösung der enthaltenen Codes | |||
# (leer) - entleihbar | |||
# L - Lesesaal | |||
# W - Wochenende | |||
# X - nicht entleihbar | |||
# Prüfung mit xmlwf, ob das erstellte MARCXML wohlgeformt ist | |||
Schreiben aller Einzeldateien (.marcxml) in eine grosse MARCXML-Datei | |||
* Umwandlung aller Zeichenfolgen "GTgtGT" zu ">" | |||
* Umwandlung aller Zeichenfolgen "LTltLT" zu "<" | |||
* Umwandlung aller Zeichenfolgen "AMPampAMP" zu "&" | |||
* Ergänzen der Datei mit zwei Zeilen am Anfang: <?xml version="1.0" encoding="UTF-8"?> / <collection xmlns:mx="http://www.loc.gov/MARC21/slim"> | |||
* Ergänzen der Datei mit einer Zeile am Ende: </collection> | |||
* Komprimieren der Ausgabedatei | |||
* Übermittlung der veränderten MARCXML-Daten mittels FTP auf den Webrechner "sr-bib912" zur Bereitstellung für Swissbib mit E-Mail-Benachrichtigung über Erfolg | |||
Zeile 32: | Zeile 246: | ||
{{Weblinks}} | {{Weblinks}} | ||
{{url|CH|Swiss Universities|ger|https://www.swissbib.ch/|Swissbib|Katalog | {{url|CH|Swiss Universities|ger|https://www.swissbib.ch/|Swissbib|Katalog der Hochschulbibliotheken, der Nationalbibliothek, vieler Kantonsbibliotheken und weiterer Schweizer Institutionen|icon=https://www.swissbib.ch/themes/sbvfrdsingle/images/favicon.ico}} | ||
{{Fuss}} | {{Fuss}} | ||
{{Kat|Swissbib}} | {{Kat|Swissbib}} | ||
--> |