Portal:DigiBib/Editionsrichtlinien

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
< Portal:DigiBib
Version vom 13. Mai 2012, 12:17 Uhr von Arend (Diskussion • Beiträge) (Tipps zur Verwendung von OCR-Texten (Google Books, Internet Archive))
Zur Navigation springen Zur Suche springen
GenWiki - Digitale Bibliothek
hier: Editionsrichtlinien
Wichtig
Die meisten Buchprojekte der Digitalen Bibliothek arbeiten mit sogenannten DjVu-Dateien. Um diese optimal nutzen zu können, beachten Sie bitte unsere
DjVu-Kurzinformation.
Hinweise für Benutzer
EinführungBenutzerhinweise zur Navigation
Hinweise für Bearbeiter
EditionsrichtlinienHäufige FormatierungenBearbeitungsschritte
Projektanlage
Aufnahmerichtlinien für BücherVom Buch in die Digitale Bibliothek
Transkription und Korrekturen
In VorbereitungNeu dabeiKorrekturleser gesuchtKorrekturen des Monats

Kategorien:

Kontakt:

E-Mail an die Projektbetreuer:

Die folgenden Editionsrichtlinien gelten für die Digitale Bibliothek und GenWiki-Quelleneditionen. Abweichungen davon sind in den speziellen Editionsrichtlinien auf der jeweiligen Buchprojektseite zu vermerken.

Transkription

Die Transkription von Büchern hat das Ziel, lesbare und durchsuchbare Texte bereit zu stellen.

Abschrift

Um die Seite eines Buches in unserer Digitalen Bibliothek abzuschreiben, gibt es verschiedene Möglichkeiten. Am einfachsten ist es natürlich, wenn man zwei Bildschirme hat und im einen Bildschirm die abzuschreibende Seite sieht, im anderen Bildschirm das Bearbeiten-Fenster der GenWiki-Seite. Geht das nicht, öffnet man die abzuschreibende Seite am besten in einem separaten Browserfenster. Dazu klickt man mit der rechten Maustaste in das Bild und wählt "Link in neuem Fenster öffnen". Danach bitte nochmal in das dann erscheinende große Bild klicken. Es öffnet sich eine Ansicht, ähnlich wie bei PDF-Dateien und man kann auch so ähnlich darin vor- und zurückblättern oder die Größenansicht einstellen. Anschließend ordnet man die beiden offenen Fenster als Teilansichten übereinander an und kann so im einen Fenster lesen, im anderen Fenster schreiben.

Die dritte Möglichkeit ist, die Seite auszudrucken, neben die Tastatur zu legen und dann abzuschreiben.

Verwendung von OCR-Texten

Liegt ein OCR-Text vor, so kann dies die Erstellung der Abschrift oftmals wesentlich erleichtern.

Die Verwendbarkeit eines OCR-Textes muss jedoch zuvor geprüft werden. OCR-Texte, in denen praktisch jedes Wort mit OCR-Fehlern bestückt ist, eignen sich naturgemäß nicht, der Korrekturaufwand würde den vermeintlichen Vorteil übersteigen. Oft liegen mehrere OCR-Texte vor, die vor Verwendung verglichen werden können, um so „den besten“ zu ermitteln.

OCR-Texte von Google Books

Über eine ID eines Buches bei Google Books kann man (oftmals) zum OCR-Text bei Google-Books gelangen. Hierzu kann man folgende URL probieren:

http://books.google.com/books?id=ID&output=text&pg=SEITENCODE

Dabei ist:

  • ID = ID des Buches bei Google Books (12-stellig, bestehend aus Groß- und Kleinbuchstaben sowie dem Minuszeichen und dem Unterstrich. – Die Groß- bzw. Kleinschreibung in dieser 12-stelligen ID ist unbedingt zu beachten!)
  • SEITENCODE = meist PAnnn, wobei nnn die Seitenzahl, also z.B. PA7 für Seite 7, PA39 für Seite 39 oder PA177 für Seite 177

Achtung: Angezeigt wird immer ein Textblock von ca. 5 Seiten. Die Paginierung bei Google Books kann allerdings von der Vorlage abweichen, dann ist ggf. durch Vor- oder Zurückblättern die entsprechende Seite ermitteln. Bei OCR-Fehlern enthält die Textanzeige oft eingebettete Grafiken (der nicht „übersetzten“ Textabschnitte) oder Fehlermeldungen wie [ocr errors] oder [graphic].

Konkretes Beispiel (für einen brauchbaren OCR-Text):
OCR-Text für Seite 77 des Buches Geschichte und Genealogie der Dynasten von Westerburg (Lehmann):

  • ID = 0JVAAAAAcAAJ
  • SEITENCODE = PA77

Somit lautet die URL: http://books.google.com/books?id=0JVAAAAAcAAJ&output=text&pg=PA77

Konkretes Beispiel (für einen unbrauchbaren OCR-Text):

  • ID = sRJMAAAAcAAJ
  • SEITENCODE = PP8

Somit lautet die URL: http://books.google.com/books?id=sRJMAAAAcAAJ&output=text&pg=PP8 (schwer verstümmelter Text, ferner mit Grafiken und Fehlermeldungen durchsetzt)

Ist der OCR-Text für Google Books für eine bestimmte ID unbrauchbar, so kann er für eine andere ID desselben Buches durchaus gut sein (oft sind ja mehrere Google-Book-IDs pro Buch bekannt). Es kann sich also lohnen, die OCR-Texte für alle Google-Book-IDs eines Buches anzusehen bzw. diese zu vergleichen.

Achtung: Google Books zeigt deutschen Benutzern (d.h. zu Anfragen über eine deutsche IP-Adresse) in der Regel die Suchergebnisse zu Büchern im Zeitraum von ca. 1870 bis ca. 1910/1923 nur in eingeschränkter Ansicht an. In diesem Fall wird zunächst auch kein OCR-Text angezeigt. Wie dieses ggf. überwunden werden kann, siehe hierzu: Abschnitt „Vollansicht für Bücher im Zeitraum von ca. 1870 bis ca. 1910/1923“ auf der GenWiki-Seite Google Books.

OCR-Texte vom Internet Archive (archive.org)

Auf der Digitalisat-Seite eines Buches im Internet Archive (archive.org) gelangt man über den Link „Full Text“ zum jeweiligen OCR-Text. Auch hier gilt das bereits Gesagte zur Verwendbarkeit bzw. zum Vergleich mit anderen OCR-Texten.

Editionsrichtlinien

Unter Beachtung des oben genannten Zieles, lesbare und durchsuchbare Texte bereit zu stellen, gelten die folgenden Grundsätze für die Transkription in GenWiki-Quelleneditionen:

  • Es wird buchstabengetreu erfasst (also bitte keine Anpassung an heutige Rechtschreibung!)
  • In Fließtexten kann aber auf Zeilentreue verzichtet werden, es sei denn, es handelt sich z. B. um Gedichte.
  • An Zeilenenden sollen Worttrennungen aufgelöst werden, ebenso am Seitenende. Das Wort erscheint in der Zeile und auf der Seite, auf der es beginnt inklusive aller direkt anschließenden Satz- und Anführungszeichen.
  • Es kann mit geschützten Leerzeichen (&#160;) gearbeitet werden, um das Auseinanderreißen von zwei Worten (kein Muss!) bzw. bei Abkürzungen (empfohlen!) am Zeilenende zu verhindern.


Abkürzungen


  • Einfache Abkürzungen wie z. B., u., usw. bleiben erhalten. Bitte Leerzeichen beachten und zur Verhinderung des Zeilenumbruchs mit geschütztem Leerzeichen (siehe oben) erfassen (also z. B. statt z.B.).
  • Abkürzungen relevanter Begriffe können aufgelöst (F. W. v. Pr.Friedrich Wilhelm v. Preußen, Ffm.Frankfurt am Main) werden, um die Durchsuchbarkeit des Textes zu verbessern. Dies muss in den projektbezogenen Editionsrichtlinien zusätzlich erläutert werden.


Fußnoten


  • Fußnoten der Vorlage werden über die normale Fußnotentechnik dargestellt. Sie werden in der Regel so platziert, wie sie in der Vorlage erscheinen, aber unter Beachtung folgender Regel:
    • Trifft ein Fußnoten-Hinweiszeichen mit einem Satzzeichen zusammen und die Fußnote bezieht sich auf den ganzen Satz, wird das Fußnoten-Hinweiszeichen hinter dem schließenden Satzzeichen geschrieben.
    Beispiel: Nachrichten über Adelige Familien und Güter - 1/005.
    • Bezieht sich die Fußnote nur auf das unmittelbar vorangehende Wort oder eine unmittelbar vorangehende Wortgruppe, steht das Fußnoten-Hinweiszeichen vor dem schließenden Satzzeichen.
    Beispiel: Geschichte der Pfarreien des Dekanates Grevenbroich/128.
  • Vor einer Fußnote wird keine Leerstelle eingefügt. Folgt der Fußnote ein Satzzeichen, so kommt auch dazwischen keine Leerstelle (Vgl. http://www.scholl.be.schule.de/faecher/itg/din5008/din5008i.pdf (S. 12)).
  • Erstreckt sich eine Fußnote über mehrere Seiten, wird der Text der Fußnote auf der Seite zusammengefügt, auf der die Fußnote zum Text in Bezug steht. Auf den Folgeseiten wird der Text nicht wiederholt.
    Beispiel: Schleswig-Holsteinische Kirchengeschichte/1/011
  • Redaktionelle Anmerkungen können notwendig werden, um Textstellen zu kommentieren, korrigieren oder zu erläutern, beispielsweise wenn ein im Text vorkommender Ortsname heute nicht mehr geläufig ist (früher: Montjoie, heute: Monschau).


Zur Darstellung und Formatierung von Fußnoten und redaktionellen Anmerkungen bitte Häufig benutzte Formatierungen#Fußnoten beachten.


Inhaltsverzeichnis


  • Bei in der Vorlage fehlenden Inhaltsverzeichnissen sollten diese von der DigiBib-Redaktion selbst erstellt werden, um eine bessere und schnellere Navigation innerhalb des Buches zu ermöglichen. Die redaktionell erstellten Inhaltsverzeichnisse können durch Einbinden der Vorlage {{InhaltsVZ-GenWikiRed}}Hilfe gekennzeichnet werden.


Interpunktion


Anführungszeichen

  • Anführungszeichen werden so übernommen, wie sie im Text auftauchen, in der Regel also als deutsche Anführungszeichen („“). Französische Anführungszeichen (»«) sollten nur in Ausnahmefällen, Zollzeichen ("[SHIFT+2]") möglichst gar nicht verwendet werden.
  • Die im deutschen Schriftsatz üblichen Anführungszeichen („“) kann man über die Sonderzeichenleiste unterhalb des Bearbeitungs-Fensters eingeben oder mit ALT+0132 und ALT+0147 erzeugen (Ziffern müssen über den Num-Block getastet werden!)
  • OCR-Texte erzeugen meistens bei der Übertragung am Anfang ein und am Ende ein ". Man kann das schließende " durch die Suchen-Ersetzen Funktion in Word z. B. leicht ersetzen durch und spart damit die Arbeit, es beim Einsetzen in die GenWiki-Seiten mühsam von Hand nachzuarbeiten.
  • Übrigens: Bei ungünstigen (Schrift-)Einstellungen im Browser sieht man den Unterschied möglicherweise nicht.
  • Nach heutigen Gesichtspunkten überflüssige Anführungszeichen (z. B. am Anfang jeder Zeile) werden nicht erfasst.

Binde- und Geviertstriche

Bindestriche
  • In Fraktur wurde der Bindestrich doppelt und schräg gedruckt (=). Er ist durch den einfachen Bindestrich (-) zu ersetzen.
Geviertstriche
  • Die in älteren Texten häufig vorkommenden, jedoch veralteten Geviertstriche (—) werden durch den normalen Gedankenstrich oder Halbgeviertstrich (–) ersetzt. Dieser kann über die Sonderzeichenleiste eingefügt oder über (ALT+0150) erzeugt werden.
  • Der Gedankenstrich wird als Halbgeviertstrich mit Leerzeichen davor und dahinter dargestellt.
  • Bei Bis-Strichen sollte ausschließlich der Gedankenstrich/Halbgeviertstrich (1740–1780, S. 5–12) ohne Leerzeichen verwendet werden (also nicht 1740 – 1780, sondern 1740–1780).

Virgeln

  • Virgeln (/) (seltener auch als (.) dargestellt) in Übertragungen von Urkunden und in älteren Drucktexten werden mit Leerzeichen vor und nach dem / bzw. . übertragen.


Sonderzeichen


Ligaturen

  • Prinzipiell werden die in Frakturschrift auftretenden Ligaturen ch, ck, st, tz sowie ſs aufgelöst.
  • Die Ligaturen æ und œ in lateinischen Wörtern werden aufgelöst zu ae und oe.
  • In skandinavischen Namen auftretende Ligaturen (z. B. æ, å, ø) bleiben erhalten und können mit Hilfe der Sonderzeichenleiste unterhalb des Bearbeitungsfensters in den Text eingefügt werden.

Lang-s, Rund-s → s

  • Rund-s (s) und Lang-s (ſ) werden nicht unterschieden und beide als modernes s transkribiert.

Rundes r → etc.

I/J

  • Großbuchstaben von i und j sind in Fraktur größtenteils identisch. Daher erfolgt die Transkription phonetisch (nach Lautwert), also: Italien, nicht: Jtalien; aber: Jagd, nicht: Iagd.

Brüche

  • Bruchzahlen werden mit der Vorlage {{Bruch||}}Hilfe erzeugt. Der erste einzusetzende Parameter erzeugt den Zähler, der zweite den Nenner. {{Bruch|2|5}} ergibt 2/5

Währungssymbole

  • In manchen Werken tauchen alte Währungssymbole auf, z.B. „[...] wird eine Pacht von 3 Mark 2.svg 16 β für die Tonne entrichtet.“
  • Ein Währungssymbol (hier für: Mark) lässt sich folgendermaßen einbinden: [[Bild:Mark 2.svg|16px]]. Das β-Zeichen (für Schilling) am besten hier wegkopieren.
  • Die Commons-Kategorie:Currency sign verzeichnet noch viele weitere Grafiken von Währungssymbolen.

Typografie


Schriftauszeichnung

  • Sperrschrift sollte normalerweise als kursive Schrift dargestellt werden. In Einzelfällen, wenn beide Textgestaltungselemente in einem Buch vorkommen, kann die Vorlage {{Sperrschrift|}}Hilfe benutzt werden.
    Beispiel: {{Sperrschrift|Text in Sperrschrift}} ergibt: Text in Sperrschrift
  • Lateinischer Text wird in alten Büchern oft in einer anderen (meist Antiqua) als der regulär verwendeten Schrift dargestellt. Um dies nachzuempfinden, benutzt man die <tt></tt>-Tags.
    Beispiel: <tt>Lateinischer Text</tt> ergibt Lateinischer Text.

Überschriften

  • Überschriften sind gemäß der Vorlage zu setzen und zu positionieren. Sie werden wie sonst auch in Wiki-Artikeln erzeugt (→ Hilfe:Überschriften und Inhaltsverzeichnis). Wichtig ist dabei, seitenübergreifend auf eine logische Hierarchie zu achten. Das ist wichtig für die spätere Textzusammenfügung.
  • Anders als bei der Anlage von Artikeln bei der Transkription von Texten möglichst keine Überschriften der Ebene 2 verwenden, da diese automatisch eine Linie über die ganze Seite erzeugt.
  • Zur Darstellung von Linien bei Überschriften, Titelblättern u. ä. kann die Vorlage {{Linie}}Hilfe verwendet werden.
  • Für zentrierte Überschriften wird die Überschrift durch ein <center>-Tag umschlossen.
    ACHTUNG: <center>-Tag nicht innerhalb der Überschrift setzen, da sich die Überschriften dann unschön verhalten.
<center>
=== Ebene 3 Überschrift ===
</center>


Was wird nicht erfasst?


Alles, was sich außerhalb des eigentlich relevanten Inhalts (Fließtext, Tabelle, Grafik etc.) befindet und nur eine Wiederholung bestimmter (bibliographischer) Informationen bedeutet, bleibt in der Regel unberücksichtigt. Dazu zählen:

Kapitelwiederholung am Seitenanfang

  • In manchen Büchern wird der Kapitelname auf jeder Seite wiederholt. Diese Wiederholungen werden nicht miterfasst.

Seitenzählungen

  • Angaben von Seitenzahlen werden ebenfalls nicht miterfasst. Sie ergeben sich sowieso aus dem jeweiligen Artikelnamen der GenWiki-Seite.

Bogenbezeichnungen

  • In manchen Büchern findet man am unteren Rand einiger Seiten in kleiner Schrift den Buchtitel wiederholt, oder kleine Zahlen (mit und ohne Sternchen u. ä.), die nicht die Seitenzählung sind. Auch dies wird nicht miterfasst.

Reklamanten

  • Am Seitenende kommen manchmal abgesetzte Worte oder Wortteile vor, die das erste Wort der Folgeseite vorwegnehmen. Diese Reklamanten, die dem früheren Leser den Lesefluss erleichtern sollten, werden ebenfalls nicht erfasst.

„Überflüssige“ Zeichen

  • Nach heutigen Gesichtspunkten „überflüssige“ Anführungszeichen (z. B. am Anfang jeder Zeile) werden nicht erfasst.
  • „Überflüssige“ Leerzeichen, z. B. vor Satzzeichen, werden weggelassen.


Sonderfälle


Eine Fußnote steht ohne Textbezug auf einer Seite.
Lösung
Die Fußnote wird hinter dem letzten Wort der Seite eingefügt (mittels {{#tag:ref|...}}) und mit {{GWR|Die Fußnote auf dieser Seite [Seitenzahl] ist ohne Textbezug.}} kommentiert.
Beispiel: Schleswig-Holsteinische Kirchengeschichte/1/064
Auf einer Buchseite sind mehr als drei Überschriften und GenWiki erzeugt ein automatisches Inhaltsverzeichnis
Lösung
Auf den Einzelseiten sieht das nicht besonders schön aus. Man kann dieses automatische Inhaltsverzeichnis unterdrücken, indem man, am besten ganz oben unterhalb der Vorlageneinbindung der Projektbox den Befehl <noinclude>__NOTOC__</noinclude> einfügt. Dieser Befehl unterdrückt die automatische Erzeugung des Inhaltsverzeichnisses.
Beispiel: [1]
Unsicher???
Lösung
Wenn man sich nicht sicher ist, wie mit einem Sonderfall am besten umgegangen wird, bitte unbedingt auf der Mailingliste nachfragen. Es handelt sich um eine geschlossene Projektmailingliste. Die Teilnehmer helfen gern weiter.

Bearbeitungsstand

Artikel von Projekten der GenWiki-Quelleneditionen und der Digitalen Bibliothek führen einen Bearbeitungsstand. Dieser wird in der Vorlageneinbindung, die man auf jeder Seite ganz oben (im Bearbeitenmodus!) findet, als letzter Parameter eingetragen. Das kann beispielsweise so aussehen:

{{Neumanns Orts-Lexikon des Deutschen Reichs 1894|P2|3|Titel|unvollständig}}


Es sind die vier folgenden Bearbeitungsstände vorgesehen:

  1. Artikel mit fehlender oder unvollständiger Transkription haben den Bearbeitungsstand: unvollständig.
  2. Unkorrigierte Artikel mit vollständiger Transkription haben den Bearbeitungsstand: unkorrigiert.
  3. Einmal korrigierte Artikel haben den Bearbeitungsstand: korrigiert.
  4. Zweimal korrigierte Artikel haben den Bearbeitungsstand: fertig.

Arbeitsschritte

Die Arbeitsschritte Transkription, 1. Korrekturlesen und 2. Korrekturlesen sollen von verschiedenen Personen durchgeführt werden, um eine höhere Qualität sicherzustellen. Es ist bei größeren Buchprojekten, bei denen mehrere Bearbeiter den gleichen Arbeitsschritt tun, ratsam, auf der Projektübersichtsseite zu dokumentieren, wer welche Seiten in welchem Bearbeitungsschritt behandelt hat. Das erleichtert die Gewährleistung, dass nicht eine Person die gleichen Seiten in mehreren Korrekturschritten bearbeitet hat. (Beispiel: Tagebuch 1812 Ernst von Baumbach - Napoleons Russlandfeldzug#Bearbeitungsstand)

Schema

unvollständig Transkription
unkorrigiert 1. Korrekturlesen
korrigiert 2. Korrekturlesen
fertig

Bearbeitungsstand der Projektbeschreibungsseite

Zu jedem Buch in der Digitalen Bibliothek gibt es eine sogenannte Projektbeschreibungsseite. Das ist die Seite, die von jeder Seite des Buches aus unter dem Haupttitel zu erreichen ist. Auch diese Seite führt einen Bearbeitungsstand. Er bleibt so lange auf unvollständig, bis alle Seiten des Buches mindestens den Bearbeitungsstand unkorrigiert erreicht haben. Dann kann er auf "unkorrigiert" gesetzt werden. Haben alle Seiten mindestens den Status "korrigiert" erreicht, erhält die Projektbeschreibungsseite ebenfalls den Status "korrigiert" und erst wenn alle Seiten den Status "fertig" erreicht haben, erhält auch die Projektbeschreibungsseite den Status "fertig".