Portal:DigiBib/OCR erkennen - aber wie?

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Zur Navigation springen Zur Suche springen

Bei sehr großen Textmengen kann die manuelle Texterfassung durch das sogenannte OCR-Verfahren (optical character recognition – optische Zeichenerkennung) unterstützt oder sogar ersetzt werden. Grundlage dafür sind jedoch technisch sehr gute Scanvorlagen (Auflösung, Ausrichtung) sowie inhaltlich wenige Formatierungen der Textvorlage (Fließtext, gleichbleibende Schrifttypen).

Zu technischen Hintergründen beim OCR-Verfahren siehe den Artikel Texterkennung. In: Wikipedia, Die freie Enzyklopädie.

Erstellen eigener OCR-Texte

Vorgehensweise

Programme

Erfahrungsberichte

Verwendung von vorhandenen OCR-Texten

Liegt ein OCR-Text des entsprechenden Digitalisats bereits vor (z. B. durch GoogleBooks, archive.org), so kann dies die oben beschriebenen Schritte ersparen und somit die Erstellung der Abschrift nochmals wesentlich erleichtern.

Die Verwendbarkeit eines OCR-Textes muss jedoch zuvor geprüft werden. OCR-Texte, in denen praktisch jedes Wort mit OCR-Fehlern bestückt ist, eignen sich naturgemäß nicht, der Korrekturaufwand würde den vermeintlichen Vorteil übersteigen. Oft liegen mehrere OCR-Texte vor, die vor Verwendung verglichen werden können, um so „den besten“ zu ermitteln.

OCR-Texte von Google Books

Über eine ID eines Buches bei Google Books kann man (oftmals) zum OCR-Text bei Google-Books gelangen. Hierzu kann man folgende URL probieren:

http://books.google.com/books?id=ID&output=text&pg=SEITENCODE

Dabei ist:

  • ID = ID des Buches bei Google Books (12-stellig, bestehend aus Groß- und Kleinbuchstaben sowie dem Minuszeichen und dem Unterstrich. – Die Groß- bzw. Kleinschreibung in dieser 12-stelligen ID ist unbedingt zu beachten!)
  • SEITENCODE = meist PAnnn, wobei nnn die Seitenzahl, also z.B. PA7 für Seite 7, PA39 für Seite 39 oder PA177 für Seite 177

Achtung: Angezeigt wird immer ein Textblock von ca. 5 Seiten. Die Paginierung bei Google Books kann allerdings von der Vorlage abweichen, dann ist ggf. durch Vor- oder Zurückblättern die entsprechende Seite ermitteln. Bei OCR-Fehlern enthält die Textanzeige oft eingebettete Grafiken (der nicht „übersetzten“ Textabschnitte) oder Fehlermeldungen wie [ocr errors] oder [graphic].

Konkretes Beispiel (für einen brauchbaren OCR-Text):
OCR-Text für Seite 77 des Buches Geschichte und Genealogie der Dynasten von Westerburg (Lehmann):

  • ID = 0JVAAAAAcAAJ
  • SEITENCODE = PA77

Somit lautet die URL: http://books.google.com/books?id=0JVAAAAAcAAJ&output=text&pg=PA77

Konkretes Beispiel (für einen unbrauchbaren OCR-Text):

  • ID = sRJMAAAAcAAJ
  • SEITENCODE = PP8

Somit lautet die URL: http://books.google.com/books?id=sRJMAAAAcAAJ&output=text&pg=PP8 (schwer verstümmelter Text, ferner mit Grafiken und Fehlermeldungen durchsetzt)

Ist der OCR-Text für Google Books für eine bestimmte ID unbrauchbar, so kann er für eine andere ID desselben Buches durchaus gut sein (oft sind ja mehrere Google-Book-IDs pro Buch bekannt). Es kann sich also lohnen, die OCR-Texte für alle Google-Book-IDs eines Buches anzusehen bzw. diese zu vergleichen.

Achtung: Google Books zeigt deutschen Benutzern (d.h. zu Anfragen über eine deutsche IP-Adresse) in der Regel die Suchergebnisse zu Büchern im Zeitraum von ca. 1870 bis ca. 1910/1923 nur in eingeschränkter Ansicht an. In diesem Fall wird zunächst auch kein OCR-Text angezeigt. Wie dieses ggf. überwunden werden kann, siehe hierzu: Abschnitt „Vollansicht für Bücher im Zeitraum von ca. 1870 bis ca. 1910/1923“ auf der GenWiki-Seite Google Books.

OCR-Texte vom Internet Archive (archive.org)

Auf der Digitalisat-Seite eines Buches im Internet Archive (archive.org) gelangt man über den Link „Full Text“ zum jeweiligen OCR-Text. Auch hier gilt das bereits Gesagte zur Verwendbarkeit bzw. zum Vergleich mit anderen OCR-Texten.