Portal:DigiBib/OCR erkennen - aber wie?
Verwendung von OCR-Texten
Liegt ein OCR-Text vor, so kann dies die Erstellung der Abschrift oftmals wesentlich erleichtern.
Die Verwendbarkeit eines OCR-Textes muss jedoch zuvor geprüft werden. OCR-Texte, in denen praktisch jedes Wort mit OCR-Fehlern bestückt ist, eignen sich naturgemäß nicht, der Korrekturaufwand würde den vermeintlichen Vorteil übersteigen. Oft liegen mehrere OCR-Texte vor, die vor Verwendung verglichen werden können, um so „den besten“ zu ermitteln.
OCR-Texte von Google Books
Über eine ID eines Buches bei Google Books kann man (oftmals) zum OCR-Text bei Google-Books gelangen. Hierzu kann man folgende URL probieren:
http://books.google.com/books?id=ID&output=text&pg=SEITENCODE
Dabei ist:
ID
= ID des Buches bei Google Books (12-stellig, bestehend aus Groß- und Kleinbuchstaben sowie dem Minuszeichen und dem Unterstrich. – Die Groß- bzw. Kleinschreibung in dieser 12-stelligen ID ist unbedingt zu beachten!)SEITENCODE
= meist PAnnn
, wobeinnn
die Seitenzahl, also z.B. PA7 für Seite 7, PA39 für Seite 39 oder PA177 für Seite 177
Achtung: Angezeigt wird immer ein Textblock von ca. 5 Seiten. Die Paginierung bei Google Books kann allerdings von der Vorlage abweichen, dann ist ggf. durch Vor- oder Zurückblättern die entsprechende Seite ermitteln. Bei OCR-Fehlern enthält die Textanzeige oft eingebettete Grafiken (der nicht „übersetzten“ Textabschnitte) oder Fehlermeldungen wie [ocr errors] oder [graphic].
Konkretes Beispiel (für einen brauchbaren OCR-Text):
OCR-Text für Seite 77 des Buches Geschichte und Genealogie der Dynasten von Westerburg (Lehmann):
ID
= 0JVAAAAAcAAJSEITENCODE
= PA77
Somit lautet die URL: http://books.google.com/books?id=0JVAAAAAcAAJ&output=text&pg=PA77
Konkretes Beispiel (für einen unbrauchbaren OCR-Text):
ID
= sRJMAAAAcAAJSEITENCODE
= PP8
Somit lautet die URL: http://books.google.com/books?id=sRJMAAAAcAAJ&output=text&pg=PP8 (schwer verstümmelter Text, ferner mit Grafiken und Fehlermeldungen durchsetzt)
Ist der OCR-Text für Google Books für eine bestimmte ID unbrauchbar, so kann er für eine andere ID desselben Buches durchaus gut sein (oft sind ja mehrere Google-Book-IDs pro Buch bekannt). Es kann sich also lohnen, die OCR-Texte für alle Google-Book-IDs eines Buches anzusehen bzw. diese zu vergleichen.
Achtung: Google Books zeigt deutschen Benutzern (d.h. zu Anfragen über eine deutsche IP-Adresse) in der Regel die Suchergebnisse zu Büchern im Zeitraum von ca. 1870 bis ca. 1910/1923 nur in eingeschränkter Ansicht an. In diesem Fall wird zunächst auch kein OCR-Text angezeigt. Wie dieses ggf. überwunden werden kann, siehe hierzu: Abschnitt „Vollansicht für Bücher im Zeitraum von ca. 1870 bis ca. 1910/1923“ auf der GenWiki-Seite Google Books.
OCR-Texte vom Internet Archive (archive.org)
Auf der Digitalisat-Seite eines Buches im Internet Archive (archive.org) gelangt man über den Link „Full Text“ zum jeweiligen OCR-Text. Auch hier gilt das bereits Gesagte zur Verwendbarkeit bzw. zum Vergleich mit anderen OCR-Texten.