Portal:DigiBib/OCR erkennen - aber wie?

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
< Portal:DigiBib
Version vom 14. Mai 2012, 18:19 Uhr von SMuennich (Diskussion • Beiträge) (OCR ausgegliedert)
(Unterschied) ← Nächstältere Version • aktuelle Version ansehen (Unterschied) • Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Verwendung von OCR-Texten

Liegt ein OCR-Text vor, so kann dies die Erstellung der Abschrift oftmals wesentlich erleichtern.

Die Verwendbarkeit eines OCR-Textes muss jedoch zuvor geprüft werden. OCR-Texte, in denen praktisch jedes Wort mit OCR-Fehlern bestückt ist, eignen sich naturgemäß nicht, der Korrekturaufwand würde den vermeintlichen Vorteil übersteigen. Oft liegen mehrere OCR-Texte vor, die vor Verwendung verglichen werden können, um so „den besten“ zu ermitteln.

OCR-Texte von Google Books

Über eine ID eines Buches bei Google Books kann man (oftmals) zum OCR-Text bei Google-Books gelangen. Hierzu kann man folgende URL probieren:

http://books.google.com/books?id=ID&output=text&pg=SEITENCODE

Dabei ist:

  • ID = ID des Buches bei Google Books (12-stellig, bestehend aus Groß- und Kleinbuchstaben sowie dem Minuszeichen und dem Unterstrich. – Die Groß- bzw. Kleinschreibung in dieser 12-stelligen ID ist unbedingt zu beachten!)
  • SEITENCODE = meist PAnnn, wobei nnn die Seitenzahl, also z.B. PA7 für Seite 7, PA39 für Seite 39 oder PA177 für Seite 177

Achtung: Angezeigt wird immer ein Textblock von ca. 5 Seiten. Die Paginierung bei Google Books kann allerdings von der Vorlage abweichen, dann ist ggf. durch Vor- oder Zurückblättern die entsprechende Seite ermitteln. Bei OCR-Fehlern enthält die Textanzeige oft eingebettete Grafiken (der nicht „übersetzten“ Textabschnitte) oder Fehlermeldungen wie [ocr errors] oder [graphic].

Konkretes Beispiel (für einen brauchbaren OCR-Text):
OCR-Text für Seite 77 des Buches Geschichte und Genealogie der Dynasten von Westerburg (Lehmann):

  • ID = 0JVAAAAAcAAJ
  • SEITENCODE = PA77

Somit lautet die URL: http://books.google.com/books?id=0JVAAAAAcAAJ&output=text&pg=PA77

Konkretes Beispiel (für einen unbrauchbaren OCR-Text):

  • ID = sRJMAAAAcAAJ
  • SEITENCODE = PP8

Somit lautet die URL: http://books.google.com/books?id=sRJMAAAAcAAJ&output=text&pg=PP8 (schwer verstümmelter Text, ferner mit Grafiken und Fehlermeldungen durchsetzt)

Ist der OCR-Text für Google Books für eine bestimmte ID unbrauchbar, so kann er für eine andere ID desselben Buches durchaus gut sein (oft sind ja mehrere Google-Book-IDs pro Buch bekannt). Es kann sich also lohnen, die OCR-Texte für alle Google-Book-IDs eines Buches anzusehen bzw. diese zu vergleichen.

Achtung: Google Books zeigt deutschen Benutzern (d.h. zu Anfragen über eine deutsche IP-Adresse) in der Regel die Suchergebnisse zu Büchern im Zeitraum von ca. 1870 bis ca. 1910/1923 nur in eingeschränkter Ansicht an. In diesem Fall wird zunächst auch kein OCR-Text angezeigt. Wie dieses ggf. überwunden werden kann, siehe hierzu: Abschnitt „Vollansicht für Bücher im Zeitraum von ca. 1870 bis ca. 1910/1923“ auf der GenWiki-Seite Google Books.

OCR-Texte vom Internet Archive (archive.org)

Auf der Digitalisat-Seite eines Buches im Internet Archive (archive.org) gelangt man über den Link „Full Text“ zum jeweiligen OCR-Text. Auch hier gilt das bereits Gesagte zur Verwendbarkeit bzw. zum Vergleich mit anderen OCR-Texten.