SlownikGeo: Unterschied zwischen den Versionen

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Zur Navigation springen Zur Suche springen
(Update)
 
(30 dazwischenliegende Versionen von 5 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
[[en:SlownikGeo]]
[[en:SlownikGeo]]
=Projektbeschreibung=
=Projektbeschreibung=
Das Projekt wurde im Jahr 2015 beendet. Die extrahierten Seiten liegen aufbereitet mit teilweise Aufösung der Abkürzungen als Text vor und sind bei Comgen archiviert.
Hier finden Sie die [[SlownikGeo_-_Polnische_Beschreibung_-|Beschreibung des Projektes in Polnisch.]]
Hier finden Sie die [[SlownikGeo_-_Polnische_Beschreibung_-|Beschreibung des Projektes in Polnisch.]]


==Einleitung==
==Einleitung==
Texterschließung und Übersetzung der 16 Bände (14 785 Seiten) der Buchreihe: '''[[Slownik Geograficzny Krolestwa Polskiego|Słownik Geograficzny Królestwa Polskiego]] ''' ''(i innych krajów slowianskich)'' (1880 - 1902)- ''(deutsch: Geographisches Lexikon des Königreiches Polen (und anderer slawischer Länder))'' - aus dem Polnischen ins Deutsche und Aufbereitung der darin enthaltenen Daten für das Genealogische Ortsverzeichnis [[GOV]], [[GenWiki]] und [http://www.hicleones.com Hic Leones].
Texterschließung und Übersetzung der 16 Bände (14 785 Seiten) der Buchreihe: '''[[Słownik Geograficzny Królestwa Polskiego]] ''' ''(i innych krajów slowianskich)'' (1880 - 1902)  ''(deutsch: Geographisches Lexikon des Königreiches Polen (und anderer slawischer Länder))'' - aus dem Polnischen ins Deutsche und Aufbereitung der darin enthaltenen Daten für das Genealogische Ortsverzeichnis [[GOV]], [[GenWiki]] und Hic Leones.


Um sich einen Begriff zu machen, welche Arbeit der Herausgeber Filip Sulimierski und seine fast 700 Mitarbeiter in den Jahren 1880 - 1902 geleistet haben, vergegenwärtige man sich, dass der gesamte Text des Słownik Geograficzny (hintereinandergereiht als ein einziger Textfaden) eine Länge von etwa 130000 km hat (d.h. mehr als 3-mal um den Äquator ...).


==Vorgeschichte==
==Vorgeschichte==
2003 veröffentlichte die [http://www.pgsa.org PGSA] die 16 Bände des Słownik Geograficzny Królestwa Polskiego auf [http://www.pgsa.org/Towns/SlownikReview.htm CD-ROM] (DJVU-Format). Dieses Projekt wurde durchgeführt von Rafał T. Prinke (Chefredakteur), Poznan, Poland, (Digitalisierung: Michał and Stanisław Prinke) und  mit weiterem Material von William F. Hoffman und finanziert durch die PGSA (Projekt-Manager: Kenneth Czerwinski; Projekt-Kommittee: Marcia Bergman, Jim Czuchra, Virginia Hill, Rosalie Lindberg, Annmarie Utroska und Stanley Schmidt). Einige Einträge wurden durch Mitglieder der PGSA ins Englische übersetzt [http://www.pgsa.org/Towns/TownIndex.htm].
2003 veröffentlichte die [http://www.pgsa.org PGSA] die 16 Bände des Słownik Geograficzny Królestwa Polskiego auf [http://www.pgsa.org/Towns/SlownikReview.htm CD-ROM] (DJVU-Format). Dieses Projekt wurde durchgeführt von Rafał T. Prinke (Chefredakteur), Poznan, Poland, (Digitalisierung: Michał and Stanisław Prinke) und  mit weiterem Material von William F. Hoffman und finanziert durch die PGSA (Projekt-Manager: Kenneth Czerwinski; Projekt-Kommittee: Marcia Bergman, Jim Czuchra, Virginia Hill, Rosalie Lindberg, Annmarie Utroska und Stanley Schmidt). Einige Einträge wurden durch Mitglieder der PGSA ins Englische übersetzt [http://www.pgsa.org/Towns/SlownikReview.php].


===Idee===
===Idee===
Die Bände des Słownik Geograficzny auf der CD-ROM der PGSA enthalten Beschreibungen aller Regionen, Städte, Dörfer und anderer Orte, Berge, Flüsse und Seen des Königreichs [[Polen]] (Kongresspolen) und im slawischen Sprachraum: die baltischen, westlichen und südlichen Gubernien (Gouvernements) des Russischen Reichs, [[Westpreußen]] und [[Ostpreußen]], das Großherzogtum [[Posen]] und [[Schlesien|Preußisch Schlesien]], [[Galizien]], [[Wolhynien]], [[Podolien]], [[Polesien]], [[Österreich-Schlesien|Österreichisch Schlesien]], [[Mähren]], die slovakischen Teile von [[Ungarn]] und der [[Bukowina]], und zusätzlich auch weitere wichtige Orte in den übrigen [[Gubernien]] im europäischen Russland (als da sind Landsitze, Kirchspiele, Eisenbahnstationen etc.) (geschätzt: etwa 315 000 - 350 000 Einträge), aber  
Die Bände des Słownik Geograficzny auf der CD-ROM der PGSA enthalten Beschreibungen aller Regionen, Städte, Dörfer und anderer Orte, Berge, Flüsse und Seen des Königreichs [[Polen]] (Kongresspolen) und im slawischen Sprachraum: die baltischen, westlichen und südlichen Gubernien (Gouvernements) des Russischen Reichs, [[Westpreußen]] und [[Ostpreußen]], das Großherzogtum [[Posen]] und [[Schlesien|Preußisch Schlesien]], [[Galizien]], [[Wolhynien]], [[Podolien]], [[Polesien]], [[Österreich-Schlesien|Österreichisch Schlesien]], [[Mähren]], die slovakischen Teile von [[Ungarn]] und der [[Bukowina]], und zusätzlich auch weitere wichtige Orte in den übrigen [[Gubernie|Gubernien]] im europäischen Russland (als da sind Landsitze, Kirchspiele, Eisenbahnstationen etc.) (geschätzt: etwa 315 000 - 350 000 Einträge), aber  


* es handelt sich um BILD-Dateien, die man nicht auf jeden Begriff hin absuchen kann und  
* es handelt sich um BILD-Dateien, die man nicht auf jeden Begriff hin absuchen kann und  
Zeile 22: Zeile 26:


===Vorarbeiten===
===Vorarbeiten===
Der Vorversuch, die BILD-Dateien der Słownik-Geograficzny-CD-ROM durch OCR (Texterkennung) zu digitalisieren, ergab sehr gute Resultate (> 95 % korrekte TEXT-Dateien), einschließlich der spezifischen polnischen  Schriftzeichen.
Der Vorversuch, die BILD-Dateien der Słownik-Geograficzny-CD-ROM durch OCR (Texterkennung mit FineReader, Ver. 6.0) zu digitalisieren, ergab sehr gute Resultate (> 95 % korrekte TEXT-Dateien), einschließlich der spezifischen polnischen  Schriftzeichen.


===Rechtliches===
===Rechtliches===
[http://www.hicleones.com/catalog/impressum.php?language=de H.V.J.Kolbe (Hic Leones)] kontaktierte die PGSA ([http://www.pgsa.org/about.htm Public Relations: Mrs. Cynthia Piech, Chicago]) schriftlich mit Beispielen dieser OCR-Resultate und mit folgendem Vorschlag:
H.V.J.Kolbe (Hic Leones) kontaktierte die PGSA schriftlich mit Beispielen dieser OCR-Resultate und mit folgendem Vorschlag:


*Die PGSA stellt Hic Leones die Bilddateien des Słownik Geograficzny offiziell und unentgeltlich zur Verfügung, um die gesamten 14 785 Seiten von BILD-Dateien in TEXT-Dateien zu überführen.
*Die PGSA stellt Hic Leones die Bilddateien des Słownik Geograficzny offiziell und unentgeltlich zur Verfügung, um die gesamten 14 785 Seiten von BILD-Dateien in TEXT-Dateien zu überführen.
Zeile 33: Zeile 37:
Die PGSA stand diesem Angebot positiv gegenüber und im Sept. 2005 erhielt H.V.J.Kolbe eine positive schriftliche Zusage des PGSA-Vorstandes (Board of Directors). Damit war die legale Seite der Datenverwendung geklärt und zusätzlich ein neuer, interessanter Kontakt (PGSA ) zur Familienforschung in Polen geschaffen.
Die PGSA stand diesem Angebot positiv gegenüber und im Sept. 2005 erhielt H.V.J.Kolbe eine positive schriftliche Zusage des PGSA-Vorstandes (Board of Directors). Damit war die legale Seite der Datenverwendung geklärt und zusätzlich ein neuer, interessanter Kontakt (PGSA ) zur Familienforschung in Polen geschaffen.


Dieses Ergebnis wurde von Hic Leones 2005 auf dem [http://www.genealogienetz.de/genealogentag/2005/ 57. Genealogentag in Hannover] bekannt gegeben. Die PGSA verkündete diese Allianz gleichzeitig auf der [http://www.pgsa.org/PGSAConf27.htm 27th Annual Conference in Schaumburg/IL].
Dieses Ergebnis wurde von Hic Leones 2005 auf dem [http://www.genealogienetz.de/genealogentag/2005/ 57. Genealogentag in Hannover] bekannt gegeben.


Ende Sept. 2005 war die TEXT-Digitalisierung aller 14 785 Seiten des Słownik Geograficzny abgeschlossen und Ende Okt. 2005 wurde der gesamte polnischen Text auf CD an Cynthia Piech geschickt.
Ende Sept. 2005 war die TEXT-Digitalisierung aller 14 785 Seiten des Słownik Geograficzny abgeschlossen und Ende Okt. 2005 wurde der gesamte polnischen Text auf CD an Cynthia Piech geschickt.


==Das Projekt==
==Das Projekt==
Zeile 51: Zeile 54:


====Hic Leones====
====Hic Leones====
http://www.hicleones.com
*Konzept und Koordination des Projektes
*Texterkennung (OCR) der 14 785 Seiten des Słownik Geograficzny und Speicherung im Textformat
*Texterkennung (OCR) der 14 785 Seiten des Słownik Geograficzny und Speicherung im Textformat
*Konzept und Koordination des Projektes
*Zusammenstellung eines 1000-seitigen PL => D Lexikons von 1879 im PDF-Format (frei für Mitarbeiter)
*letzte Aktivität Dezember 2013


<!--
====CompGen====
====CompGen====
[[CompGen|(Verein für Computergenealogie e. V.)]]
[[CompGen|(Verein für Computergenealogie e. V.)]]
Zeile 63: Zeile 67:


====FGG (Forschungsgruppe Grafschaft Glatz)====
====FGG (Forschungsgruppe Grafschaft Glatz)====
http://www.genealogienetz.de/vereine/AGoFF/fst/fgr_glat.htm
http://www.familienforschung-grafschaft-glatz.de/html/projects/projects.html


*Zugang zu einem Übersetzungsprogramm PL => D zur Vor/Roh-Übersetzung des Textes
*Zugang zu einem Übersetzungsprogramm PL => D zur Vor/Roh-Übersetzung des Textes


===Voraussetzungen===
===Voraussetzungen===
Zeile 94: Zeile 97:
*<font color="green">Erstellung einer kontinuierlich zu erweiternden Wort-für-Wort Übersetzungsliste (seit Anfang Jan. 2007).</font>
*<font color="green">Erstellung einer kontinuierlich zu erweiternden Wort-für-Wort Übersetzungsliste (seit Anfang Jan. 2007).</font>


*<font color="green">Zusammenfassung des Projektes in einem Übersichtsartikel für die Zeitschrift 'Computergenealogie' (Anfang Feb. 2007)</font>, <font color="red">Publikation Ende März 2007.</font>
*<font color="green">Zusammenfassung des Projektes in einem Übersichtsartikel für die Zeitschrift 'Computergenealogie' (Anfang Feb. 2007, Publikation Ende März 2007.</font>


*<font color="green">Intern: Entfernung von systematischen OCR-Fehlern, unnötigen Bindestrichen und Leerzeichen; Einfügen von Leerzeilen hinter jeden einzelnen geographischen Eintrag. (kontinuierlich ab Mitte Feb. 2007).</font>
*<font color="green">Intern: Entfernung von systematischen OCR-Fehlern, unnötigen Bindestrichen und Leerzeichen; Einfügen von Leerzeilen hinter jeden einzelnen geographischen Eintrag. (kontinuierlich ab Mitte Feb. 2007).</font>
*<font color="green">Intern: Dokumentiertes Suche/Ersetze der polnischen Abkürzungen durch deutsche Abkürzungen (kontinuierlich ab Mitte/Ende Feb. 2007).</font>
*<font color="green">Intern: Dokumentiertes Suche/Ersetze von weiteren (ca. 300) Standardbegriffen (kontinuierlich ab Mitte/Ende Feb. 2007).</font>
*<font color="green">Intern: Erstellung von Listen geographischer Begriffe, die nach bestimmten Verwaltungsbezeichnungen (-Gub.- und -Pow.-) folgen. Dies geschieht durch Parser-Analyse. Diese Begriffe werden dann nach Varianten eines bestimmten Hauptbegriffes sortiert und in Folge in der Datenbank homogen durch diesen Hauptbegriff ersetzt (kontinuierlich seit Mitte Mai 2007).</font>
*<font color="green">Intern: Dokumentiertes Suche/Ersetze von weiteren (ca. 800) Standardbegriffen (d.h. Grundwortschatz) der polnischen Sprache (kontinuierlich ab Mitte Jun. 2007).</font>
*<font color="green">Intern: Alle geographische Begriffe, die auf die Bezeichnung 'Kom.' folgen (d.h. Komitat, d.h. Verwaltungseinheit in Ungarn; Vorkommen auf etwa 1100 Seiten), sind von den polnischen auf die ungarischen Begriffe standardisiert worden (Juni/July 2007).</font>
*<font color="green">[http://wiki-commons.genealogy.net/w/images/a/ad/SlownikGeo-Genealogentag2007.pdf Vorstellung und Vortrag des Projektes] auf dem [http://www.genealogentag.de Genealogentag 2007] in Ludwigshafen (Thema: "Ortsbezüge in der Genealogie") (15. Sept. 2007, 18:15h).</font>
*<font color="green">Intern: Die Formatierung (Leerzeile zwischen einzelnen Einträgen) wurde abgeschlossen nach zweimaligem Parsen über den gesamten Text und manueller Korrektur der angezeigten potentiellen Fehlstellen (Sept. 2007).</font>
*<font color="green">Für das SlownikGeo Projekt werden viele Freiwillige benötigt. Nach Absprache mit den Listen-Moderatoren: Ansage des Projektes in den genealogischen Mailinglisten (2008) und Aufruf zur externen Mitarbeit. Wiederholung dieser Ansage (mit kurzem Fortschrittsbericht): etwa alle 2 Monate.
**Änderung: Mittlerweile hat sich ein anderer Arbeitsmodus etabliert: Ein Hauptübersetzer zusammen mit mehreren anderen Personen, die Polnisch als Muttersprache haben, damit die übersetzung in standardisierter Form erfolgt. Mitarbeit von Freiwilligen wird also erst nötig (Kontakt: Peter Lingnau), wenn komplett übersetzte Datensätze ins GenWiki oder ins GOV eingearbeitet werden müssen.</font>


*<font color="red">Erstellung eines Glossars, welche polnischen Begriffe beibehalten werden und separat erklärt werden sollten (in Zusammenarbeit mit Prof. Eichler, Leipzig) (ab Mitte/Ende Feb. 2007).</font>
*<font color="red">Erstellung eines Glossars, welche polnischen Begriffe beibehalten werden und separat erklärt werden sollten (in Zusammenarbeit mit Prof. Eichler, Leipzig) (ab Mitte/Ende Feb. 2007).</font>


*<font color="red">Intern: Dokumentiertes Suche/Ersetze der polnischen Abkürzungen durch deutsche Abkürzungen (kontinuierlich ab Mitte/Ende Feb. 2007).</font>
*<font color="green">Entsprechende Aufrufe in Vereinszeitschriften (kontinuierlich ab Ende Juli 2007).
**Änderung: Kann entfallen.</font>
 
*<font color="red">Einarbeitung von übersetzten und korrigierten Seiten in GOV und Hic Leones: Sobald eine Seite erschlossen ist, wird sie entsprechend markiert (und gegen weitere Veränderungen geschützt) und an Mitarbeiter überführt, die die dort beschriebenen Orte in GOV eintragen (kontinuierlich ab Januar 2011).</font>


*<font color="red">Intern: Dokumentiertes Suche/Ersetze von weiteren (ca. 300) Standardbegriffen (kontinuierlich ab Mitte/Ende Feb. 2007).</font>
*<font color="green">Aus der bisherigen Arbeit hat sich folgendes ergeben:
**Korrektur in der Datenbank durch Suchen/Ersetzen hat sich als aufwändiger gestaltet als vorhergesehen wurde (Ein Grund ist, dass einige Ortsnamen nur ein einziges Mal im Gesamttext vorkommen, aber trotzdem im Original verglichen und verifiziert werden müssen). Pro Jahr können dadurch nur etwa das Äquivalent eines Bandes (etwa 960 Seiten) übersetzt werden, d.h. Ende 2010 werden etwa 3 Bände übersetzt sein. Geplanter Abschluss des Projektes (vorsichtige Schätzung): A.D. 2023.</font>


*<font color="red">Für das SlownikGeo Projekt werden viele Freiwillige benötigt. Nach Absprache mit den Listen-Moderatoren: Ansage des Projektes in den genealogischen Mailinglisten (Mitte März 2007) und Aufruf zur externen Mitarbeit. Wiederholung dieser Ansage (mit kurzem Fortschrittsbericht): etwa alle 2 Monate.</font>
Die polnischen Autoren dieses Werkes benötigten 22 Jahre zur Recherche, Erfassung, Korrektur und Edition dieser enzyklopädischen Serie. Mit den Mitteln der derzeitigen Technik sollte deshalb die Übersetzung und Einarbeitung in einem Viertel dieser Zeit, d.h. 5 - 6 Jahre, zu bewältigen sein ...


*<font color="red">Entsprechende Aufrufe in Vereinszeitschriften (kontinuierlich ab Mitte März 2007).</font>)
===Status Quo===
Hier wird in unregelmässigen Abständen die Veränderung des Textes in der Arbeitsdatenbank demonstriert.


*<font color="red">Vorstellung des Projektes auf dem [http://www.genealogentag.de Genealogentag 2007] in Ludwigshafen (Thema: "Ortsbezüge in der Genealogie") (Sept. 2007).</font>
Von den 14785 Seiten wurde 1 Seite (Seite 406, Band 6) willkürlich ausgewählt.


*<font color="red">Einarbeitung von übersetzten und korrigierten Seiten in GOV und Hic Leones: Sobald eine Seite erschlossen ist, wird sie entsprechend markiert (und gegen weitere Veränderungen geschützt) und an Mitarbeiter überführt, die die dort beschriebenen Orte in GOV eintragen (kontinuierlich ab März 2007).</font>
(a) die Originalseite aus dem Buch


*<font color="red">Geplanter Abschluss des Projektes (vorsichtige Schätzung): A.D. 2011.</font>
(b) die Seite als OCR-Rohtext, d.h. direkt nach dem Import der Seite in die Arbeitsdatenbank und


Die polnischen Autoren dieses Werkes benötigten 22 Jahre zur Recherche, Erfassung, Korrektur und Edition dieser enzyklopädischen Serie. Mit den Mitteln der derzeitigen Technik sollte deshalb die Übersetzung und Einarbeitung in einem Viertel dieser Zeit, d.h. 5 - 6 Jahre, zu bewältigen sein ...
(c) die Seite nach globaler Formatierung, Entfernen unnötiger Leerstellen und Bearbeitung von OCR-Fehlern.
 
[OCR = Optical Character Recognition = maschinelle Texterkennung]


==Beispiel der Zusammenarbeit mit einem Übersetzer==
==Beispiel der Zusammenarbeit mit einem Übersetzer==
Zeile 132: Zeile 159:
Erledigte Seiten stehen für GOV, GenWiki und Hic Leones zur Einarbeitung zur Verfügung.</ref>. Wenn er/sie mit der Übersetzung fertig ist, schickt er/sie die 10 Textdateien wieder an den Absender zurück, der sie nun wieder mit der Arbeitsdatenbank vereinigt (Re-Import) und entsprechend zur Weiterverarbeitung markiert.
Erledigte Seiten stehen für GOV, GenWiki und Hic Leones zur Einarbeitung zur Verfügung.</ref>. Wenn er/sie mit der Übersetzung fertig ist, schickt er/sie die 10 Textdateien wieder an den Absender zurück, der sie nun wieder mit der Arbeitsdatenbank vereinigt (Re-Import) und entsprechend zur Weiterverarbeitung markiert.


-->


==Noch Fragen? Interesse an einer Mitarbeit?==
[[Kategorie:Genealogisches Projekt]]
Wenden Sie sich bitte an:


Dr. Hanno V. J. Kolbe (Koordinator)<br />
==Vortrag==
6, rue des Tuiliers<br />
Auf dem 59. Deutschen Genealogentag am 15.9.2007 in Ludwigshafen wurde das Projekt vorgestellt. Hier der Vortrag als [http://wiki-commons.genealogy.net/images/a/ad/SlownikGeo-Genealogentag2007.pdf PDF-File] (1 MB).
67204 Achenheim/Frankreich<br />
E-Mail: mailto:kolbe@hicleones.com
 
Peter Lingnau (Co-Koordinator, GOV)<br /
Spicherer Str. 43<br />
86157 Augsburg<br />
E-Mail: mailto:PeterLingnau(at)yahoo.de
 
[[Kategorie:Genealogisches Projekt]]


== Anmerkungen ==
== Anmerkungen ==
<references/>
<references/>

Aktuelle Version vom 27. Dezember 2021, 22:02 Uhr

en:SlownikGeo

Projektbeschreibung

Das Projekt wurde im Jahr 2015 beendet. Die extrahierten Seiten liegen aufbereitet mit teilweise Aufösung der Abkürzungen als Text vor und sind bei Comgen archiviert.

Hier finden Sie die Beschreibung des Projektes in Polnisch.

Einleitung

Texterschließung und Übersetzung der 16 Bände (14 785 Seiten) der Buchreihe: Słownik Geograficzny Królestwa Polskiego (i innych krajów slowianskich) (1880 - 1902) (deutsch: Geographisches Lexikon des Königreiches Polen (und anderer slawischer Länder)) - aus dem Polnischen ins Deutsche und Aufbereitung der darin enthaltenen Daten für das Genealogische Ortsverzeichnis GOV, GenWiki und Hic Leones.

Um sich einen Begriff zu machen, welche Arbeit der Herausgeber Filip Sulimierski und seine fast 700 Mitarbeiter in den Jahren 1880 - 1902 geleistet haben, vergegenwärtige man sich, dass der gesamte Text des Słownik Geograficzny (hintereinandergereiht als ein einziger Textfaden) eine Länge von etwa 130000 km hat (d.h. mehr als 3-mal um den Äquator ...).

Vorgeschichte

2003 veröffentlichte die PGSA die 16 Bände des Słownik Geograficzny Królestwa Polskiego auf CD-ROM (DJVU-Format). Dieses Projekt wurde durchgeführt von Rafał T. Prinke (Chefredakteur), Poznan, Poland, (Digitalisierung: Michał and Stanisław Prinke) und mit weiterem Material von William F. Hoffman und finanziert durch die PGSA (Projekt-Manager: Kenneth Czerwinski; Projekt-Kommittee: Marcia Bergman, Jim Czuchra, Virginia Hill, Rosalie Lindberg, Annmarie Utroska und Stanley Schmidt). Einige Einträge wurden durch Mitglieder der PGSA ins Englische übersetzt [1].

Idee

Die Bände des Słownik Geograficzny auf der CD-ROM der PGSA enthalten Beschreibungen aller Regionen, Städte, Dörfer und anderer Orte, Berge, Flüsse und Seen des Königreichs Polen (Kongresspolen) und im slawischen Sprachraum: die baltischen, westlichen und südlichen Gubernien (Gouvernements) des Russischen Reichs, Westpreußen und Ostpreußen, das Großherzogtum Posen und Preußisch Schlesien, Galizien, Wolhynien, Podolien, Polesien, Österreichisch Schlesien, Mähren, die slovakischen Teile von Ungarn und der Bukowina, und zusätzlich auch weitere wichtige Orte in den übrigen Gubernien im europäischen Russland (als da sind Landsitze, Kirchspiele, Eisenbahnstationen etc.) (geschätzt: etwa 315 000 - 350 000 Einträge), aber

  • es handelt sich um BILD-Dateien, die man nicht auf jeden Begriff hin absuchen kann und
  • es ist polnischer Text, der nicht jedem (deutschen) Forscher direkt zugänglich ist.

Es ist also wünschenswert, diesen Schatz an Informationen für Kultur- und Familienforscher als

  • TEXT-Datei (mit globalen Suchfunktionen absuchbar) und
  • in deutscher Sprache zugänglich zu machen.

Vorarbeiten

Der Vorversuch, die BILD-Dateien der Słownik-Geograficzny-CD-ROM durch OCR (Texterkennung mit FineReader, Ver. 6.0) zu digitalisieren, ergab sehr gute Resultate (> 95 % korrekte TEXT-Dateien), einschließlich der spezifischen polnischen Schriftzeichen.

Rechtliches

H.V.J.Kolbe (Hic Leones) kontaktierte die PGSA schriftlich mit Beispielen dieser OCR-Resultate und mit folgendem Vorschlag:

  • Die PGSA stellt Hic Leones die Bilddateien des Słownik Geograficzny offiziell und unentgeltlich zur Verfügung, um die gesamten 14 785 Seiten von BILD-Dateien in TEXT-Dateien zu überführen.
  • Als Gegenleistung erhält die PGSA diese TEXT-Dateien von Hic Leones für eigene Zwecke (z.B. Übersetzung ins Englische, weitere CDs (nun Text + Bild) etc.) ohne weitere Auflagen.

Die PGSA stand diesem Angebot positiv gegenüber und im Sept. 2005 erhielt H.V.J.Kolbe eine positive schriftliche Zusage des PGSA-Vorstandes (Board of Directors). Damit war die legale Seite der Datenverwendung geklärt und zusätzlich ein neuer, interessanter Kontakt (PGSA ) zur Familienforschung in Polen geschaffen.

Dieses Ergebnis wurde von Hic Leones 2005 auf dem 57. Genealogentag in Hannover bekannt gegeben.

Ende Sept. 2005 war die TEXT-Digitalisierung aller 14 785 Seiten des Słownik Geograficzny abgeschlossen und Ende Okt. 2005 wurde der gesamte polnischen Text auf CD an Cynthia Piech geschickt.

Das Projekt

Modus

Wissenschaftliche Zusammenarbeit.

Projekt Partner und deren Beteiligung

PGSA (Polish Genealogical Society of America)

http://www.pgsa.org

  • Scannen der 14 785 Seiten des Słownik Geograficzny und Speicherung im Bildformat
  • Edition des Słownik Geograficzny Królestwa Polskiego auf CD-ROM

Hic Leones

  • Konzept und Koordination des Projektes
  • Texterkennung (OCR) der 14 785 Seiten des Słownik Geograficzny und Speicherung im Textformat
  • Zusammenstellung eines 1000-seitigen PL => D Lexikons von 1879 im PDF-Format (frei für Mitarbeiter)
  • letzte Aktivität Dezember 2013

Vortrag

Auf dem 59. Deutschen Genealogentag am 15.9.2007 in Ludwigshafen wurde das Projekt vorgestellt. Hier der Vortrag als PDF-File (1 MB).

Anmerkungen