VK-Tabelle/Familienzusammenstellung: Unterschied zwischen den Versionen
K (test) |
K (Test intern) |
||
Zeile 1: | Zeile 1: | ||
ACHTUNG NUR TESTSEITE - NOCH NICHT FREIGEGEBEN - DIENT NUR DER ÜBERARBEITUNG DES INHALTS | |||
------[[Benutzer:WGRichter|WGRichter]] 20:21, 20. Oct 2004 (CEST) | |||
---- | |||
Arbeitsschritte zur Aufbereitung von Taufdaten im CSV-Format zur Zusammenführung von Familien als Vorarbeit für die Erstellung eines Ortsfamilienbuches | |||
Ein Vorschlag zur Arbeitsmethode von Willi G. Richter | |||
Nachfolgend soll an einem Beispiel aus einem Projekt zur Bearbeitung eines Kirchenbuches eine Methode zur Zusammenführung von Verkartungsdaten zu Kleinfamilien gezeigt werden. | |||
Es geht hierbei in keiner Weise um eine qualitative Bewertung von Verkartungen und Ortsfamilienbüchern | |||
Beispieldateien sollen einen Einblick in den Arbeitsablauf bieten. | |||
Ziel ist die Vermeidung doppelter Eingabearbeit. | |||
Projekt | |||
Die Daten basieren im Beispiel auf einer teils vorhandenen, teils ergänzten, buchstabengetreuen Abschrift von Kirchenbüchern einer Pfarrei aus dem Rheinland. | |||
Die Taufdaten erstrecken sich auf die Zeit von 1628-1798. | |||
In diesem Zeitraum gab es in der Pfarrei 5655 Taufeinträge. | |||
Ziel der Bearbeitung ist die Erstellung eines Ortsfamilienbuches basierend auf den Daten der Abschrift bzw. Verkartung. Die Verkartungsarbeit ist für die Heiraten und Sterbefälle noch nicht abgeschlossen, weshalb hier nur die Taufen erfasst werden. | |||
Methode | |||
Die im sogenannten CSV-Format [= Textdateien mit definiertem Trennzeichen und Zeilenwechsel nach einem Datensatz] in chronologischer Reihenfolge der Einträge vorliegenden Daten werden zunächst normiert und dann durch bestimmte Sortierverfahren nach Kleinfamilien geordnet, die durch eine Nummer eindeutig gekennzeichnet werden. | |||
Diese Verarbeitung der CSV-Datei kann mit einem Tabellenkalkulationsprogramm wie openoffice.calc oder MS-Excel erfolgen. | |||
Das Beispiel zeigt die Bearbeitung von Taufdaten. Nach dem gleichen Prinzip könnten aber auch die Heiratsdaten in die Tabelle integriert werden. | |||
Ergebnis | |||
Als Ergebnis wurde im vorliegenden Fall eine Tabelle erzeugt, die mittels "GedTool" in eine GEDCOM-Datei gewandelt wurde. Diese Datei ist im Beispiel auf das Genealogieprogramm Ages abgestimmt, kann aber auch von anderen Programmen gelesen werden. | |||
Nach der Methode konnten bis zur Erstellung der GEDCOM-Datei 5505 von 5655 Taufeinträgen den Kleinfamilien zugeordnet werden. Dies entspricht einer Zuordnung von über 97%. | |||
Die Eltern der Kleinfamilien kommen in der Datei nur einmal vor. Dubletten entstehen allenfalls bei mehreren Ehen einer Person, die aber erst unter Beachtung der Heirats- und Sterbedaten ausgewertet werden sollten. | |||
---- | |||
Die Daten wurden durch eine umfangreiche Umformatierung in eine strukturierte Abschrift gewandelt, die im wesentlichen einer Verkartung mit Tabellenkalkulationsprogrammen entspricht. | |||
Das erste Beispiel zeigt die Daten in einer Textdatei mit Tabulatortrennung, wie sie auch von Excel gelesen oder erzeugt werden kann. | |||
Die Textdatei ist bei den 5655 Taufen rund 600 KB groß. Die entsprechende Exceltabelle benötigt über 3 MB. | |||
Seite 4 und 5 als TAB-getrennte Textdatei | |||
Die gleichen Daten zur besseren Übersicht in einer HTML-Tabelle: | |||
---- | |||
Normierung der Namen | |||
Die "Normierung" der Namen erfolgt in zusätzlichen Spalten der Tabelle. Alle vorhandenen Daten und somit die gesamte "Verkartung" mit allen Originalangaben bleiben erhalten und können bei der weiteren Erstellung des Ortsfamilienbuches jederzeit schnell gefunden und eingesehen werden. | |||
Der nachfolgende Ausschnitt aus der Tabelle zeigt eine zusätzliche Spalte "VN_VT_N". | |||
Die Daten wurden zunächst nach der Spalte mit den Vornamen des Vaters des Täuflings sortiert und dann mit dem Kopierbefehl die vereinheitlichten Namen eingetragen. | |||
Tabelle mit Vornamenvereinheitlichung | |||
Im Beispiel ist die Tabelle schon wieder anders sortiert worden. | |||
---- | |||
Beispieltabelle nach Normierung | |||
Bei dieser Tabelle wurden ergänzende Spalten eingefügt und ausgefüllt für: | |||
Vorname Vater normiert | |||
Geschlecht Vater | |||
Familienname Vater normiert | |||
Vorname Täufling normiert | |||
Geschlecht Täufling | |||
Vorname Mutter normiert | |||
Geschlecht Mutter | |||
Vornamen der Paten normiert | |||
Geschlecht der Paten | |||
Tabellenausschnitt mit Normierungen | |||
Im weiteren Beispiel werden aber die Patenangaben zunächst als Anmerkungstext in die GEDCOM-Datei übernommen, weil die Verknüpfung erst zu einem späteren Zeitpunkt in einem Genealogieprogramm erfolgen soll. | |||
Für die GEDCOM-Datei sind auch die Geschlechtsangaben bei Vater und Mutter überflüssig, die sich von selbst ergeben. Die Geschlechtsangaben zu den Paten wurden ebenfalls im weiteren Verlauf vernachlässigt, weil diese ohnehin nur aus den rekonstruiert sind und nicht im Kirchenbucheintrag angegeben werden. | |||
---- | |||
Sortierung der Einträge und Zusammenführung der Familien | |||
Die Tabelle wird um eine Spalte "FAM_NR" für die Familiennummer ergänzt. | |||
Das nachfolgend beschriebene Verfahren garantiert eine höhere Sicherheit bei der Familienzusammenstellung als dies bei einer direkten Zusammenstellung beispielsweise in einem Genealogieprogramm ohne vorherige Abschrift/Verkartung gegeben wäre. | |||
Dann erfolgt eine Sortierung beispielsweise in Excel über den Befehl "Daten" >>> "Sortieren". Die Sortierung erfolgt in einem Arbeitsschritt in der Reihenfolge über die Spalten: | |||
Familienname Vater normiert | |||
Vorname Vater normiert | |||
Jahr des Taufeintrags | |||
Nach der Sortierung wird für alle Familien, die eindeutig zugeordnet werden können, eine eindeutige Nummer fortlaufend vergeben. | |||
In der Beispieldatei konnten in diesem ersten Schritt 5259 von 5655 Einträgen zugeordnet werden, was einer Quote von rund 93% entspricht. | |||
Das Ergebnis zeigt die erste Tabelle | |||
Im zweiten Schritt erfolgt die Sortierung der Datei nach: | |||
Familienname Mutter normiert | |||
Vorname Mutter normiert | |||
Jahr des Taufeintrags | |||
Nach dieser Sortierung konnten weitere 217 Einträge zugeordnet werden, was einer Gesamtquote von 96,8% entspricht. | |||
Hierbei muss aber auch berücksichtigt werden, dass durch die zusätzliche Sortierung fehlende Namen ergänzt und Fehler korrigiert werden können. | |||
Die Beispieltabelle sieht folgendermaßen aus:Sortierung nach Namen der Mutter | |||
In einem dritten Schritt erfolgt eine Sortierung nach: | |||
Vorname Vater normiert | |||
Vorname Mutter normiert | |||
Jahr des Eintrags | |||
Das Ergebnis zeigt die Tabelle: Vornamensortierung | |||
Dieser Arbeitsschritt ermöglicht insbesondere auch die Korrektur etwaiger Fehler bei der Vornamennormierung oder eine Verstärkung der Normierung. | |||
Im dritten Schritt konnten im Beispiel "nur noch" 29 Einträge eindeutig den Familen zugeordnet werden, was einer geringen Verbesserung von 96,8% auf 97,3% der Zuordnungen entspricht. | |||
Zur Kontrolle schlage ich vor die Daten nochmals nach Version zu sortieren und zu überprüfen. | |||
---- |
Version vom 20. Oktober 2004, 18:21 Uhr
ACHTUNG NUR TESTSEITE - NOCH NICHT FREIGEGEBEN - DIENT NUR DER ÜBERARBEITUNG DES INHALTS
WGRichter 20:21, 20. Oct 2004 (CEST)
Arbeitsschritte zur Aufbereitung von Taufdaten im CSV-Format zur Zusammenführung von Familien als Vorarbeit für die Erstellung eines Ortsfamilienbuches
Ein Vorschlag zur Arbeitsmethode von Willi G. Richter
Nachfolgend soll an einem Beispiel aus einem Projekt zur Bearbeitung eines Kirchenbuches eine Methode zur Zusammenführung von Verkartungsdaten zu Kleinfamilien gezeigt werden.
Es geht hierbei in keiner Weise um eine qualitative Bewertung von Verkartungen und Ortsfamilienbüchern
Beispieldateien sollen einen Einblick in den Arbeitsablauf bieten.
Ziel ist die Vermeidung doppelter Eingabearbeit.
Projekt
Die Daten basieren im Beispiel auf einer teils vorhandenen, teils ergänzten, buchstabengetreuen Abschrift von Kirchenbüchern einer Pfarrei aus dem Rheinland. Die Taufdaten erstrecken sich auf die Zeit von 1628-1798. In diesem Zeitraum gab es in der Pfarrei 5655 Taufeinträge. Ziel der Bearbeitung ist die Erstellung eines Ortsfamilienbuches basierend auf den Daten der Abschrift bzw. Verkartung. Die Verkartungsarbeit ist für die Heiraten und Sterbefälle noch nicht abgeschlossen, weshalb hier nur die Taufen erfasst werden.
Methode
Die im sogenannten CSV-Format [= Textdateien mit definiertem Trennzeichen und Zeilenwechsel nach einem Datensatz] in chronologischer Reihenfolge der Einträge vorliegenden Daten werden zunächst normiert und dann durch bestimmte Sortierverfahren nach Kleinfamilien geordnet, die durch eine Nummer eindeutig gekennzeichnet werden. Diese Verarbeitung der CSV-Datei kann mit einem Tabellenkalkulationsprogramm wie openoffice.calc oder MS-Excel erfolgen. Das Beispiel zeigt die Bearbeitung von Taufdaten. Nach dem gleichen Prinzip könnten aber auch die Heiratsdaten in die Tabelle integriert werden.
Ergebnis
Als Ergebnis wurde im vorliegenden Fall eine Tabelle erzeugt, die mittels "GedTool" in eine GEDCOM-Datei gewandelt wurde. Diese Datei ist im Beispiel auf das Genealogieprogramm Ages abgestimmt, kann aber auch von anderen Programmen gelesen werden. Nach der Methode konnten bis zur Erstellung der GEDCOM-Datei 5505 von 5655 Taufeinträgen den Kleinfamilien zugeordnet werden. Dies entspricht einer Zuordnung von über 97%. Die Eltern der Kleinfamilien kommen in der Datei nur einmal vor. Dubletten entstehen allenfalls bei mehreren Ehen einer Person, die aber erst unter Beachtung der Heirats- und Sterbedaten ausgewertet werden sollten.
Die Daten wurden durch eine umfangreiche Umformatierung in eine strukturierte Abschrift gewandelt, die im wesentlichen einer Verkartung mit Tabellenkalkulationsprogrammen entspricht.
Das erste Beispiel zeigt die Daten in einer Textdatei mit Tabulatortrennung, wie sie auch von Excel gelesen oder erzeugt werden kann. Die Textdatei ist bei den 5655 Taufen rund 600 KB groß. Die entsprechende Exceltabelle benötigt über 3 MB.
Seite 4 und 5 als TAB-getrennte Textdatei
Die gleichen Daten zur besseren Übersicht in einer HTML-Tabelle:
Normierung der Namen
Die "Normierung" der Namen erfolgt in zusätzlichen Spalten der Tabelle. Alle vorhandenen Daten und somit die gesamte "Verkartung" mit allen Originalangaben bleiben erhalten und können bei der weiteren Erstellung des Ortsfamilienbuches jederzeit schnell gefunden und eingesehen werden.
Der nachfolgende Ausschnitt aus der Tabelle zeigt eine zusätzliche Spalte "VN_VT_N". Die Daten wurden zunächst nach der Spalte mit den Vornamen des Vaters des Täuflings sortiert und dann mit dem Kopierbefehl die vereinheitlichten Namen eingetragen.
Tabelle mit Vornamenvereinheitlichung
Im Beispiel ist die Tabelle schon wieder anders sortiert worden.
----
Beispieltabelle nach Normierung
Bei dieser Tabelle wurden ergänzende Spalten eingefügt und ausgefüllt für:
Vorname Vater normiert
Geschlecht Vater
Familienname Vater normiert
Vorname Täufling normiert
Geschlecht Täufling
Vorname Mutter normiert
Geschlecht Mutter
Vornamen der Paten normiert
Geschlecht der Paten
Tabellenausschnitt mit Normierungen
Im weiteren Beispiel werden aber die Patenangaben zunächst als Anmerkungstext in die GEDCOM-Datei übernommen, weil die Verknüpfung erst zu einem späteren Zeitpunkt in einem Genealogieprogramm erfolgen soll. Für die GEDCOM-Datei sind auch die Geschlechtsangaben bei Vater und Mutter überflüssig, die sich von selbst ergeben. Die Geschlechtsangaben zu den Paten wurden ebenfalls im weiteren Verlauf vernachlässigt, weil diese ohnehin nur aus den rekonstruiert sind und nicht im Kirchenbucheintrag angegeben werden.
----
Sortierung der Einträge und Zusammenführung der Familien
Die Tabelle wird um eine Spalte "FAM_NR" für die Familiennummer ergänzt.
Das nachfolgend beschriebene Verfahren garantiert eine höhere Sicherheit bei der Familienzusammenstellung als dies bei einer direkten Zusammenstellung beispielsweise in einem Genealogieprogramm ohne vorherige Abschrift/Verkartung gegeben wäre.
Dann erfolgt eine Sortierung beispielsweise in Excel über den Befehl "Daten" >>> "Sortieren". Die Sortierung erfolgt in einem Arbeitsschritt in der Reihenfolge über die Spalten:
Familienname Vater normiert
Vorname Vater normiert
Jahr des Taufeintrags
Nach der Sortierung wird für alle Familien, die eindeutig zugeordnet werden können, eine eindeutige Nummer fortlaufend vergeben.
In der Beispieldatei konnten in diesem ersten Schritt 5259 von 5655 Einträgen zugeordnet werden, was einer Quote von rund 93% entspricht.
Das Ergebnis zeigt die erste Tabelle
Im zweiten Schritt erfolgt die Sortierung der Datei nach:
Familienname Mutter normiert
Vorname Mutter normiert
Jahr des Taufeintrags
Nach dieser Sortierung konnten weitere 217 Einträge zugeordnet werden, was einer Gesamtquote von 96,8% entspricht.
Hierbei muss aber auch berücksichtigt werden, dass durch die zusätzliche Sortierung fehlende Namen ergänzt und Fehler korrigiert werden können.
Die Beispieltabelle sieht folgendermaßen aus:Sortierung nach Namen der Mutter
In einem dritten Schritt erfolgt eine Sortierung nach: Vorname Vater normiert Vorname Mutter normiert Jahr des Eintrags Das Ergebnis zeigt die Tabelle: Vornamensortierung
Dieser Arbeitsschritt ermöglicht insbesondere auch die Korrektur etwaiger Fehler bei der Vornamennormierung oder eine Verstärkung der Normierung.
Im dritten Schritt konnten im Beispiel "nur noch" 29 Einträge eindeutig den Familen zugeordnet werden, was einer geringen Verbesserung von 96,8% auf 97,3% der Zuordnungen entspricht.
Zur Kontrolle schlage ich vor die Daten nochmals nach Version zu sortieren und zu überprüfen.