VK-Tabelle/Familienzusammenstellung: Unterschied zwischen den Versionen
K (intern test) |
Arend (Diskussion • Beiträge) K (typo) |
||
(7 dazwischenliegende Versionen von einem anderen Benutzer werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
=Methode zur Familienzusammenstellung aus CSV-Dateien= | |||
==Grundsätzliches== | |||
Mit "Methode" sind hier nicht bestehende Methoden zur Familienrekonstitution gemeint, die generell ein wichtiger Aspekt bei der Erstellung eines [[Ortsfamilienbuch]]es ist, sondern es geht um die praktische Umsetzung am konkreten Beispiel einer Datenbasis in Form einer [[CSV-Datei]]. | |||
Hier wird zunächst am Beispiel der Verkartung von Taufmatrikeln ein Weg zur Zusammenführung von Familien in einer [[CSV-Datei]] oder Tabelle aufgezeigt. | |||
Hier wird zunächst am Beispiel der Verkartung von Taufmatrikeln ein Weg zur Zusammenführung von Familien in einer CSV-Datei oder Tabelle aufgezeigt. | |||
Die gleiche Systematik ist aber auch unter Hinzuziehung der Heiratsmatrikel prinzipiell genauso anwendbar. | Die gleiche Systematik ist aber auch unter Hinzuziehung der Heiratsmatrikel prinzipiell genauso anwendbar. | ||
Zeile 14: | Zeile 12: | ||
==Arbeitsschritte== | ==Arbeitsschritte== | ||
Die Methode wurde anhand der Taufdaten einer Pfarrei mit 5655 Taufeinträgen im Zeitraum von 1628-1798 entwickelt und getestet. | Die Methode wurde anhand der Taufdaten einer Pfarrei mit 5655 Taufeinträgen im Zeitraum von 1628-1798 entwickelt und getestet. | ||
Die im sogenannten CSV-Format in chronologischer Reihenfolge der Einträge vorliegenden Daten werden zunächst normiert und dann durch bestimmte Sortierverfahren nach Kleinfamilien geordnet, die durch eine Nummer eindeutig gekennzeichnet werden. | Die im sogenannten CSV-Format in chronologischer Reihenfolge der Einträge vorliegenden Daten werden zunächst normiert bzw. standardisiert und dann durch bestimmte Sortierverfahren nach Kleinfamilien geordnet, die durch eine Nummer eindeutig gekennzeichnet werden. | ||
Diese Verarbeitung der CSV-Datei kann mit einem Tabellenkalkulationsprogramm wie openoffice.calc oder mit CSVed erfolgen. | Diese Verarbeitung der CSV-Datei kann mit einem Tabellenkalkulationsprogramm wie openoffice.calc oder mit CSVed erfolgen. | ||
Zeile 56: | Zeile 55: | ||
Das nachfolgend beschriebene Verfahren garantiert insbesondere eine höhere Sicherheit bei der Familienzusammenstellung als dies bei einer direkten Zusammenstellung beispielsweise in einem Genealogieprogramm ohne vorherige Abschrift/Verkartung gegeben wäre. | Das nachfolgend beschriebene Verfahren garantiert insbesondere eine höhere Sicherheit bei der Familienzusammenstellung als dies bei einer direkten Zusammenstellung beispielsweise in einem Genealogieprogramm ohne vorherige Abschrift/Verkartung gegeben wäre. | ||
Dann erfolgt eine Sortierung beispielsweise | Dann erfolgt eine Sortierung beispielsweise mit [[Benutzer:WGRichter/VK-Tabelle/Hilfsmittel|openoffice.calc]] über den Befehl "Daten" und "Sortieren". Die Sortierung erfolgt in einem Arbeitsschritt in der Reihenfolge über jeweils drei Spalten: | ||
'''1. Sortierung:''' | |||
Zunächst erfolgt eine erste Sortierung nach den Namen des Vaters: | |||
*Familienname Vater normiert | |||
*Vorname Vater normiert | |||
*Jahr des Taufeintrags | |||
Nach der Sortierung wird für alle Familien, die zu diesem Zeitpunkt eindeutig zugeordnet werden können, eine eindeutige Nummer fortlaufend vergeben. | |||
In der Beispieldatei konnten in diesem ersten Schritt 5259 von 5655 Einträgen zugeordnet werden, was einer Quote von rund 93% entspricht. | In der Beispieldatei konnten in diesem ersten Schritt 5259 von 5655 Einträgen zugeordnet werden, was einer Quote von rund 93% entspricht. | ||
'''2. Sortierung''' | |||
Im zweiten Schritt erfolgt die Sortierung der Datei nach: | Im zweiten Schritt erfolgt die Sortierung der Datei nach dem Namen der Mutter: | ||
*Familienname Mutter normiert | |||
*Vorname Mutter normiert | |||
*Jahr des Taufeintrags | |||
In einem dritten Schritt erfolgt eine Sortierung nach: | Nach dieser Sortierung wurden im Beispiel weitere 217 Einträge zugeordnet, was einer Gesamtquote von 96,8% entspricht. | ||
Vorname Vater normiert | |||
Vorname Mutter normiert | Hierbei muss aber auch berücksichtigt werden, dass durch die zusätzliche Sortierung im Bereich der Normierung fehlende Namen ergänzt und Fehler korrigiert werden können. | ||
Jahr des Eintrags | |||
'''3. Sortierung''' | |||
In einem dritten Schritt erfolgt eine Sortierung nach den Vornamen von Vater und Mutter, um ggf. noch Familien zu finden, bei denen die Angabe des Familiennamens auch beim Vater (teilweise) fehlt: | |||
*Vorname Vater normiert | |||
*Vorname Mutter normiert | |||
*Jahr des Eintrags | |||
Dieser Arbeitsschritt ermöglicht insbesondere auch die Korrektur etwaiger Fehler bei der Vornamennormierung oder eine Verstärkung der Normierung. | Dieser Arbeitsschritt ermöglicht insbesondere auch die Korrektur etwaiger Fehler bei der Vornamennormierung oder eine Verstärkung der Normierung. | ||
Im dritten Schritt konnten im Beispiel "nur noch" 29 Einträge eindeutig den | Im dritten Schritt konnten im Beispiel "nur noch" 29 Einträge eindeutig den Familien zugeordnet werden, was einer geringen Verbesserung von 96,8% auf 97,3% der Zuordnungen entspricht. | ||
'''4. Sortierung''' | |||
Zur Kontrolle | Zur Kontrolle der vorgenommenen Zuordnung wird vorgeschlagen, Daten nochmals ensprechend des ersten Schritts nach den Namen des Vaters zu sortieren und die Zuordnungen zu überprüfen. | ||
---- | |||
Nach Fertigstellung der Familienzusammenführung kann die Datei beispielsweise für die Übergabe an ein Genealogieprogramm vorbereitet werden, wie unter [[VK-Tabelle/GEDCOM-Transfer|GEDCOM-Transfer]] beschrieben. | |||
Die [[VK-Tabelle/Auswertung|Auswertung]] kann aber auch in einem Datenbankprogramm etc. erfolgen. | |||
[[Kategorie:VK-Tabelle]] |
Aktuelle Version vom 24. Juli 2006, 08:35 Uhr
Methode zur Familienzusammenstellung aus CSV-Dateien
Grundsätzliches
Mit "Methode" sind hier nicht bestehende Methoden zur Familienrekonstitution gemeint, die generell ein wichtiger Aspekt bei der Erstellung eines Ortsfamilienbuches ist, sondern es geht um die praktische Umsetzung am konkreten Beispiel einer Datenbasis in Form einer CSV-Datei.
Hier wird zunächst am Beispiel der Verkartung von Taufmatrikeln ein Weg zur Zusammenführung von Familien in einer CSV-Datei oder Tabelle aufgezeigt. Die gleiche Systematik ist aber auch unter Hinzuziehung der Heiratsmatrikel prinzipiell genauso anwendbar.
Es wird bewusst von "Methode" gesprochen, da es sich hierbei um kein Programm handelt und die Abläufe zunächst manuell erfolgen.
Es ist ohnehin fraglich, inwieweit die Familienzusammenstellung überhaupt zu automatisieren ist. Allerdings könnten einige Teile der beschriebenen Methode von Programmmodulen unterstützt werden.
Arbeitsschritte
Die Methode wurde anhand der Taufdaten einer Pfarrei mit 5655 Taufeinträgen im Zeitraum von 1628-1798 entwickelt und getestet.
Die im sogenannten CSV-Format in chronologischer Reihenfolge der Einträge vorliegenden Daten werden zunächst normiert bzw. standardisiert und dann durch bestimmte Sortierverfahren nach Kleinfamilien geordnet, die durch eine Nummer eindeutig gekennzeichnet werden. Diese Verarbeitung der CSV-Datei kann mit einem Tabellenkalkulationsprogramm wie openoffice.calc oder mit CSVed erfolgen.
Nach diesem Verfahren konnten 5505 von 5655 Taufeinträgen den Kleinfamilien zugeordnet werden. Dies entspricht einer Zuordnung von über 97%.
Die Eltern der Kleinfamilien kommen in der Datei nur einmal vor. Dubletten entstehen allenfalls bei mehreren Ehen einer Person, die aber erst unter Beachtung der Heirats- und Sterbedaten ausgewertet werden sollten.
Normierung der Namen
Die "Normierung" der Namen erfolgt in zusätzlichen Spalten der Tabelle.
Alle vorhandenen Daten und somit die gesamte "Verkartung" mit allen Originalangaben der Primärquelle bleiben erhalten und können bei der weiteren Erstellung des Ortsfamilienbuches jederzeit schnell gefunden und eingesehen werden.
Die Daten wurden zunächst nach der Spalte mit den Vornamen des Vaters des Täuflings sortiert und dann mit dem Kopierbefehl die vereinheitlichten Namen eingetragen.
Hierbei werden insbesondere lateinische und ältere deutsche Namensformen durch heute übliche Namen und Schreibweisen ersetzt.
Nach der Sortierung kann ein größerer Block mit dem Kopierbefehl automatisch ausgefüllt werden. So konnten im Beispiel in einem Arbeitsschritt insgesamt 538 der 5655 Einträge durch den normierten Vornamen "Heinrich" ergänzt werden. Der Zeitaufwand hierfür liegt im Sekundenbereich. Heinrich wurde u.a. den Variationen Henrich, Hendrich, Henrig, Henricus, Tricus, Heinrich, Heinricus, Hinderich und Henricuß zugeordnet.
Folgende Spalten für die Normierung von Namen wurden im Beispiel eingefügt:
- Vorname Vater normiert
- Familienname Vater normiert
- Vorname Täufling normiert
- Vorname Mutter normiert
- Familienname Mutter normiert
Nach der Normierung der Namen und entsprechender Sortierung nach den jeweiligen Vornamen wurden ergänzende Spalten für das Geschlecht der Personen eingefügt, bei denen dies sich nicht aus deren Stellung in der Familie von selbst ergibt:
- Geschlecht Täufling
- Geschlecht der Paten (falls diese als Personen übertragen werden sollen)
Familienzusammenstellung
Die zuvor beschriebene Normierung der Namen erleichtert die nun folgende Sortierung der Einträge und Zusammenführung der Familien durch Vergabe einer "Familiennummer".
Die Tabelle wird um eine Spalte "FAM_NR" für die Familiennummer ergänzt.
Das nachfolgend beschriebene Verfahren garantiert insbesondere eine höhere Sicherheit bei der Familienzusammenstellung als dies bei einer direkten Zusammenstellung beispielsweise in einem Genealogieprogramm ohne vorherige Abschrift/Verkartung gegeben wäre.
Dann erfolgt eine Sortierung beispielsweise mit openoffice.calc über den Befehl "Daten" und "Sortieren". Die Sortierung erfolgt in einem Arbeitsschritt in der Reihenfolge über jeweils drei Spalten:
1. Sortierung:
Zunächst erfolgt eine erste Sortierung nach den Namen des Vaters:
- Familienname Vater normiert
- Vorname Vater normiert
- Jahr des Taufeintrags
Nach der Sortierung wird für alle Familien, die zu diesem Zeitpunkt eindeutig zugeordnet werden können, eine eindeutige Nummer fortlaufend vergeben.
In der Beispieldatei konnten in diesem ersten Schritt 5259 von 5655 Einträgen zugeordnet werden, was einer Quote von rund 93% entspricht.
2. Sortierung
Im zweiten Schritt erfolgt die Sortierung der Datei nach dem Namen der Mutter:
- Familienname Mutter normiert
- Vorname Mutter normiert
- Jahr des Taufeintrags
Nach dieser Sortierung wurden im Beispiel weitere 217 Einträge zugeordnet, was einer Gesamtquote von 96,8% entspricht.
Hierbei muss aber auch berücksichtigt werden, dass durch die zusätzliche Sortierung im Bereich der Normierung fehlende Namen ergänzt und Fehler korrigiert werden können.
3. Sortierung
In einem dritten Schritt erfolgt eine Sortierung nach den Vornamen von Vater und Mutter, um ggf. noch Familien zu finden, bei denen die Angabe des Familiennamens auch beim Vater (teilweise) fehlt:
- Vorname Vater normiert
- Vorname Mutter normiert
- Jahr des Eintrags
Dieser Arbeitsschritt ermöglicht insbesondere auch die Korrektur etwaiger Fehler bei der Vornamennormierung oder eine Verstärkung der Normierung.
Im dritten Schritt konnten im Beispiel "nur noch" 29 Einträge eindeutig den Familien zugeordnet werden, was einer geringen Verbesserung von 96,8% auf 97,3% der Zuordnungen entspricht.
4. Sortierung
Zur Kontrolle der vorgenommenen Zuordnung wird vorgeschlagen, Daten nochmals ensprechend des ersten Schritts nach den Namen des Vaters zu sortieren und die Zuordnungen zu überprüfen.
Nach Fertigstellung der Familienzusammenführung kann die Datei beispielsweise für die Übergabe an ein Genealogieprogramm vorbereitet werden, wie unter GEDCOM-Transfer beschrieben.
Die Auswertung kann aber auch in einem Datenbankprogramm etc. erfolgen.