Duplikats-Differenz-Vergleich: Unterschied zwischen den Versionen
Zur Navigation springen
Zur Suche springen
(Grundaufbau) |
(Grundaufbau (HK)) |
||
Zeile 4: | Zeile 4: | ||
* Duplikats-Differenz-Vergleich | * Duplikats-Differenz-Vergleich | ||
== Problembeschreibung == | == Problembeschreibung == | ||
Zeile 33: | Zeile 28: | ||
* Sie wollen nicht die ca. 23.000 Duplikate wissen (das sind zu viele!) | * Sie wollen nicht die ca. 23.000 Duplikate wissen (das sind zu viele!) | ||
* Sie wollen nur die seit dem letzten | * Sie wollen nur die seit dem letzten Jahr entstandenen Duplikate (Duplikats-Differenzen) in einer Liste haben, welche sich jetzt differieren (unterscheiden) | ||
* Die Anzahl der Duplikats-Differenzen kann unter Umständen sehr gering sein, wenn zum Beispiel von wenigen Personen ausgehend weiter geforscht wird (siehe "Duplikats-Differenzen" in der Grafik "Eine kleine Geschichte") | * Die Anzahl der Duplikats-Differenzen kann unter Umständen sehr gering sein, wenn zum Beispiel von wenigen Personen ausgehend weiter geforscht wird (siehe "Duplikats-Differenzen" in der Grafik "Eine kleine Geschichte") | ||
* Die Auswahl der Vergleichs-Kriterien spielt die entscheidene Rolle für das Ergebnis | * Die Auswahl der Vergleichs-Kriterien spielt die entscheidene Rolle für das Ergebnis | ||
* Grundlagen-Duplikate ermitteln: Eine Vergleichsmöglichkeit sind Geburtstage. Es gibt noch viele weitere Möglichkeiten, welche hier aber nicht näher betrachtet werden sollen --> Übersichtlichkeit der Darstellung. Mit etwas Phantasie kann es sich jeder etwas darunter vorstellen. Mit dem Hilfsprogramm [[ | * Grundlagen-Duplikate ermitteln: Eine Vergleichsmöglichkeit sind Geburtstage. Es gibt noch viele weitere Möglichkeiten, welche hier aber nicht näher betrachtet werden sollen --> Übersichtlichkeit der Darstellung. Mit etwas Phantasie kann es sich jeder etwas darunter vorstellen. Mit dem Hilfsprogramm [[GENViewer]] kann eine Datenbereitstellung vorgenommen werden. Beispiele von weiteren Merkmalen sind im Ergebnis-Bereich angeführt | ||
* Duplikats-Differenz(en) mittels eines Vergleichs der erweiterten Grundagen-Duplikate ermitteln: Die Erweiterung | * Duplikats-Differenz(en) mittels eines Vergleichs der erweiterten Grundagen-Duplikate ermitteln: Die Erweiterung sind zum Beispiel die Elterngeburtstage (Vatergeburtstag und Muttergeburtstag) | ||
:* Beispiel: | :* Beispiel: | ||
:: Personengeburtstag: 12.05.1850 | :: Personengeburtstag: 12.05.1850 | ||
:: Vatergeburtstag: 16.08.1819 | :: Vatergeburtstag: 16.08.1819 | ||
:: Muttergeburtstag: 24.07.1822 | ::Muttergeburtstag: 24.07.1822 | ||
=== Problem-Lösungsansatz-Detail === | === Problem-Lösungsansatz-Detail === | ||
* Sie entschließen sich zu der oben angeführten Variante des Dulikats-Differenz-Vergleichs die lautet: | * Sie entschließen sich zu der oben angeführten Variante des Dulikats-Differenz-Vergleichs die lautet: | ||
:* 1) Grundlagen-Duplikate mittels | :* 1) Tabelle der Personendaten erstellen (z.B.: mit dem Hilfsprogramm [[GENViewer]]) | ||
::(Grundvergleich der beiden Genealogien nur nach | :* 2) Grundlagen-Duplikate mittels Geburtstag feststellen (12.05.1850) | ||
:* | ::(Grundvergleich der beiden Genealogien nur nach Geburtstag aller Personendaten gegeneinander) | ||
:* | :* 3) Grundlagen-Duplikate mit mit deren Vater- und Muttergeburtstag (12.05.1850|16.08.1819|24.07.1822)erweitern | ||
:* 4) Duplikats-Differenz-Vergleich mit den erweiterten Grundlagen-Duplikate (aus 2) durchführen und dabei die Duplikats-Differenzen feststellen. | |||
:* 5) Ergebnis des Duplikats-Differenz-Vergleich | |||
::'''===> '''fertig ist der '''Duplikats-Differenz-Vergleich''' [[Bild:Smile.png||Ein Smiley]] | ::'''===> '''fertig ist der '''Duplikats-Differenz-Vergleich''' [[Bild:Smile.png||Ein Smiley]] | ||
=== Problem- | === Problem-Lösungsweg-Grafik === | ||
[[Bild:Duplikats-Differenz-Vergleich_Problem-Lösungsweg-Grafik 01.jpg|700px|thumb|center||Problem-Lösungsweg-Grafik 1-2]] | |||
[[Bild:Duplikats-Differenz-Vergleich_Problem-Lösungsweg-Grafik 02.jpg|700px|thumb|center||Problem-Lösungsweg-Grafik 3-5]] | |||
Zeile 63: | Zeile 59: | ||
== Bisherige Umsetzung == | == Bisherige Umsetzung == | ||
* Die Daten wurden mit einem entsprechenden Programm (z.B.: [[GENViewer]]) nach CSV kopiert und dann in eine Datenbank gebracht. | * Die Daten wurden mit einem entsprechenden Programm (z.B.: [[GENViewer]]) nach CSV kopiert und dann in eine Datenbank (z.B.: Access/Open Office) gebracht. | ||
* Anschließend wird der '''Duplikats-Differenz-Vergleich''' nach dem vorgenannten Verfahren '''von Hand''' ausgeführt. | * Anschließend wird der '''Duplikats-Differenz-Vergleich''' nach dem vorgenannten Verfahren '''von Hand''' ausgeführt. | ||
* Schnelle Ergebnisse sind mit Datenbanken (z.B.: Access) ohne Probleme schnell umsetzbar | * Schnelle Ergebnisse sind mit Datenbanken (z.B.: Access/Open Office) ohne Probleme schnell umsetzbar | ||
== Gewünschte Umsetzung == | == Gewünschte Umsetzung == | ||
* vollautomatischer Duplikats-Differenz-Vergleich (damit jeder Anwender in der Lage ist, diesen etwas komplizierten Vergleich selbständig auszuführen. | * vollautomatischer Duplikats-Differenz-Vergleich (damit jeder Anwender in der Lage ist, diesen etwas komplizierten Vergleich selbständig auszuführen. | ||
:* Das beschriebene Verfahren des Duplikats-Differenz-Vergleich wurde dem Programmhersteller von [[GENMatcher]] schon mitgeteilt und in unseren Mailinglisten im Jahr 2005 ausgiebig diskutiert. | |||
:* Mit den unterstützenden Bildern konnte das komplexe Thema etwas besser dargestellt werden. | |||
== Ergebnis == | == Ergebnis == | ||
Zeile 82: | Zeile 81: | ||
== Autor == | == Autor == | ||
* Heinz Köhler (Nufringen, den | * Heinz Köhler (Nufringen, den 18.03.2006) | ||
(Für evt. Fragen stehe ich selbstverständlich gerne zur Verfügung: [mailto:hkoehler(at)sampo.de Email: Heinz Köhler]) | (Für evt. Fragen stehe ich selbstverständlich gerne zur Verfügung: [mailto:hkoehler(at)sampo.de Email: Heinz Köhler]) |
Version vom 18. März 2006, 05:10 Uhr
Bezeichnung
- Duplikats-Differenz-Vergleich
Problembeschreibung
Voraussetzungen
- die eingesetzte Genealogiesoftware hat keinen Zeitstempel in den Daten abgespeichert
- unterschiedliche Genealogiesoftware der beiden Forscher (Schwierigkeiten beim Verschmelzen der Dateien)
Eine kleine Geschichte
- Zwei Forscher (A und B) betreiben jeder für sich unser schönes Hobby und forschen in der gleichen Region. Forscher A hat 15.000 und Forscher B 10.000 Personendatensätze
- Eines Tages kommen die beiden Forscher zusammen und stellen Duplikate in ihren Genealogien fest.
- Sie tauschen sich gegenseitig die Personendatensätze aus.
- Beide Forscher fügen den bekommenen Datensatz in ihre Daten ein.
- Nach der vollbrachten Verschmelzung und der Beseitigung der entstandenen Duplikate haben beide Forscher jeweils 23.000 Personendatensätze (2000 Duplikate).
- Nach einem weiteren Jahr kommen unsere beiden Forscher wieder zusammen. Jetzt hat Forscher A: 26.000 und Forscher B: 30.000 Personendatensätze.
- Wie bekommen jetzt die Forscher heraus, was der andere hat und was er für sich benötigt (jetzt wären es ja immerhin ca. 23.000 Duplikate, welche zum Verschmelzen wären)?
- Wie können Sie ihre Duplikate ermitteln, welche sich in beiden Personendatensätzen unterscheiden/differieren (Duplikats-Differenzen)?
Problem-Lösung
Problem-Lösungsansatz-Grundlagen
- Sie wollen nicht die ca. 23.000 Duplikate wissen (das sind zu viele!)
- Sie wollen nur die seit dem letzten Jahr entstandenen Duplikate (Duplikats-Differenzen) in einer Liste haben, welche sich jetzt differieren (unterscheiden)
- Die Anzahl der Duplikats-Differenzen kann unter Umständen sehr gering sein, wenn zum Beispiel von wenigen Personen ausgehend weiter geforscht wird (siehe "Duplikats-Differenzen" in der Grafik "Eine kleine Geschichte")
- Die Auswahl der Vergleichs-Kriterien spielt die entscheidene Rolle für das Ergebnis
- Grundlagen-Duplikate ermitteln: Eine Vergleichsmöglichkeit sind Geburtstage. Es gibt noch viele weitere Möglichkeiten, welche hier aber nicht näher betrachtet werden sollen --> Übersichtlichkeit der Darstellung. Mit etwas Phantasie kann es sich jeder etwas darunter vorstellen. Mit dem Hilfsprogramm GENViewer kann eine Datenbereitstellung vorgenommen werden. Beispiele von weiteren Merkmalen sind im Ergebnis-Bereich angeführt
- Duplikats-Differenz(en) mittels eines Vergleichs der erweiterten Grundagen-Duplikate ermitteln: Die Erweiterung sind zum Beispiel die Elterngeburtstage (Vatergeburtstag und Muttergeburtstag)
- Beispiel:
- Personengeburtstag: 12.05.1850
- Vatergeburtstag: 16.08.1819
- Muttergeburtstag: 24.07.1822
Problem-Lösungsansatz-Detail
- Sie entschließen sich zu der oben angeführten Variante des Dulikats-Differenz-Vergleichs die lautet:
- 1) Tabelle der Personendaten erstellen (z.B.: mit dem Hilfsprogramm GENViewer)
- 2) Grundlagen-Duplikate mittels Geburtstag feststellen (12.05.1850)
- (Grundvergleich der beiden Genealogien nur nach Geburtstag aller Personendaten gegeneinander)
- 3) Grundlagen-Duplikate mit mit deren Vater- und Muttergeburtstag (12.05.1850|16.08.1819|24.07.1822)erweitern
- 4) Duplikats-Differenz-Vergleich mit den erweiterten Grundlagen-Duplikate (aus 2) durchführen und dabei die Duplikats-Differenzen feststellen.
- 5) Ergebnis des Duplikats-Differenz-Vergleich
Problem-Lösungsweg-Grafik
Bisherige Umsetzung
- Die Daten wurden mit einem entsprechenden Programm (z.B.: GENViewer) nach CSV kopiert und dann in eine Datenbank (z.B.: Access/Open Office) gebracht.
- Anschließend wird der Duplikats-Differenz-Vergleich nach dem vorgenannten Verfahren von Hand ausgeführt.
- Schnelle Ergebnisse sind mit Datenbanken (z.B.: Access/Open Office) ohne Probleme schnell umsetzbar
Gewünschte Umsetzung
- vollautomatischer Duplikats-Differenz-Vergleich (damit jeder Anwender in der Lage ist, diesen etwas komplizierten Vergleich selbständig auszuführen.
- Das beschriebene Verfahren des Duplikats-Differenz-Vergleich wurde dem Programmhersteller von GENMatcher schon mitgeteilt und in unseren Mailinglisten im Jahr 2005 ausgiebig diskutiert.
- Mit den unterstützenden Bildern konnte das komplexe Thema etwas besser dargestellt werden.
Ergebnis
- Im vorgenannten Beispiel werden die Duplikate in den verschiedenen Dateien gefunden, welche im Geburtstag der Person identisch sind, aber sich in deren Elterngeburtstage differieren (unterscheiden)
- Das Beispiel ist auf viele verschiedenen Varianten erweiterbar (z.B.: Name, Vorname, Vor- und Nachname, [Soundex]-Name, Heiratsanzahl, Heiratsdatum(s), Frauengeburtstag(e), Kinderanzahl, Kindergeburtstag(e), Vorfahrenanzahl, Nachfahrenanzahl ....). Jede der vorgenannten Auswahlkriterien kann wieder unterschiedliche Differenz-Duplikate ausgeben. Verstanden!?
- Mit etwas Phantasie gibt es sehr viele Varianten mit unterschiedlichsten Ergebnissen.
Autor
- Heinz Köhler (Nufringen, den 18.03.2006)
(Für evt. Fragen stehe ich selbstverständlich gerne zur Verfügung: Email: Heinz Köhler)
Anwendermeinungen/Berichte
siehe unter: Meinung