Duplikats-Differenz-Vergleich

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Version vom 17. März 2006, 21:37 Uhr von Xbpwb36 (Diskussion • Beiträge) (Ergebnis ergänzt (HK))
Zur Navigation springen Zur Suche springen
Duplikats-Differenz-Vergleich

Bezeichnung

  • Duplikats-Differenz-Vergleich

Diese Seite noch in Bearbeitung!

Geplante Fertigstellung: 26.03.2006

--Xbpwb36 21:19, 11. Mär 2006 (CET)

Problembeschreibung

Voraussetzungen

  • die eingesetzte Genealogiesoftware hat keinen Zeitstempel in den Daten abgespeichert
  • unterschiedliche Genealogiesoftware der beiden Forscher (Schwierigkeiten beim Verschmelzen der Dateien)

Eine kleine Geschichte

  • Zwei Forscher (A und B) betreiben jeder für sich unser schönes Hobby und forschen in der gleichen Region. Forscher A hat 15.000 und Forscher B 10.000 Personendatensätze
  • Eines Tages kommen die beiden Forscher zusammen und stellen Duplikate in ihren Genealogien fest.
  • Sie tauschen sich gegenseitig die Personendatensätze aus.
  • Beide Forscher fügen den bekommenen Datensatz in ihre Daten ein.
  • Nach der vollbrachten Verschmelzung und der Beseitigung der entstandenen Duplikate haben beide Forscher jeweils 23.000 Personendatensätze (2000 Duplikate).
  • Nach einem weiteren Jahr kommen unsere beiden Forscher wieder zusammen. Jetzt hat Forscher A: 26.000 und Forscher B: 30.000 Personendatensätze.
  • Wie bekommen jetzt die Forscher heraus, was der andere hat und was er für sich benötigt (jetzt wären es ja immerhin ca. 23.000 Duplikate, welche zum Verschmelzen wären)?
  • Wie können Sie ihre Duplikate ermitteln, welche sich in beiden Personendatensätzen unterscheiden/differieren (Duplikats-Differenzen)?


Grafik zu "Eine kleine Geschichte" über den Duplikats-Differenz-Vergleich


Problem-Lösung

Problem-Lösungsansatz-Grundlagen

  • Sie wollen nicht die ca. 23.000 Duplikate wissen (das sind zu viele)
  • Sie wollen nur die neuen Duplikate (Duplikats-Differenzen) in einer Liste, welche sich jetzt erneut differieren (unterscheiden)
  • Die Anzahl der Duplikats-Differenzen kann unter Umständen sehr gering sein, wenn zum Beispiel von wenigen Personen ausgehend weiter geforscht wird (siehe "Duplikats-Differenzen" in der Grafik "Eine kleine Geschichte").
  • Eine Vergleichsmöglichkeit sind Geburtstage (es gibt noch viele weitere Möglichkeiten, welche hier aber nicht näher betrachtet werden sollen --> Übersichtlichkeit der Darstellung. Mit etwas Phantasie kann es sich jeder etwas darunter vorstellen. Siehe das Hilfsprogramm GENMatcher)
  • Die zweite Festlegung der Differenz sind zum Beispiel die Elterngeburtstage (Vatergeburtstag und Muttergeburtstag)
  • Beispiel:
Personengeburtstag: 12.05.1850
Vatergeburtstag: 16.08.1819
Muttergeburtstag: 24.07.1822

Problem-Lösungsansatz-Detail

  • Sie entschließen sich zu einer Variante des Dulikats-Differenz-Vergleichs die lautet:
  • 1) Erste Duplikatsfeststellung mittels Geburtstagen (12.05.1850)
(Grundvergleich der beiden Genealogien nur nach Geburtstagen aller Personendaten gegeneinander)
  • 2) Erweiterung des ersten Ergebnisses mit deren Vater- und Muttergeburtstag (12.05.1850|16.08.1819|24.07.1822)
  • 3) Duplikatsfeststellung des Vergleichs aus dem Ergebnis von Schritt 2

Problem-Lösungsansatz-Grafik

  • Viel Spaß beim Ausprobieren und Tüfteln des beschrieben Lösungsansatz Ein Smiley

Bisherige Umsetzung

  • Die Daten wurden mit einem entsprechenden Programm (GENViewer) nach CSV kopiert und dann in eine Datenbank gebracht.
  • Anschließend wurden der Duplikats-Differenz-Vergleich nach dem vorgenannten Verfahren von Hand ausgeführt.

Gewünschte Umsetzung

  • vollautomatischer Duplikats-Differenz-Vergleich (damit jeder Anwender in der Lage ist, diesen etwas komplizierten Vergleich selbständig auszuführen.

Ergebnis

  • Im vorgenannten Beispiel werden die Duplikate in den verschiedenen Dateien gefunden, welche im Geburtstag der Person identisch sind, aber sich in deren Elterngeburtstage differieren (unterscheiden)
  • Das Beispiel ist auf viele verschiedenen Varianten erweiterbar (z.B.: Heiratsanzahl, Heiratsdatum(s), Frauengeburtstag(e), Kinderanzahl, Kindergeburtstag(e), Vorfahrenanzahl, Nachfahrenanzahl ....). Jede der vorgenannten Auswahlkriterien kann wieder unterschiedliche Differenz-Duplikate ausgeben. Verstanden!?


===> Duplikats-Differenz-Vergleich Ein Smiley

Autor

  • Heinz Köhler (Nufringen, den 12.03.2006)

(Für evt. Fragen stehe ich selbstverständlich gerne zur Verfügung: Email: Heinz Köhler)

Anwendermeinungen/Berichte

siehe unter: Meinung