Duplikats-Differenz-Vergleich: Unterschied zwischen den Versionen

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Zur Navigation springen Zur Suche springen
K (Grundaufbau (HK))
K (Fehlenden Buchstaben ergänzt ...)
 
(8 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
[[Bild:Duplikats-Differenz-Vergleich_Grafik zu eine kleine Geschichte.jpg|thumb|350px|Duplikats-Differenz-Vergleich]]
== Bezeichnung ==
== Bezeichnung ==
<!-- Hier den Softwaretitel eintragen -->
<!-- Hier den Softwaretitel eintragen -->
* Duplikats-Differenz-Vergleich
* Duplikats-Differenz-Vergleich


'''Diese Seite noch in Bearbeitung!
Geplante Fertigstellung: 26.03.2006'''
--[[Benutzer:Xbpwb36|Xbpwb36]] 21:19, 11. Mär 2006 (CET)


== Problembeschreibung ==
== Problembeschreibung ==
Zeile 17: Zeile 13:
* Zwei Forscher (A und B) betreiben jeder für sich unser schönes Hobby und forschen in der gleichen Region. Forscher A hat 15.000 und Forscher B 10.000 Personendatensätze
* Zwei Forscher (A und B) betreiben jeder für sich unser schönes Hobby und forschen in der gleichen Region. Forscher A hat 15.000 und Forscher B 10.000 Personendatensätze
* Eines Tages kommen die beiden Forscher zusammen und stellen [[Duplikate]] in ihren Genealogien fest.
* Eines Tages kommen die beiden Forscher zusammen und stellen [[Duplikate]] in ihren Genealogien fest.
* Sie tauschen sich gegenseitig die Daten aus.  
* Sie tauschen sich gegenseitig die Personendatensätze aus.  
* Beide Forscher fügen den bekommenen Datensatz in ihre Daten ein.  
* Beide Forscher fügen den bekommenen Datensatz in ihre Daten ein.  
* Nach der vollbrachten Verschmelzung und der Beseitigung der entstandenen [[Duplikate]] haben beide Forscher jeweils 23.000 Personendatensätze (2000 Duplikate).
* Nach der vollbrachten Verschmelzung und der Beseitigung der entstandenen [[Duplikate]] haben beide Forscher jeweils 23.000 Personendatensätze (2000 Duplikate).
* Nach einem weiteren Jahr kommen unsere beiden Forscher wieder zusammen. Jetzt hat Forscher A: 26.000 und  Forscher B: 30.000 Personendatensätze.
* Nach einem weiteren Jahr kommen unsere beiden Forscher wieder zusammen. Jetzt hat Forscher A: 26.000 und  Forscher B: 30.000 Personendatensätze.
* Wie bekommen jetzt die Forscher heraus, was der andere hat und was er für sich benötigt (jetzt wären es ja immerhin ca. 23.000 Duplikate, welche zum Verschmelzen wären)?
* Wie bekommen jetzt die Forscher heraus, was der andere hat und was er für sich benötigt (jetzt wären es ja immerhin ca. 23.000 Duplikate, welche zum Verschmelzen wären)?
* Wie können Sie ihre Duplikate ermitteln, welche sich in beiden Personendatensätzen unterscheiden/differieren (Duplikats-Differenzen)?
[[Bild:Duplikats-Differenz-Vergleich_Grafik zu eine kleine Geschichte.jpg|600px|thumb|center||Grafik zu "Eine kleine Geschichte" über den Duplikats-Differenz-Vergleich]]


== Problem-Lösung ==
== Problem-Lösung ==
=== Problem-Lösungsansatz-Grundlagen ===
=== Problem-Lösungsansatz-Grundlagen ===


* Sie wollen nicht die ca. 23.000 Duplikate wissen (das sind zu viele)
* Sie wollen nicht die ca. 23.000 Duplikate wissen (das sind zu viele!)
* Sie wollen nur die neuen Duplikate in einer Liste, welche sich jetzt erneut differieren (unterscheiden)  
* Sie wollen nur die seit dem letzten Jahr entstandenen Duplikate (Duplikats-Differenzen) in einer Liste haben, welche sich jetzt differieren (unterscheiden)  
* Eine Vergleichsmöglichkeit sind Geburtstage (es gibt noch viele weitere Möglichkeiten, welche hier aber nicht näher betrachtet werden sollen --> Übersichtlichkeit der Darstellung. Mit etwas Phantasie kann es sich jeder etwas darunter vorstellen. Siehe das Hilfsprogramm [[GENMatcher]])
* Die Anzahl der Duplikats-Differenzen kann unter Umständen sehr gering sein, wenn zum Beispiel von wenigen Personen ausgehend weiter geforscht wird (siehe "Duplikats-Differenzen" in der Grafik "Eine kleine Geschichte")
* Die zweite Festlegung der Differenz sind zum Beispiel die Elterngeburtstage (Vatergeburtstag und Muttergeburtstag)
* Die Auswahl der Vergleichs-Kriterien spielt die entscheidene Rolle für das Ergebnis
* Grundlagen-Duplikate ermitteln: Eine Vergleichsmöglichkeit sind Geburtstage. Es gibt noch viele weitere Möglichkeiten, welche hier aber nicht näher betrachtet werden sollen --> Übersichtlichkeit der Darstellung. Mit etwas Phantasie kann es sich jeder etwas darunter vorstellen. Mit dem Hilfsprogramm [[GENViewer]] kann eine Datenbereitstellung vorgenommen werden. Beispiele von weiteren Merkmalen sind im Ergebnis-Bereich angeführt
* Duplikats-Differenz(en) mittels eines Vergleichs der erweiterten Grundagen-Duplikate ermitteln: Die Erweiterung sind zum Beispiel die Elterngeburtstage (Vatergeburtstag und Muttergeburtstag)
:* Beispiel:
:* Beispiel:
:: Personengeburtstag: 12.05.1850
:: Personengeburtstag: 12.05.1850
:: Vatergeburtstag: 16.08.1819
:: Vatergeburtstag: 16.08.1819
:: Muttergeburtstag: 24.07.1822
::Muttergeburtstag: 24.07.1822


=== Problem-Lösungsansatz-Detail ===
=== Problem-Lösungsansatz-Detail ===


* Sie entschließen sich zu einer Variante des Dulikats-Differenz-Vergleichs die lautet:  
* Sie entschließen sich zu der oben angeführten Variante des Duplikats-Differenz-Vergleichs die lautet:  
:* 1) Erste Duplikatsfeststellung mittels Geburtstagen (12.05.1850)
:* 1) Tabelle der Personendaten erstellen (z.B.: mit dem Hilfsprogramm [[GENViewer]])
::(Grundvergleich der beiden Genealogien nur nach Geburtstagen aller Personendaten gegeneinander)
:* 2) Grundlagen-Duplikate mittels Geburtstag feststellen (12.05.1850)
:* 2) Erweiterung des ersten Ergebnisses mit deren Vater- und Muttergeburtstag (12.05.1850|16.08.1819|24.07.1822)
::(Grundvergleich der beiden Genealogien nur nach Geburtstag aller Personendaten gegeneinander)
:* 3) Duplikatsfeststellung des Vergleichs aus dem Ergebnis von Schritt 2
:* 3) Grundlagen-Duplikate mit mit deren Vater- und Muttergeburtstag (12.05.1850|16.08.1819|24.07.1822)erweitern
 
:* 4) Duplikats-Differenz-Vergleich mit den erweiterten Grundlagen-Duplikate (aus 2) durchführen und dabei die Duplikats-Differenzen feststellen.
=== Problem-Lösungsansatz-Grafik ===
:* 5) Ergebnis des Duplikats-Differenz-Vergleich
 


::'''===> '''fertig ist der '''Duplikats-Differenz-Vergleich'''  [[Bild:Smile.png||Ein Smiley]]


=== Problem-Lösungsweg-Grafik ===


[[Bild:Duplikats-Differenz-Vergleich_Problem-Lösungsweg-Grafik 01.jpg|700px|thumb|center||Problem-Lösungsweg-Grafik 1-2]]
[[Bild:Duplikats-Differenz-Vergleich_Problem-Lösungsweg-Grafik 02.jpg|700px|thumb|center||Problem-Lösungsweg-Grafik 3-5]]




Zeile 53: Zeile 59:
== Bisherige Umsetzung ==
== Bisherige Umsetzung ==


* Die Daten wurden mit einem entsprechenden Programm ([[GENViewer]]) nach CSV kopiert und dann in eine Datenbank gebracht.
* Die Daten wurden mit einem entsprechenden Programm (z.B.: [[GENViewer]]) nach CSV kopiert und dann in eine Datenbank (z.B.: Access/Open Office) gebracht.
* Anschließend wurden der '''Duplikats-Differenz-Vergleich''' nach dem vorgenannten Verfahren '''von Hand''' ausgeführt.
* Anschließend wird der '''Duplikats-Differenz-Vergleich''' nach dem vorgenannten Verfahren '''von Hand''' ausgeführt.
* Schnelle Ergebnisse sind mit Datenbanken (z.B.: Access/Open Office) ohne Probleme schnell umsetzbar


== Gewünschte Umsetzung ==
== Gewünschte Umsetzung ==


* vollautomatischer Duplikats-Differenz-Vergleich (damit jeder Anwender in der Lage ist, diesen etwas komplizierten Vergleich selbständig auszuführen.
* vollautomatischer Duplikats-Differenz-Vergleich (damit jeder Anwender in der Lage ist, diesen etwas komplizierten Vergleich selbständig auszuführen.
:* Das beschriebene Verfahren des Duplikats-Differenz-Vergleich wurde dem Programmhersteller von [[GENMatcher]] schon mitgeteilt und in unseren Mailinglisten im Jahr 2005 ausgiebig diskutiert.
:* Mit den unterstützenden Bildern konnte das komplexe Thema etwas besser dargestellt werden.
== Ergebnis ==
== Ergebnis ==
* Im vorgenannten Beispiel werden die Duplikate in den verschiedenen Dateien gefunden, welche im Geburtstag der Person identisch sind, aber sich in deren Elterngeburtstage differieren (unterscheiden)
* Im vorgenannten Beispiel werden die Duplikate in den verschiedenen Dateien gefunden, welche im Geburtstag der Person identisch sind, aber sich in deren Elterngeburtstage differieren (unterscheiden)
* Das Beispiel ist auf viele verschiedenen Varianten erweiterbar (z.B.: Name, Vorname, Vor- und Nachname, [Soundex]-Name, Heiratsanzahl, Heiratsdatum(s), Frauengeburtstag(e), Kinderanzahl, Kindergeburtstag(e), Vorfahrenanzahl, Nachfahrenanzahl ....). Jede der vorgenannten Auswahlkriterien kann wieder unterschiedliche Differenz-Duplikate ausgeben. Verstanden!?
* Mit etwas Phantasie gibt es sehr viele Varianten mit unterschiedlichsten Ergebnissen.




Zeile 66: Zeile 81:


== Autor ==
== Autor ==
* Heinz Köhler (Nufringen, den 12.03.2006)
* [[Benutzer:xbpwb36|Heinz Köhler]] (Nufringen, den 18.03.2006)
 
(Für evt. Fragen stehe ich selbstverständlich gerne zur Verfügung: mailto:hkoehler@sampo.de)


== Anwendermeinungen/Berichte ==
== Anwendermeinungen/Berichte ==
Zeile 77: Zeile 90:


<!-- Bitte die richtigen Kategorien auswählen, andere löschen -->
<!-- Bitte die richtigen Kategorien auswählen, andere löschen -->
<!--[[Kategorie:Hauptthemen]]-->
<!--[[Kategorie:Hauptthemen]] -->
[[Kategorie:Hilfsprogramm]]
[[Kategorie:Hilfsprogramm]]
[[Kategorie:Duplikats-Differenz-Vergleich]]
[[Kategorie:Duplikats-Differenz-Vergleich]]
[[Kategorie:Genealogische Probleme]]
[[Kategorie:Genealogische Probleme]]

Aktuelle Version vom 27. September 2007, 18:58 Uhr

Duplikats-Differenz-Vergleich

Bezeichnung

  • Duplikats-Differenz-Vergleich


Problembeschreibung

Voraussetzungen

  • die eingesetzte Genealogiesoftware hat keinen Zeitstempel in den Daten abgespeichert
  • unterschiedliche Genealogiesoftware der beiden Forscher (Schwierigkeiten beim Verschmelzen der Dateien)

Eine kleine Geschichte

  • Zwei Forscher (A und B) betreiben jeder für sich unser schönes Hobby und forschen in der gleichen Region. Forscher A hat 15.000 und Forscher B 10.000 Personendatensätze
  • Eines Tages kommen die beiden Forscher zusammen und stellen Duplikate in ihren Genealogien fest.
  • Sie tauschen sich gegenseitig die Personendatensätze aus.
  • Beide Forscher fügen den bekommenen Datensatz in ihre Daten ein.
  • Nach der vollbrachten Verschmelzung und der Beseitigung der entstandenen Duplikate haben beide Forscher jeweils 23.000 Personendatensätze (2000 Duplikate).
  • Nach einem weiteren Jahr kommen unsere beiden Forscher wieder zusammen. Jetzt hat Forscher A: 26.000 und Forscher B: 30.000 Personendatensätze.
  • Wie bekommen jetzt die Forscher heraus, was der andere hat und was er für sich benötigt (jetzt wären es ja immerhin ca. 23.000 Duplikate, welche zum Verschmelzen wären)?
  • Wie können Sie ihre Duplikate ermitteln, welche sich in beiden Personendatensätzen unterscheiden/differieren (Duplikats-Differenzen)?


Grafik zu "Eine kleine Geschichte" über den Duplikats-Differenz-Vergleich


Problem-Lösung

Problem-Lösungsansatz-Grundlagen

  • Sie wollen nicht die ca. 23.000 Duplikate wissen (das sind zu viele!)
  • Sie wollen nur die seit dem letzten Jahr entstandenen Duplikate (Duplikats-Differenzen) in einer Liste haben, welche sich jetzt differieren (unterscheiden)
  • Die Anzahl der Duplikats-Differenzen kann unter Umständen sehr gering sein, wenn zum Beispiel von wenigen Personen ausgehend weiter geforscht wird (siehe "Duplikats-Differenzen" in der Grafik "Eine kleine Geschichte")
  • Die Auswahl der Vergleichs-Kriterien spielt die entscheidene Rolle für das Ergebnis
  • Grundlagen-Duplikate ermitteln: Eine Vergleichsmöglichkeit sind Geburtstage. Es gibt noch viele weitere Möglichkeiten, welche hier aber nicht näher betrachtet werden sollen --> Übersichtlichkeit der Darstellung. Mit etwas Phantasie kann es sich jeder etwas darunter vorstellen. Mit dem Hilfsprogramm GENViewer kann eine Datenbereitstellung vorgenommen werden. Beispiele von weiteren Merkmalen sind im Ergebnis-Bereich angeführt
  • Duplikats-Differenz(en) mittels eines Vergleichs der erweiterten Grundagen-Duplikate ermitteln: Die Erweiterung sind zum Beispiel die Elterngeburtstage (Vatergeburtstag und Muttergeburtstag)
  • Beispiel:
Personengeburtstag: 12.05.1850
Vatergeburtstag: 16.08.1819
Muttergeburtstag: 24.07.1822

Problem-Lösungsansatz-Detail

  • Sie entschließen sich zu der oben angeführten Variante des Duplikats-Differenz-Vergleichs die lautet:
  • 1) Tabelle der Personendaten erstellen (z.B.: mit dem Hilfsprogramm GENViewer)
  • 2) Grundlagen-Duplikate mittels Geburtstag feststellen (12.05.1850)
(Grundvergleich der beiden Genealogien nur nach Geburtstag aller Personendaten gegeneinander)
  • 3) Grundlagen-Duplikate mit mit deren Vater- und Muttergeburtstag (12.05.1850|16.08.1819|24.07.1822)erweitern
  • 4) Duplikats-Differenz-Vergleich mit den erweiterten Grundlagen-Duplikate (aus 2) durchführen und dabei die Duplikats-Differenzen feststellen.
  • 5) Ergebnis des Duplikats-Differenz-Vergleich
===> fertig ist der Duplikats-Differenz-Vergleich Ein Smiley

Problem-Lösungsweg-Grafik

Problem-Lösungsweg-Grafik 1-2
Problem-Lösungsweg-Grafik 3-5


  • Viel Spaß beim Ausprobieren und Tüfteln des beschrieben Lösungsansatz Ein Smiley

Bisherige Umsetzung

  • Die Daten wurden mit einem entsprechenden Programm (z.B.: GENViewer) nach CSV kopiert und dann in eine Datenbank (z.B.: Access/Open Office) gebracht.
  • Anschließend wird der Duplikats-Differenz-Vergleich nach dem vorgenannten Verfahren von Hand ausgeführt.
  • Schnelle Ergebnisse sind mit Datenbanken (z.B.: Access/Open Office) ohne Probleme schnell umsetzbar

Gewünschte Umsetzung

  • vollautomatischer Duplikats-Differenz-Vergleich (damit jeder Anwender in der Lage ist, diesen etwas komplizierten Vergleich selbständig auszuführen.
  • Das beschriebene Verfahren des Duplikats-Differenz-Vergleich wurde dem Programmhersteller von GENMatcher schon mitgeteilt und in unseren Mailinglisten im Jahr 2005 ausgiebig diskutiert.
  • Mit den unterstützenden Bildern konnte das komplexe Thema etwas besser dargestellt werden.

Ergebnis

  • Im vorgenannten Beispiel werden die Duplikate in den verschiedenen Dateien gefunden, welche im Geburtstag der Person identisch sind, aber sich in deren Elterngeburtstage differieren (unterscheiden)
  • Das Beispiel ist auf viele verschiedenen Varianten erweiterbar (z.B.: Name, Vorname, Vor- und Nachname, [Soundex]-Name, Heiratsanzahl, Heiratsdatum(s), Frauengeburtstag(e), Kinderanzahl, Kindergeburtstag(e), Vorfahrenanzahl, Nachfahrenanzahl ....). Jede der vorgenannten Auswahlkriterien kann wieder unterschiedliche Differenz-Duplikate ausgeben. Verstanden!?
  • Mit etwas Phantasie gibt es sehr viele Varianten mit unterschiedlichsten Ergebnissen.


===> Duplikats-Differenz-Vergleich Ein Smiley

Autor

Anwendermeinungen/Berichte

siehe unter: Meinung