Matching: Unterschied zwischen den Versionen

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
 
KKeine Bearbeitungszusammenfassung
 
(8 dazwischenliegende Versionen von 3 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
{{Rückverweis|Portal:DNA-Genealogie}}
{{Rückverweis|Portal:DNA-Genealogie}}
Beim sogenannten '''Matching''' vergleicht man die [[autosomale DNA|atDNA]] verschiedener Probanden auf gemeinsame Abschnitte hin. Längere gemeinsame Abschnitte lassen auf einen näheren, kürzere auf einen weiter entfernten gemeinsamen Vorfahren ([[MRCA]]) schließen.
Bei den in der [[DNA-Genealogie]] gebräuchlichen DNA-Tests werden rund 650.000 [[Single-nucleotide polymorphism|SNP]] von rund 3,4 Milliarden möglichen Positionen der [[DNA]] überprüft, nämliche jene Positionen, wo bevorzugt mit Abweichungen zu rechnen ist. Im Schnitt wird also alle 5.230 Basenpaare eine Position überprüft, während alle Basenpaare dazwischen nicht bestimmt werden. Weil sich die SNP in der DNA allerdings unregelmäßig verteilen, werden tatsächlich in manchen Bereichen der DNA die SNP in engerer Folge bestimmt, in anderen Bereichen mit noch größerem Abstand.
Ein DNA-Segment von einem [[Centimorgan]] (cM) Länge hat etwa 1 Million Basenpaare; daher werden im Schnitt pro Centimorgan knapp 200 SNP bestimmt, allerdings je nach verwendetem Analyse-Chip nicht bei allen Testanbietern dieselben.
== Das Verfahren beim Matching ==
Das Verfahren beim Matching selbst kann man sich vereinfacht wie einen Textvergleich vorstellen: Angenommen, man vergleicht zwei längere Texte miteinander, um festzustellen, ob sie identisch sind. Man könnte jetzt natürlich Wort für Wort und Buchstabe für Buchstabe vergleichen (= die DNA komplett analysieren und vergleichen), oder man nimmt eine Stichprobe, bei der man nur bestimmte Buchstaben an bestimmten Stellen miteinander vergleicht. Wenn, um im Beispiel zu bleiben, beide Texte mit dem gleichen Buchstaben anfangen und aufhören, kann das gut und gerne Zufall sein. Mit jedem weiteren Buchstaben, den man zusätzlich überprüft und der in beiden Texten gleich ist, nimmt die Wahrscheinlichkeit zu, dass der gesamte Text übereinstimmt. Je feiner das Raster wird, d.h. je mehr Buchstaben überprüft werden, desto sicherer kann man sein, dass die Texte identisch sind.
So ähnlich verhält es sich mit dem Matching: Die DNA kann man sich vereinfacht als einen langen Text vorstellen, in dem nur die Buchstaben A, G, C und T vorkommen (= die Basen Adenin, Guanin, Cytosin, Thymin). Die "Buchstaben" sind im "DNA-Text" nicht willkürlich verteilt, sondern folgen einem festgelegten Aufbau mit Abweichungen nur an bestimmten Stellen. Daher vergleicht man, wie in dem Beispiel, nicht den gesamten Text Buchstabe für Buchstabe, sondern im Schnitt nur jeweils einen von 5.230 "Buchstaben" (= SNP). Wenn dann eine gewisse Anzahl der überprüften "Buchstaben" in beiden "Texten" (DNA-Proben) übereinstimmt, dann geht man davon aus, dass der gesamte verglichene DNA-Abschnitt einschließlich der nicht überprüften Positionen übereinstimmt. Je länger dann ein solcher übereinstimmender Abschnitt ist (gemessen in [[Centimorgan]]) und je mehr "Buchstaben" (SNP) in diesem Abschnitt getestet sind und übereinstimmen, desto wahrscheinlicher ist dann, dass die Übereinstimmung nicht zufällig ist, sondern durch Verwandtschaft (= einen gemeinsamen Vorfahren) zu erklären ist.
== Grundsätzliche Schwierigkeiten ==
Hier bestehen vor allem zwei Schwierigkeiten: Bei der DNA werden nicht zwei Texte miteinander verglichen, sondern gewissermaßen vier "Texte", weil die [[Chromosom]]en paarweise vorliegen und die DNA dieser beiden Chromosomen bei der Analyse zunächst nicht getrennt werden kann. Diese "Vermischung" der DNA beider Chromosomen im Analyseergebnis hat zur Folge, dass manchmal Segmente fälschlich als identisch bestimmt werden, ohne dass sie es tatsächlich sind. In so einem Fall werden, um noch einmal das Beispiel zu verwenden, Buchstaben aus beiden "Texten" (Chromosomen) von beiden Testpersonen so kombiniert, dass sie auf beiden Seiten in der Folge übereinstimmen. Eine solches falsches Segment wird als [[IBC]] ("identical by chance" = "zufällig identisch") bezeichnet. Dieses Problem kann durch das [[Phasing]] behoben werden; das bedeutet, dass die DNA einer Testperson aufgesplittet wird in die vom Vater und die von der Mutter geerbte DNA. Voraussetzung dafür ist allerdings, dass zumindest ein Elternteil der jeweiligen Testperson auch getestet worden ist.
Eine zweite Schwierigkeit beim Matching besteht darin, dass verschiedene Testanbieter unterschiedliche Analyse-Chips verwenden, mit denen teilweise unterschiedliche SNP überprüft werden. Beim Matching können aber natürlich nur jene Positionen berücksichtigt werden, die bei beiden Vergleichsproben auch tatsächlich bestimmt worden sind. Vergleicht man also [[Anbieter von DNA-Genealogie-Tests|DNA-Tests verschiedener Anbieter]], kann es sein, dass von den jeweils getesteten 650.000 SNP nur 400.000 oder gar nur 150.000 in beiden Analyseergebnissen vorkommen und dementsprechend miteinander verglichen werden können. Vergleicht man also zwei Tests des gleichen Anbieters, stehen tatsächlich über 600.000 Positionen zum Vergleich zur Verfügung, so dass die Stichprobe für das Matching entsprechend groß ist, während beim Vergleich von zwei Tests verschiedener Anbieter möglicherweise nur 150.000 Positionen verglichen werden können.
== Beurteilung eines Matches: cM und SNP ==
Bei der Beurteilung von übereinstimmenden Segmenten können drei Kriterien zum Einsatz kommen, nämlich die Länge des übereinstimmenden Segments in [[Centimorgan]], die Zahl der übereinstimmenden [[SNP]] und ggf. die Zahl der überhaupt vergleichbaren SNP. Am wichtigsten gilt die Länge des Segments in [[Centimorgan]], während die Zahl der [[SNP]] eher ein zusätzliches Kriterium darstellt. In den Matchinglisten von [[GedMatch]] und GedMatch Genesis wird angegeben, wie lang ein Segment ist und wie viele SNP in Folge übereinstimmen. 12 cM und 1000 SNP bedeutet beispielsweise: Das Segment ist 12 cM lang; d. h. es besteht aus etwa 12 Millionen Basenpaaren. Von diesen 12 Millionen sind bei beiden Matchingpartner 1.000 SNP getestet worden und stimmen bei beiden hintereinander überein. Je länger ein Segment ist und je mehr SNP darin in Folge übereinstimmen, desto unwahrscheinlicher ist es, dass die Übereinstimmung rein zufällig ist. Je niedriger insbesondere die Zahl der getesteten und übereinstimmenden SNP ist, desto eher kann dies noch Zufall sein.
Bei den unterschiedlichen Testanbietern gelten unterschiedliche Mindestanforderungen, die erfüllt sein müssen, damit ein übereinstimmendes Segment als [[IBD]] ("identical by descent" = "übereinstimmend durch Abstammung") angesehen und in der Matchingliste aufgeführt wird. So gilt bei Ancestry offenbar eine Mindestlänge von 6 cM als ausreichend; FTDNA hingegen verlangt entweder ein Segment von mindestens 9 cM oder aber mehrere Segmente von insgesamt 20 cM, darunter eins von mindestens 7,69 cM Länge. Die Zahl der SNP spielt hier keine Rolle bzw. es ist nicht bekannt oder erkennbar, ob die Zahl der SNP in den internen Algorithmen eine Rolle spielt.
Bei GedMatch hingegen ist die Zahl der SNP von Bedeutung, weil hier Tests verschiedener Anbieter miteinander verglichen werden können. Beim regulären  GedMatch gilt bei der ‚one-to-many comparison’ als Voreinstellung, dass mindestens 7 cM '''und''' mindestens 700 SNP übereinstimmen müssen. Bei GedMatch Genesis reichen derzeit 5 cM '''und''' zwischen 200 und 400 SNP.
Für eine genaue Aussage, ab welcher Segment-Länge oder ab wie vielen SNP hinreichend sicher von einem echten "Match" ausgegangen werden kann, fehlen in Bezug auf GedMatch Genesis noch die Erfahrungen.
== Anmerkungen ==
<references />


{{DNA-GenealogieHinweis}}
{{DNA-GenealogieHinweis}}
[[Kategorie:Genealogischer Begriff]]
[[Kategorie:Englischer Begriff]]

Aktuelle Version vom 27. November 2017, 00:20 Uhr

 < Portal:DNA-Genealogie

Beim sogenannten Matching vergleicht man die atDNA verschiedener Probanden auf gemeinsame Abschnitte hin. Längere gemeinsame Abschnitte lassen auf einen näheren, kürzere auf einen weiter entfernten gemeinsamen Vorfahren (MRCA) schließen.

Bei den in der DNA-Genealogie gebräuchlichen DNA-Tests werden rund 650.000 SNP von rund 3,4 Milliarden möglichen Positionen der DNA überprüft, nämliche jene Positionen, wo bevorzugt mit Abweichungen zu rechnen ist. Im Schnitt wird also alle 5.230 Basenpaare eine Position überprüft, während alle Basenpaare dazwischen nicht bestimmt werden. Weil sich die SNP in der DNA allerdings unregelmäßig verteilen, werden tatsächlich in manchen Bereichen der DNA die SNP in engerer Folge bestimmt, in anderen Bereichen mit noch größerem Abstand.

Ein DNA-Segment von einem Centimorgan (cM) Länge hat etwa 1 Million Basenpaare; daher werden im Schnitt pro Centimorgan knapp 200 SNP bestimmt, allerdings je nach verwendetem Analyse-Chip nicht bei allen Testanbietern dieselben.

Das Verfahren beim Matching

Das Verfahren beim Matching selbst kann man sich vereinfacht wie einen Textvergleich vorstellen: Angenommen, man vergleicht zwei längere Texte miteinander, um festzustellen, ob sie identisch sind. Man könnte jetzt natürlich Wort für Wort und Buchstabe für Buchstabe vergleichen (= die DNA komplett analysieren und vergleichen), oder man nimmt eine Stichprobe, bei der man nur bestimmte Buchstaben an bestimmten Stellen miteinander vergleicht. Wenn, um im Beispiel zu bleiben, beide Texte mit dem gleichen Buchstaben anfangen und aufhören, kann das gut und gerne Zufall sein. Mit jedem weiteren Buchstaben, den man zusätzlich überprüft und der in beiden Texten gleich ist, nimmt die Wahrscheinlichkeit zu, dass der gesamte Text übereinstimmt. Je feiner das Raster wird, d.h. je mehr Buchstaben überprüft werden, desto sicherer kann man sein, dass die Texte identisch sind.

So ähnlich verhält es sich mit dem Matching: Die DNA kann man sich vereinfacht als einen langen Text vorstellen, in dem nur die Buchstaben A, G, C und T vorkommen (= die Basen Adenin, Guanin, Cytosin, Thymin). Die "Buchstaben" sind im "DNA-Text" nicht willkürlich verteilt, sondern folgen einem festgelegten Aufbau mit Abweichungen nur an bestimmten Stellen. Daher vergleicht man, wie in dem Beispiel, nicht den gesamten Text Buchstabe für Buchstabe, sondern im Schnitt nur jeweils einen von 5.230 "Buchstaben" (= SNP). Wenn dann eine gewisse Anzahl der überprüften "Buchstaben" in beiden "Texten" (DNA-Proben) übereinstimmt, dann geht man davon aus, dass der gesamte verglichene DNA-Abschnitt einschließlich der nicht überprüften Positionen übereinstimmt. Je länger dann ein solcher übereinstimmender Abschnitt ist (gemessen in Centimorgan) und je mehr "Buchstaben" (SNP) in diesem Abschnitt getestet sind und übereinstimmen, desto wahrscheinlicher ist dann, dass die Übereinstimmung nicht zufällig ist, sondern durch Verwandtschaft (= einen gemeinsamen Vorfahren) zu erklären ist.

Grundsätzliche Schwierigkeiten

Hier bestehen vor allem zwei Schwierigkeiten: Bei der DNA werden nicht zwei Texte miteinander verglichen, sondern gewissermaßen vier "Texte", weil die Chromosomen paarweise vorliegen und die DNA dieser beiden Chromosomen bei der Analyse zunächst nicht getrennt werden kann. Diese "Vermischung" der DNA beider Chromosomen im Analyseergebnis hat zur Folge, dass manchmal Segmente fälschlich als identisch bestimmt werden, ohne dass sie es tatsächlich sind. In so einem Fall werden, um noch einmal das Beispiel zu verwenden, Buchstaben aus beiden "Texten" (Chromosomen) von beiden Testpersonen so kombiniert, dass sie auf beiden Seiten in der Folge übereinstimmen. Eine solches falsches Segment wird als IBC ("identical by chance" = "zufällig identisch") bezeichnet. Dieses Problem kann durch das Phasing behoben werden; das bedeutet, dass die DNA einer Testperson aufgesplittet wird in die vom Vater und die von der Mutter geerbte DNA. Voraussetzung dafür ist allerdings, dass zumindest ein Elternteil der jeweiligen Testperson auch getestet worden ist.

Eine zweite Schwierigkeit beim Matching besteht darin, dass verschiedene Testanbieter unterschiedliche Analyse-Chips verwenden, mit denen teilweise unterschiedliche SNP überprüft werden. Beim Matching können aber natürlich nur jene Positionen berücksichtigt werden, die bei beiden Vergleichsproben auch tatsächlich bestimmt worden sind. Vergleicht man also DNA-Tests verschiedener Anbieter, kann es sein, dass von den jeweils getesteten 650.000 SNP nur 400.000 oder gar nur 150.000 in beiden Analyseergebnissen vorkommen und dementsprechend miteinander verglichen werden können. Vergleicht man also zwei Tests des gleichen Anbieters, stehen tatsächlich über 600.000 Positionen zum Vergleich zur Verfügung, so dass die Stichprobe für das Matching entsprechend groß ist, während beim Vergleich von zwei Tests verschiedener Anbieter möglicherweise nur 150.000 Positionen verglichen werden können.

Beurteilung eines Matches: cM und SNP

Bei der Beurteilung von übereinstimmenden Segmenten können drei Kriterien zum Einsatz kommen, nämlich die Länge des übereinstimmenden Segments in Centimorgan, die Zahl der übereinstimmenden SNP und ggf. die Zahl der überhaupt vergleichbaren SNP. Am wichtigsten gilt die Länge des Segments in Centimorgan, während die Zahl der SNP eher ein zusätzliches Kriterium darstellt. In den Matchinglisten von GedMatch und GedMatch Genesis wird angegeben, wie lang ein Segment ist und wie viele SNP in Folge übereinstimmen. 12 cM und 1000 SNP bedeutet beispielsweise: Das Segment ist 12 cM lang; d. h. es besteht aus etwa 12 Millionen Basenpaaren. Von diesen 12 Millionen sind bei beiden Matchingpartner 1.000 SNP getestet worden und stimmen bei beiden hintereinander überein. Je länger ein Segment ist und je mehr SNP darin in Folge übereinstimmen, desto unwahrscheinlicher ist es, dass die Übereinstimmung rein zufällig ist. Je niedriger insbesondere die Zahl der getesteten und übereinstimmenden SNP ist, desto eher kann dies noch Zufall sein.

Bei den unterschiedlichen Testanbietern gelten unterschiedliche Mindestanforderungen, die erfüllt sein müssen, damit ein übereinstimmendes Segment als IBD ("identical by descent" = "übereinstimmend durch Abstammung") angesehen und in der Matchingliste aufgeführt wird. So gilt bei Ancestry offenbar eine Mindestlänge von 6 cM als ausreichend; FTDNA hingegen verlangt entweder ein Segment von mindestens 9 cM oder aber mehrere Segmente von insgesamt 20 cM, darunter eins von mindestens 7,69 cM Länge. Die Zahl der SNP spielt hier keine Rolle bzw. es ist nicht bekannt oder erkennbar, ob die Zahl der SNP in den internen Algorithmen eine Rolle spielt.

Bei GedMatch hingegen ist die Zahl der SNP von Bedeutung, weil hier Tests verschiedener Anbieter miteinander verglichen werden können. Beim regulären GedMatch gilt bei der ‚one-to-many comparison’ als Voreinstellung, dass mindestens 7 cM und mindestens 700 SNP übereinstimmen müssen. Bei GedMatch Genesis reichen derzeit 5 cM und zwischen 200 und 400 SNP.

Für eine genaue Aussage, ab welcher Segment-Länge oder ab wie vielen SNP hinreichend sicher von einem echten "Match" ausgegangen werden kann, fehlen in Bezug auf GedMatch Genesis noch die Erfahrungen.

Anmerkungen


Die Doppelhelix der DNA
Weitere Informationen zur DNA-Genealogie siehe Portal:DNA-Genealogie
1-zu-1-Vergleich zweier DNA-Kits bei Gedmatch.com