Phasing: Unterschied zwischen den Versionen

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Zur Navigation springen Zur Suche springen
(Anmerkungen)
Keine Bearbeitungszusammenfassung
 
(7 dazwischenliegende Versionen von 3 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
{{Rückverweis|Portal:DNA-Genealogie}}
{{Rückverweis|Portal:DNA-Genealogie}}
'''Phasing''' ist eine Methode, mit der man die vom Vater geerbte [[DNA]] von der von der Mutter geerbten DNA unterscheiden kann. Das Phasing kann bei der kostenlosen Analyseplattform [[GedMatch]] durchgeführt werden. Als Ergebnis des Phasing erhält man zwei neue Gedmatch-Nummern - eine für das Kit mit der mütterlichen, eine für das Kit mit der väterlichen DNA.
Verwendet man nun ein solches gephastes Kit für das [[Matching]], sind Zufallsübereinstimmungen, die sich aus der Vermischung von väterlicher und mütterlicher DNA ergeben, ausgeschlossen. Das Phasing trägt also dazu bei, echte von nur zufälligen Matches zu unterscheiden.
Voraussetzung für das Matching ist also neben dem eigenen Testergebnis das von mindestens einem, besser von beiden Eltern.
Bei der DNA-Analyse im Rahmen der DNA-Genealogie wird für einen kleinen Bruchteil der Nukleotide überprüft, welche der vier Basen Adenin, Thymin, Guanin oder Cytosin (abgekürzt A, T, G, C) an der jeweiligen Position vorhanden ist. Das Analyseergebnis sieht in den Rohdaten dann etwa so aus:
<pre>
rsid         chromosome position genotype
rs12124819 1         776546         AG
rs4970383 1         838555         AC
rs7537756 1         854250         AG
rs4442317 1 1106784 TC
rs9442387 1 1110586 TC
rs3813204 1 1121014 AG
rs11260549 1 1121794 AG
rs7515488 1 1163804 TC
rs11260562 1 1165310 AG
rs1739855 1 1233941 TC
rs11260584 1 1239339 TG
rs12142199 1 1249187 AG
</pre>
'''rsid''' ist die eindeutige Bezeichnung für den [[SNP]] und die entsprechende Position in der DNA. Unter '''chromosome''' ist angegeben, auf welchem [[Chromosom]] sich der SNP befindet. Die '''position''' ist die Nummer des Basenpaares, gezählt vom Anfang des Chromosoms an. Unter '''genotype''' schließlich ist angegeben, welche Basen auf den beiden Chromosomen an der entsprechenden Position vorliegen.
Der Begriff "Basenpaar" ist hier doppeldeutig. Normalerweise wird er für die Basenpaare in der Doppelhelix der DNA verwendet, also innerhalb ''eines'' Chromosoms. Hier ist jedoch von den ''zwei'' Chromosomen des Chromosomen-Paars (je eins von Mutter und Vater) die Rede. Die beiden Buchstaben (beispielsweise AG) stehen jeweils für ''ein'' Chromosom. Man gibt nicht ein Basenpaar der DNA (des einzelnen Chromosoms) an, sondern geben jeweils ''eine'' Base, da sich die jeweils zweite Base aus den Verbindungsmöglichkeiten automatisch ergibt: In der Doppelhelix der [[DNA]] sind nur die [Basenpaare https://de.wikipedia.org/wiki/Basenpaar] Adenin-Thymin und Guanin-Cytosin möglich.
Aus diesem Analyseergebnis lässt sich aber nicht ablesen, welche der beiden Basen auf dem vom Vater und welche auf dem von der Mutter geerbten Chromosom liegt. An der ersten Position im obigen Beispiel könnte A vom Vater, G von der Mutter stammen - oder auch umgekehrt. Von oben nach unten gelesen, könnte vom Vater die Folge AAATTAATATTA stammen und der Mutter GCGCCGGCGCGG - ebenso könnte aber vom Vater auch die Folge ACGTCAGATTG oder GCGTTAACGCTA stammen.
Beim [[Matching]] ergibt sich nun das Problem, dass hier nach Abschnitten gesucht wird, bei denen eine lange Folge von einfachen Basen übereinstimmt. Als übereinstimmend würde also gewertet, wenn beim obigen Beispiel an der ersten Position mindestens ein A oder G vorkommt (weil jedes A oder G eine Übereinstimmung mit AG bedeutet). Die Folgen AAATTAATATTA, GCGCCGGCGCGG, ACGTCAGATTG, GCGTTAACGCTA würden gleichermaßen als übereinstimmend erkannt, obwohl hier möglicherweise DNA vom Vater und von der Mutter miteinander vermischt ist. Je länger ein Abschnitt ist, desto unwahrscheinlicher ist eine solche rein zufällige Übereinstimmung durch Vermischung der väterlichen und mütterlichen DNA. Aus diesem Grund ist die Angabe, wie viele SNP (= Positionen) bei einem Match in Folge übereinstimmen, ein wichtiges Kriterium zur Beurteilung, denn es macht einen gravierenden Unterschied, ob 300 oder 3.000 SNP in Folge übereinstimmen.
Bei kürzeren Segmenten mit wenigen SNP besteht in besonderem Maße die Gefahr von falsch-positiven Ergebnissen. Deswegen ist gerade hier die Unterscheidung von väterlicher und mütterlicher DNA hilfreich. Welche Basen vom Vater bzw. von der Mutter stammen, lässt sich nur im Vergleich mit der DNA mindestens eines Elternteils bestimmen. Beim Phasing wird also jedes Basenpaar in zwei einzelne Basen aufgespalten, die dann jeweils als Erbgut des Vaters oder der Mutter bestimmt werden. Im obigen Beispiel etwa würde die Position rs12124819 (Basenpaar AG) mit der gleichen Position in der DNA der Eltern verglichen. Wenn dann beispielsweise die Mutter an dieser Stelle den Wert AA, der Vater den Wert GG aufweist, ergibt sich, dass A von der Mutter, G vom Vater stammt. Wenn die Mutter den Wert AG, der Vater den Wert GG aufweist, lässt sich auch eindeutig bestimmen, dass A von der Mutter, G vom Vater stammt. Wenn allerdings beide Eltern ebenfalls den Wert AG aufweisen, lässt sich nicht entscheiden, was von welchem Elternteil stammt.




Zeile 6: Zeile 41:


{{DNA-GenealogieHinweis}}
{{DNA-GenealogieHinweis}}
[[Kategorie:Genealogischer Begriff]]
[[Kategorie:Englischer Begriff]]

Aktuelle Version vom 4. Dezember 2020, 11:41 Uhr

 < Portal:DNA-Genealogie

Phasing ist eine Methode, mit der man die vom Vater geerbte DNA von der von der Mutter geerbten DNA unterscheiden kann. Das Phasing kann bei der kostenlosen Analyseplattform GedMatch durchgeführt werden. Als Ergebnis des Phasing erhält man zwei neue Gedmatch-Nummern - eine für das Kit mit der mütterlichen, eine für das Kit mit der väterlichen DNA.

Verwendet man nun ein solches gephastes Kit für das Matching, sind Zufallsübereinstimmungen, die sich aus der Vermischung von väterlicher und mütterlicher DNA ergeben, ausgeschlossen. Das Phasing trägt also dazu bei, echte von nur zufälligen Matches zu unterscheiden.

Voraussetzung für das Matching ist also neben dem eigenen Testergebnis das von mindestens einem, besser von beiden Eltern.

Bei der DNA-Analyse im Rahmen der DNA-Genealogie wird für einen kleinen Bruchteil der Nukleotide überprüft, welche der vier Basen Adenin, Thymin, Guanin oder Cytosin (abgekürzt A, T, G, C) an der jeweiligen Position vorhanden ist. Das Analyseergebnis sieht in den Rohdaten dann etwa so aus:

rsid	        chromosome	position	genotype
rs12124819	1	        776546	        AG
rs4970383	1	        838555	        AC
rs7537756	1	        854250	        AG
rs4442317	1		1106784		TC
rs9442387	1		1110586		TC
rs3813204	1		1121014		AG
rs11260549	1		1121794		AG
rs7515488	1		1163804		TC
rs11260562	1		1165310		AG
rs1739855	1		1233941		TC
rs11260584	1		1239339		TG
rs12142199	1		1249187		AG

rsid ist die eindeutige Bezeichnung für den SNP und die entsprechende Position in der DNA. Unter chromosome ist angegeben, auf welchem Chromosom sich der SNP befindet. Die position ist die Nummer des Basenpaares, gezählt vom Anfang des Chromosoms an. Unter genotype schließlich ist angegeben, welche Basen auf den beiden Chromosomen an der entsprechenden Position vorliegen.

Der Begriff "Basenpaar" ist hier doppeldeutig. Normalerweise wird er für die Basenpaare in der Doppelhelix der DNA verwendet, also innerhalb eines Chromosoms. Hier ist jedoch von den zwei Chromosomen des Chromosomen-Paars (je eins von Mutter und Vater) die Rede. Die beiden Buchstaben (beispielsweise AG) stehen jeweils für ein Chromosom. Man gibt nicht ein Basenpaar der DNA (des einzelnen Chromosoms) an, sondern geben jeweils eine Base, da sich die jeweils zweite Base aus den Verbindungsmöglichkeiten automatisch ergibt: In der Doppelhelix der DNA sind nur die [Basenpaare https://de.wikipedia.org/wiki/Basenpaar] Adenin-Thymin und Guanin-Cytosin möglich.

Aus diesem Analyseergebnis lässt sich aber nicht ablesen, welche der beiden Basen auf dem vom Vater und welche auf dem von der Mutter geerbten Chromosom liegt. An der ersten Position im obigen Beispiel könnte A vom Vater, G von der Mutter stammen - oder auch umgekehrt. Von oben nach unten gelesen, könnte vom Vater die Folge AAATTAATATTA stammen und der Mutter GCGCCGGCGCGG - ebenso könnte aber vom Vater auch die Folge ACGTCAGATTG oder GCGTTAACGCTA stammen.

Beim Matching ergibt sich nun das Problem, dass hier nach Abschnitten gesucht wird, bei denen eine lange Folge von einfachen Basen übereinstimmt. Als übereinstimmend würde also gewertet, wenn beim obigen Beispiel an der ersten Position mindestens ein A oder G vorkommt (weil jedes A oder G eine Übereinstimmung mit AG bedeutet). Die Folgen AAATTAATATTA, GCGCCGGCGCGG, ACGTCAGATTG, GCGTTAACGCTA würden gleichermaßen als übereinstimmend erkannt, obwohl hier möglicherweise DNA vom Vater und von der Mutter miteinander vermischt ist. Je länger ein Abschnitt ist, desto unwahrscheinlicher ist eine solche rein zufällige Übereinstimmung durch Vermischung der väterlichen und mütterlichen DNA. Aus diesem Grund ist die Angabe, wie viele SNP (= Positionen) bei einem Match in Folge übereinstimmen, ein wichtiges Kriterium zur Beurteilung, denn es macht einen gravierenden Unterschied, ob 300 oder 3.000 SNP in Folge übereinstimmen.

Bei kürzeren Segmenten mit wenigen SNP besteht in besonderem Maße die Gefahr von falsch-positiven Ergebnissen. Deswegen ist gerade hier die Unterscheidung von väterlicher und mütterlicher DNA hilfreich. Welche Basen vom Vater bzw. von der Mutter stammen, lässt sich nur im Vergleich mit der DNA mindestens eines Elternteils bestimmen. Beim Phasing wird also jedes Basenpaar in zwei einzelne Basen aufgespalten, die dann jeweils als Erbgut des Vaters oder der Mutter bestimmt werden. Im obigen Beispiel etwa würde die Position rs12124819 (Basenpaar AG) mit der gleichen Position in der DNA der Eltern verglichen. Wenn dann beispielsweise die Mutter an dieser Stelle den Wert AA, der Vater den Wert GG aufweist, ergibt sich, dass A von der Mutter, G vom Vater stammt. Wenn die Mutter den Wert AG, der Vater den Wert GG aufweist, lässt sich auch eindeutig bestimmen, dass A von der Mutter, G vom Vater stammt. Wenn allerdings beide Eltern ebenfalls den Wert AG aufweisen, lässt sich nicht entscheiden, was von welchem Elternteil stammt.


Anmerkungen


Die Doppelhelix der DNA
Weitere Informationen zur DNA-Genealogie siehe Portal:DNA-Genealogie
1-zu-1-Vergleich zweier DNA-Kits bei Gedmatch.com