Phasing: Unterschied zwischen den Versionen
KKeine Bearbeitungszusammenfassung |
Keine Bearbeitungszusammenfassung |
||
(Eine dazwischenliegende Version desselben Benutzers wird nicht angezeigt) | |||
Zeile 27: | Zeile 27: | ||
'''rsid''' ist die eindeutige Bezeichnung für den [[SNP]] und die entsprechende Position in der DNA. Unter '''chromosome''' ist angegeben, auf welchem [[Chromosom]] sich der SNP befindet. Die '''position''' ist die Nummer des Basenpaares, gezählt vom Anfang des Chromosoms an. Unter '''genotype''' schließlich ist angegeben, welche Basen auf den beiden Chromosomen an der entsprechenden Position vorliegen. | '''rsid''' ist die eindeutige Bezeichnung für den [[SNP]] und die entsprechende Position in der DNA. Unter '''chromosome''' ist angegeben, auf welchem [[Chromosom]] sich der SNP befindet. Die '''position''' ist die Nummer des Basenpaares, gezählt vom Anfang des Chromosoms an. Unter '''genotype''' schließlich ist angegeben, welche Basen auf den beiden Chromosomen an der entsprechenden Position vorliegen. | ||
Die beiden Buchstaben (beispielsweise AG) | Der Begriff "Basenpaar" ist hier doppeldeutig. Normalerweise wird er für die Basenpaare in der Doppelhelix der DNA verwendet, also innerhalb ''eines'' Chromosoms. Hier ist jedoch von den ''zwei'' Chromosomen des Chromosomen-Paars (je eins von Mutter und Vater) die Rede. Die beiden Buchstaben (beispielsweise AG) stehen jeweils für ''ein'' Chromosom. Man gibt nicht ein Basenpaar der DNA (des einzelnen Chromosoms) an, sondern geben jeweils ''eine'' Base, da sich die jeweils zweite Base aus den Verbindungsmöglichkeiten automatisch ergibt: In der Doppelhelix der [[DNA]] sind nur die [Basenpaare https://de.wikipedia.org/wiki/Basenpaar] Adenin-Thymin und Guanin-Cytosin möglich. | ||
Aus diesem Analyseergebnis lässt sich aber nicht ablesen, welche der beiden Basen auf dem vom Vater und welche auf dem von der Mutter geerbten Chromosom liegt. An der ersten Position im obigen Beispiel könnte A vom Vater, G von der Mutter stammen - oder auch umgekehrt. Von oben nach unten gelesen, könnte vom Vater die Folge AAATTAATATTA stammen und der Mutter GCGCCGGCGCGG - ebenso könnte aber vom Vater auch die Folge ACGTCAGATTG oder GCGTTAACGCTA stammen. | Aus diesem Analyseergebnis lässt sich aber nicht ablesen, welche der beiden Basen auf dem vom Vater und welche auf dem von der Mutter geerbten Chromosom liegt. An der ersten Position im obigen Beispiel könnte A vom Vater, G von der Mutter stammen - oder auch umgekehrt. Von oben nach unten gelesen, könnte vom Vater die Folge AAATTAATATTA stammen und der Mutter GCGCCGGCGCGG - ebenso könnte aber vom Vater auch die Folge ACGTCAGATTG oder GCGTTAACGCTA stammen. |
Aktuelle Version vom 4. Dezember 2020, 11:41 Uhr
Phasing ist eine Methode, mit der man die vom Vater geerbte DNA von der von der Mutter geerbten DNA unterscheiden kann. Das Phasing kann bei der kostenlosen Analyseplattform GedMatch durchgeführt werden. Als Ergebnis des Phasing erhält man zwei neue Gedmatch-Nummern - eine für das Kit mit der mütterlichen, eine für das Kit mit der väterlichen DNA.
Verwendet man nun ein solches gephastes Kit für das Matching, sind Zufallsübereinstimmungen, die sich aus der Vermischung von väterlicher und mütterlicher DNA ergeben, ausgeschlossen. Das Phasing trägt also dazu bei, echte von nur zufälligen Matches zu unterscheiden.
Voraussetzung für das Matching ist also neben dem eigenen Testergebnis das von mindestens einem, besser von beiden Eltern.
Bei der DNA-Analyse im Rahmen der DNA-Genealogie wird für einen kleinen Bruchteil der Nukleotide überprüft, welche der vier Basen Adenin, Thymin, Guanin oder Cytosin (abgekürzt A, T, G, C) an der jeweiligen Position vorhanden ist. Das Analyseergebnis sieht in den Rohdaten dann etwa so aus:
rsid chromosome position genotype rs12124819 1 776546 AG rs4970383 1 838555 AC rs7537756 1 854250 AG rs4442317 1 1106784 TC rs9442387 1 1110586 TC rs3813204 1 1121014 AG rs11260549 1 1121794 AG rs7515488 1 1163804 TC rs11260562 1 1165310 AG rs1739855 1 1233941 TC rs11260584 1 1239339 TG rs12142199 1 1249187 AG
rsid ist die eindeutige Bezeichnung für den SNP und die entsprechende Position in der DNA. Unter chromosome ist angegeben, auf welchem Chromosom sich der SNP befindet. Die position ist die Nummer des Basenpaares, gezählt vom Anfang des Chromosoms an. Unter genotype schließlich ist angegeben, welche Basen auf den beiden Chromosomen an der entsprechenden Position vorliegen.
Der Begriff "Basenpaar" ist hier doppeldeutig. Normalerweise wird er für die Basenpaare in der Doppelhelix der DNA verwendet, also innerhalb eines Chromosoms. Hier ist jedoch von den zwei Chromosomen des Chromosomen-Paars (je eins von Mutter und Vater) die Rede. Die beiden Buchstaben (beispielsweise AG) stehen jeweils für ein Chromosom. Man gibt nicht ein Basenpaar der DNA (des einzelnen Chromosoms) an, sondern geben jeweils eine Base, da sich die jeweils zweite Base aus den Verbindungsmöglichkeiten automatisch ergibt: In der Doppelhelix der DNA sind nur die [Basenpaare https://de.wikipedia.org/wiki/Basenpaar] Adenin-Thymin und Guanin-Cytosin möglich.
Aus diesem Analyseergebnis lässt sich aber nicht ablesen, welche der beiden Basen auf dem vom Vater und welche auf dem von der Mutter geerbten Chromosom liegt. An der ersten Position im obigen Beispiel könnte A vom Vater, G von der Mutter stammen - oder auch umgekehrt. Von oben nach unten gelesen, könnte vom Vater die Folge AAATTAATATTA stammen und der Mutter GCGCCGGCGCGG - ebenso könnte aber vom Vater auch die Folge ACGTCAGATTG oder GCGTTAACGCTA stammen.
Beim Matching ergibt sich nun das Problem, dass hier nach Abschnitten gesucht wird, bei denen eine lange Folge von einfachen Basen übereinstimmt. Als übereinstimmend würde also gewertet, wenn beim obigen Beispiel an der ersten Position mindestens ein A oder G vorkommt (weil jedes A oder G eine Übereinstimmung mit AG bedeutet). Die Folgen AAATTAATATTA, GCGCCGGCGCGG, ACGTCAGATTG, GCGTTAACGCTA würden gleichermaßen als übereinstimmend erkannt, obwohl hier möglicherweise DNA vom Vater und von der Mutter miteinander vermischt ist. Je länger ein Abschnitt ist, desto unwahrscheinlicher ist eine solche rein zufällige Übereinstimmung durch Vermischung der väterlichen und mütterlichen DNA. Aus diesem Grund ist die Angabe, wie viele SNP (= Positionen) bei einem Match in Folge übereinstimmen, ein wichtiges Kriterium zur Beurteilung, denn es macht einen gravierenden Unterschied, ob 300 oder 3.000 SNP in Folge übereinstimmen.
Bei kürzeren Segmenten mit wenigen SNP besteht in besonderem Maße die Gefahr von falsch-positiven Ergebnissen. Deswegen ist gerade hier die Unterscheidung von väterlicher und mütterlicher DNA hilfreich. Welche Basen vom Vater bzw. von der Mutter stammen, lässt sich nur im Vergleich mit der DNA mindestens eines Elternteils bestimmen. Beim Phasing wird also jedes Basenpaar in zwei einzelne Basen aufgespalten, die dann jeweils als Erbgut des Vaters oder der Mutter bestimmt werden. Im obigen Beispiel etwa würde die Position rs12124819 (Basenpaar AG) mit der gleichen Position in der DNA der Eltern verglichen. Wenn dann beispielsweise die Mutter an dieser Stelle den Wert AA, der Vater den Wert GG aufweist, ergibt sich, dass A von der Mutter, G vom Vater stammt. Wenn die Mutter den Wert AG, der Vater den Wert GG aufweist, lässt sich auch eindeutig bestimmen, dass A von der Mutter, G vom Vater stammt. Wenn allerdings beide Eltern ebenfalls den Wert AG aufweisen, lässt sich nicht entscheiden, was von welchem Elternteil stammt.
Anmerkungen