DNA-Herkunftsanalyse: Unterschied zwischen den Versionen
Zeile 32: | Zeile 32: | ||
'''Referenzgruppen:''' Als Vergleich für die Bestimmung der "Ancestry Composition" dient eine Datensammlung mit der DNA von 10.418 Personen, deren vier Großeltern alle in einem Land geboren sind (ausgenommen Einwanderungsländer wie die USA, Kanada und Australien). Die Daten stammen von 23andMe selbst sowie aus öffentlich zugänglich Referenzdatenbanken ([http://www.hagsc.org/hgdp/ Human Genome Diversity Project], [https://www.genome.gov/10001688/international-hapmap-project/ HapMap], [http://www.internationalgenome.org/ 1000 Genomes project]). Offensichtliche "Ausreißer", deren DNA große Unterschiede zu der Mehrzahl der Proben aus der gleichen Region aufweist, werden herausgefiltert. Wie sich die 10.418 Referenzproben auf die 31 Gruppen verteilen, ist nicht angegeben; bei einer gleichmäßigen Verteilung würde jede der 31 Gruppen durch rund 330 Vergleichsproben vertreten. Die genaue Vorgehensweise einschließlich der verwendeten statistischen Modelle stellt 23andMe [https://www.23andme.com/en-int/ancestry-composition-guide/ sehr ausführlich] selbst dar. | '''Referenzgruppen:''' Als Vergleich für die Bestimmung der "Ancestry Composition" dient eine Datensammlung mit der DNA von 10.418 Personen, deren vier Großeltern alle in einem Land geboren sind (ausgenommen Einwanderungsländer wie die USA, Kanada und Australien). Die Daten stammen von 23andMe selbst sowie aus öffentlich zugänglich Referenzdatenbanken ([http://www.hagsc.org/hgdp/ Human Genome Diversity Project], [https://www.genome.gov/10001688/international-hapmap-project/ HapMap], [http://www.internationalgenome.org/ 1000 Genomes project]). Offensichtliche "Ausreißer", deren DNA große Unterschiede zu der Mehrzahl der Proben aus der gleichen Region aufweist, werden herausgefiltert. Wie sich die 10.418 Referenzproben auf die 31 Gruppen verteilen, ist nicht angegeben; bei einer gleichmäßigen Verteilung würde jede der 31 Gruppen durch rund 330 Vergleichsproben vertreten. Die genaue Vorgehensweise einschließlich der verwendeten statistischen Modelle stellt 23andMe [https://www.23andme.com/en-int/ancestry-composition-guide/ sehr ausführlich] selbst dar. | ||
'''Zeitrahmen:''' Die Herkunftsanalyse durch 23andMe soll die "Ancestry Composition" in den letzten zehn Generationen darstellen | '''Zeitrahmen:''' Die Herkunftsanalyse durch 23andMe soll die "Ancestry Composition" in den letzten zehn Generationen darstellen. Dies wird in der "Ancestry Timeline" visualisiert.<ref>Vgl. dazu das White Paper 23-14: Katarzyna Bryc, Eric Y. Durand, Joanna Mountain: Admixture Date Estimator. 2016, [https://permalinks.23andme.com/pdf/23-14_admixture_date_estimator.pdf online veröffentlicht].</ref> | ||
'''Genauigkeit der Ergebnisse:''' 23andMe für jede der 31 Populationen an, wie zuverlässig die jeweilige Bestimmung ist. Dabei wird unterschieden zwischen "precision" und "recall". "Precision" gibt an, mit welcher Häufigkeit ein DNA-Segment tatsächlich zu der Population gehört, der es zugeordnet wird. "Recall" meint umgekehrt, wie häufig ein Segment, das zu einer bestimmten Population gehört, auch tatsächlich dieser zugewiesen wird. Für viele Regionen bzw. Gruppen erreicht 23andMe nach eigenen Angaben eine Zuverlässigkeit zwischen 90 und 100 % ("precision" und "recall"); gerade für Europa liegen die Werte aber zum deutlich niedriger, wie folgende Tabelle zeigt: | '''Genauigkeit der Ergebnisse:''' 23andMe für jede der 31 Populationen an, wie zuverlässig die jeweilige Bestimmung ist. Dabei wird unterschieden zwischen "precision" und "recall". "Precision" gibt an, mit welcher Häufigkeit ein DNA-Segment tatsächlich zu der Population gehört, der es zugeordnet wird. "Recall" meint umgekehrt, wie häufig ein Segment, das zu einer bestimmten Population gehört, auch tatsächlich dieser zugewiesen wird. Für viele Regionen bzw. Gruppen erreicht 23andMe nach eigenen Angaben eine Zuverlässigkeit zwischen 90 und 100 % ("precision" und "recall"); gerade für Europa liegen die Werte aber zum deutlich niedriger, wie folgende Tabelle zeigt: |
Version vom 7. Juni 2017, 19:42 Uhr
DNA-Herkunftsanalysen
Die DNA-Herkunftsanalyse (englisch: ethnicity estimate) beruht auf der Tatsache, dass sich Menschen aus verschiedenen Regionen der Welt mehr oder weniger stark voneinander unterscheiden. Die Menschen von verschiedenen Kontinenten unterscheiden sich recht deutlich in verschiedenen äußerlichen Merkmalen, aber auch in bestimmten genetischen Merkmalen, die sich im Laufe der Menschheitsgeschichte in den letzten 200.000 Jahren herausgebildet haben. Je weiter sich zwei Bevölkerungen historisch voneinander entfernt haben, desto größer sind die Unterschiede, während benachbarte Bevölkerungen zahlreiche Überschneidungen in ihren Merkmalen aufweisen. Bis hin auf die Ebene kleinerer Regionen gibt es bestimmte genetische Merkmale, die in einer jeweils unterschiedlichen Mischung für die jeweilige einheimische Bevölkerung charakteristisch sind. Diese unterschiedlichen Mischungen erklären sich durch die Migrationsbewegungen in den letzten Jahrtausenden und die wiederholte Vermischung verschiedener Bevölkerungsgruppen. Beispiele dafür sind die Einwanderung neolithischer Bauern nach Mitteleuropa vor rund 8000 Jahren und deren sukzessive Vermischung mit den alteuropäischen Jägern und Sammlern, die massive Zuwanderung indoeuropäischer Steppenvölker vor etwa 5000 Jahren, die keltischen Wanderungen in der Latènezeit, die Völkerwanderung in der Spätantike mit der Zuwanderung germanischer Stämme nach Mitteleuropa und in Teile des Römischen Reiches oder die mittelalterliche Ostsiedlung im Hohen Mittelalter.
Bei einer DNA-Herkunftsanalyse wird die atDNA eines Probanden auf die für bestimmte Regionen bzw. Bevölkerungen typischen Merkmale hin untersucht und mit einer möglichst großen Zahl anderer DNA-Proben, die bereits räumlich genau zugeordnet sind, verglichen. Anhand der Übereinstimmung bestimmter genetische Merkmale und deren Mischung kann dann die Herkunft der Vorfahren des Probanden anhand bestimmter statistischer Berechnungen bestimmt werden. Die Genauigkeit einer solchen Herkunftsanalyse hängt ganz entscheidend davon ab, wie groß die Vergleichsgruppe ist und wie genau die in der Vergleichsgruppe enthaltenen Vergleichsproben räumlich zugeordnet werden können.
Die verschiedenen Anbieter für atDNA-Tests benutzen für ihre Herkunftsanalysen unterschiedlich große Vergleichsgruppen und unterschiedliche Berechnungsverfahren. Aus diesem Grund kommen die Herkunftsanalysen verschiedener Anbieter zu mehr oder weniger abweichenden Ergebnissen. Die Zuordnung auf die einzelnen Kontinente kann heute mit hoher Sicherheit erfolgen, während beispielsweise die Zuordnung zu einzelnen Regionen in Mitteleuropa oft fehlerhaft ist. Hier ist in Zukunft mit besseren und größeren Referenzgruppen mit genaueren Ergebnissen zu rechnen.
Für die Vergleichsgruppen werden heute in der Regel Personen ausgewählt, deren vier Großeltern in einer bestimmten Gegend geboren wurden, in der Erwartung, dass dann auch die weiteren Vorfahren (überwiegend) aus der betreffenden Gegend stammen. Vor dem Hintergrund der seit dem späten 19. Jahrhundert massiv gestiegenen Mobilität kann diese Annahme aber nur unter Vorbehalt gelten. Deutlich besser wäre eine systematische Auswertung der DNA von Skeletten aus archäologischen Funden; leider wird derzeit bei archäologischen Ausgrabungen oft nur die yDNA und die mtDNA analysiert, aber nicht die atDNA, so dass hier viele Erkenntnismöglichkeiten ungenutzt bleiben.
Ein wichtiger Hinweis: Wegen der möglichen Ungenauigkeit einer Herkunftsanalyse, vor allem bei Anteilen von weniger 10 %, sollte man keine Zeit und Mühe darauf verwenden, auf dieser Grundlage nach Vorfahren aus einer bestimmten Regionen zu suchen. Im Zweifelsfall sollte das Ergebnis der traditionellen genealogischen Forschung Vorrang haben, wenngleich in manchen Fällen die Herkunftsanalyse wichtige Hinweise geben kann - vor allem dann, wenn bestimmte Vorfahrenlinien mit traditionellen Quellen nicht erforscht werden können.
Die Herkunftsanalysen der verschiedenen Anbieter
FTDNA: "My Origins"
FTDNA: "Ancient Origins"
iGENEA
23andMe: "Ancestry Composition"
Bei der Bestimmung der "Ancestry Composition" von 23andMe werden derzeit 31 Gruppen ("populations") unterschieden. Europa wird dabei unterteilt in:
- Northwestern European (mit "French & German", "British & Irish", "Scandinavian", "Finnish", "Broadly Northwestern European" als Untergruppen)
- Southern European (mit "Sardinian", "Iberian", "Italian", "Balkan", "Broadly Southern European")
- Eastern European (ohne weitere Unterteilung)
- Ashkenazi Jewish
- Broadly European
Referenzgruppen: Als Vergleich für die Bestimmung der "Ancestry Composition" dient eine Datensammlung mit der DNA von 10.418 Personen, deren vier Großeltern alle in einem Land geboren sind (ausgenommen Einwanderungsländer wie die USA, Kanada und Australien). Die Daten stammen von 23andMe selbst sowie aus öffentlich zugänglich Referenzdatenbanken (Human Genome Diversity Project, HapMap, 1000 Genomes project). Offensichtliche "Ausreißer", deren DNA große Unterschiede zu der Mehrzahl der Proben aus der gleichen Region aufweist, werden herausgefiltert. Wie sich die 10.418 Referenzproben auf die 31 Gruppen verteilen, ist nicht angegeben; bei einer gleichmäßigen Verteilung würde jede der 31 Gruppen durch rund 330 Vergleichsproben vertreten. Die genaue Vorgehensweise einschließlich der verwendeten statistischen Modelle stellt 23andMe sehr ausführlich selbst dar.
Zeitrahmen: Die Herkunftsanalyse durch 23andMe soll die "Ancestry Composition" in den letzten zehn Generationen darstellen. Dies wird in der "Ancestry Timeline" visualisiert.[1]
Genauigkeit der Ergebnisse: 23andMe für jede der 31 Populationen an, wie zuverlässig die jeweilige Bestimmung ist. Dabei wird unterschieden zwischen "precision" und "recall". "Precision" gibt an, mit welcher Häufigkeit ein DNA-Segment tatsächlich zu der Population gehört, der es zugeordnet wird. "Recall" meint umgekehrt, wie häufig ein Segment, das zu einer bestimmten Population gehört, auch tatsächlich dieser zugewiesen wird. Für viele Regionen bzw. Gruppen erreicht 23andMe nach eigenen Angaben eine Zuverlässigkeit zwischen 90 und 100 % ("precision" und "recall"); gerade für Europa liegen die Werte aber zum deutlich niedriger, wie folgende Tabelle zeigt:
Gruppe precision recall European 99 % 99 % Northwestern European 95 % 95 % British & Irish 90 % 39 % Finnish 95 % 86 % French & German 78 % 8 % Scandinavian 86 % 34 % Southern European 93 % 66 % Balkan 88 % 42 % Iberian 92 % 51 % Italian 88 % 50 % Sardinian 96 % 62 % Eastern European 90 % 50 % Ashkenazi 97 % 93 %
Diese Angaben bedeuten, dass beispielsweise die Bestimmung als "Northwestern European" in 95 % der Fälle zutrifft und dass auch 95 % der tatsächlich aus Nordwesteuropa stammenden DNA als solche identifiziert wird. Gerade für Deutschland ist die Zuverlässigkeit am geringsten: Die Bestimmung als "French & German" ist in 78 % aller Fälle richtig, aber nur 8 % [!!] der aus Frankreich und Deutschland stammenden DNA wird als solche erkannt.[2]
Ancestry: "Genetic Communities"
Living DNA
MyHeritage: "Ethnizitätseinschätzung"
Bei der "Ethnizitätseinschätzung" von MyHeritage werden derzeit 17 Gruppen mit 42 Untergruppen unterschieden. Europa wird unterteilt in:
- Nord- und Westeuropa (mit "Nord- und Westeuropäer", "Skandinavier", "Engländer", "Finne" und "Iren, Schotten und Waliser" als Untergruppen)
- Südeuropa (mit "Iberer", "Griechen", "Italiener" und "Sarde")
- Osteuropa (mit "Osteuropäer", "Balten", "Balkanbewohner")
- Aschkenasischer Jude (ohne weitere Unterteilung).
Referenzgruppen: Über die Größe und Zusammensetzung der einzelnen Vergleichsgruppen macht MyHeritage keine Angabe; es heißt in den Erläuterungen nur, man habe "ein genetisches Modell für jede Region der Welt anlegen können".
Zeitrahmen: MyHeritage macht keine Angaben, auf welchen Zeitraum in der Vergangenheit sich die "Ethnizitätseinschätzung" bezieht.
Genauigkeit der Ergebnisse: Hinsichtlich der Genau- oder Ungenauigkeit weist MyHeritage ausdrücklich darauf hin, "dass die Ethnizitätsschätzungen - welche das Ergebnis eines in hohem Grade genauen statistischen Algorithmus ist [!] - immer noch Schätzungen sind. Einige Bevölkerungsgruppen weltweit zeigen ähnliche DNA aufgrund der Nähe und Vermischung der Bevölkerung."
National Geographic
DNATribes
MyDNA global
GPS Origins
==
==
Freie Herkunftsanalysen
Eurogenes (GEDmatch)
MDLP (GEDmatch)
Dodecad (GEDmatch)
puntDNAL (GEDmatch)
Harappa World (GEDmatch)
GedrosiaDNA (GEDmatch)
Ethiohelix (GEDmatch)
DNA Land
Geneplaza
Interpretome
WeGene
- ↑ Vgl. dazu das White Paper 23-14: Katarzyna Bryc, Eric Y. Durand, Joanna Mountain: Admixture Date Estimator. 2016, online veröffentlicht.
- ↑ Vgl. die vollständige Tabelle für alle 31 Gruppen bei 23andMe.