DNA-Herkunftsanalyse
DNA-Herkunftsanalysen
Die DNA-Herkunftsanalyse (englisch: ethnicity estimate) beruht auf der Tatsache, dass sich Menschen aus verschiedenen Regionen der Welt mehr oder weniger stark voneinander unterscheiden. Die Menschen von verschiedenen Kontinenten unterscheiden sich recht deutlich in verschiedenen äußerlichen Merkmalen, aber auch in bestimmten genetischen Merkmalen, die sich im Laufe der Menschheitsgeschichte in den letzten 200.000 Jahren herausgebildet haben. Je weiter sich zwei Bevölkerungen historisch voneinander entfernt haben, desto größer sind die Unterschiede, während benachbarte Bevölkerungen zahlreiche Überschneidungen in ihren Merkmalen aufweisen. Bis hin auf die Ebene kleinerer Regionen gibt es bestimmte genetische Merkmale, die in einer jeweils unterschiedlichen Mischung für die jeweilige einheimische Bevölkerung charakteristisch sind. Diese unterschiedlichen Mischungen erklären sich durch die Migrationsbewegungen in den letzten Jahrtausenden und die wiederholte Vermischung verschiedener Bevölkerungsgruppen. Beispiele dafür sind die Einwanderung neolithischer Bauern nach Mitteleuropa vor rund 8000 Jahren und deren sukzessive Vermischung mit den alteuropäischen Jägern und Sammlern, die massive Zuwanderung indoeuropäischer Steppenvölker vor etwa 5000 Jahren, die keltischen Wanderungen in der Latènezeit, die Völkerwanderung in der Spätantike mit der Zuwanderung germanischer Stämme nach Mitteleuropa und in Teile des Römischen Reiches oder die mittelalterliche Ostsiedlung im Hohen Mittelalter.
Bei einer DNA-Herkunftsanalyse wird die atDNA eines Probanden auf die für bestimmte Regionen bzw. Bevölkerungen typischen Merkmale hin untersucht und mit einer möglichst großen Zahl anderer DNA-Proben, die bereits räumlich genau zugeordnet sind, verglichen. Anhand der Übereinstimmung bestimmter genetische Merkmale und deren Mischung kann dann die Herkunft der Vorfahren des Probanden anhand bestimmter statistischer Berechnungen bestimmt werden. Die Genauigkeit einer solchen Herkunftsanalyse hängt ganz entscheidend davon ab, wie groß die Vergleichsgruppe ist und wie genau die in der Vergleichsgruppe enthaltenen Vergleichsproben räumlich zugeordnet werden können.
Die verschiedenen Anbieter für atDNA-Tests benutzen für ihre Herkunftsanalysen unterschiedlich große Vergleichsgruppen und unterschiedliche Berechnungsverfahren. Aus diesem Grund kommen die Herkunftsanalysen verschiedener Anbieter zu mehr oder weniger abweichenden Ergebnissen. Die Zuordnung auf die einzelnen Kontinente kann heute mit hoher Sicherheit erfolgen, während beispielsweise die Zuordnung zu einzelnen Regionen in Mitteleuropa oft fehlerhaft ist. Hier ist in Zukunft mit besseren und größeren Referenzgruppen mit genaueren Ergebnissen zu rechnen.
Für die Vergleichsgruppen werden heute in der Regel Personen ausgewählt, deren vier Großeltern in einer bestimmten Gegend geboren wurden, in der Erwartung, dass dann auch die weiteren Vorfahren (überwiegend) aus der betreffenden Gegend stammen. Vor dem Hintergrund der seit dem späten 19. Jahrhundert massiv gestiegenen Mobilität kann diese Annahme aber nur unter Vorbehalt gelten. Deutlich besser wäre eine systematische Auswertung der DNA von Skeletten aus archäologischen Funden; leider wird derzeit bei archäologischen Ausgrabungen oft nur die yDNA und die mtDNA analysiert, aber nicht die atDNA, so dass hier viele Erkenntnismöglichkeiten ungenutzt bleiben.
Wichtige Hinweise
1. Wegen der möglichen Ungenauigkeit einer Herkunftsanalyse, vor allem bei Anteilen von weniger 10 %, sollte man keine Zeit und Mühe darauf verwenden, auf dieser Grundlage nach Vorfahren aus einer bestimmten Region zu suchen. Im Zweifelsfall sollte das Ergebnis der traditionellen genealogischen Forschung Vorrang haben, wenngleich in manchen Fällen die Herkunftsanalyse wichtige Hinweise geben kann - vor allem dann, wenn bestimmte Vorfahrenlinien mit traditionellen Quellen nicht erforscht werden können.
2. Bei Probanden aus Mitteleuropa werden häufig hohe oder sehr hohe DNA-Anteile den Herkunftsregionen "England" bzw. "British Isles" und/oder "Skandinavien" zugewiesen, obwohl die Vorfahren - soweit bekannt - aus dem deutschen Sprachraum stammen. Der Grund für diese häufige Falschzuordnung ist die offenbar hohe genetische Ähnlichkeit der Bevölkerung in Nord- und Westdeutschland, Nordfrankreich, in den Benelux-Ländern, in Südengland und in Südskandinavien. Unschwer erkennt man hier jene Gebiete, die zum Siedlungsgebiet der Germanen gehörten (Südskandinavien, Norddeutschland) oder in der Völkerwanderung von germanischen Stämmen besetzt wurden (Benelux-Länder, Nordfrankreich durch die Franken; Südengland durch die Angeln und Sachsen). Diese hohen Übereinstimmungen haben sicher nichts zu tun mit einzelnen Hansekaufleuten aus Deutschland, die in England Nachkommen hinterlassen haben könnten, den Wikingern oder jenen Engländern, die in den Armeen des Dreißigjährigen Krieges in Mitteleuropa kämpften; mögliche einzelne Vorfahren aus den genannten Ländern können für die angeblich hohen DNA-Anteile dieser Herkunftsregionen nicht verantwortlich sein.
Daneben werden bei Probanden aus Mitteleuropa teilweise auch DNA-Anteile den Herkunftsregionen "Italien" oder "Spanien" zugeordnet. Dies scheint öfter der Fall zu sein bei Personen mit Vorfahren aus dem südwestdeutschen Raum. Möglicherweise bestehen hier in geringerem Maße genetische Ähnlichkeiten mit Bevölkerungsgruppen im Mittelmeerraum.
Die Herkunftsanalysen der verschiedenen Anbieter
FTDNA: "My Origins"
FTDNA: "Ancient Origins"
iGENEA
23andMe: "Ancestry Composition"
Bei der Bestimmung der "Ancestry Composition" von 23andMe werden derzeit 31 Gruppen ("populations") unterschieden. Europa wird dabei unterteilt in:
- Northwestern European (mit "French & German", "British & Irish", "Scandinavian", "Finnish", "Broadly Northwestern European" als Untergruppen)
- Southern European (mit "Sardinian", "Iberian", "Italian", "Balkan", "Broadly Southern European")
- Eastern European (ohne weitere Unterteilung)
- Ashkenazi Jewish
- Broadly European
Referenzgruppen: Als Vergleich für die Bestimmung der "Ancestry Composition" dient eine Datensammlung mit der DNA von 10.418 Personen, deren vier Großeltern alle in einem Land geboren sind (ausgenommen Einwanderungsländer wie die USA, Kanada und Australien). Die Daten stammen von 23andMe selbst sowie aus öffentlich zugänglich Referenzdatenbanken (Human Genome Diversity Project, HapMap, 1000 Genomes project). Offensichtliche "Ausreißer", deren DNA große Unterschiede zu der Mehrzahl der Proben aus der gleichen Region aufweist, werden herausgefiltert. Wie sich die 10.418 Referenzproben auf die 31 Gruppen verteilen, ist nicht angegeben; bei einer gleichmäßigen Verteilung würde jede der 31 Gruppen durch rund 330 Vergleichsproben vertreten. Die genaue Vorgehensweise einschließlich der verwendeten statistischen Modelle stellt 23andMe sehr ausführlich selbst dar.
Zeitrahmen: Die Herkunftsanalyse durch 23andMe soll die "Ancestry Composition" in den letzten zehn Generationen darstellen. Dies wird in der "Ancestry Timeline" visualisiert.[1]
Genauigkeit der Ergebnisse: 23andMe gibt für jede der 31 Populationen an, wie zuverlässig die jeweilige Bestimmung ist. Dabei wird unterschieden zwischen "precision" und "recall". "Precision" gibt an, mit welcher Häufigkeit ein DNA-Segment tatsächlich zu der Population gehört, der es zugeordnet wird. "Recall" meint umgekehrt, wie häufig ein Segment, das zu einer bestimmten Population gehört, auch tatsächlich dieser zugewiesen wird. Für viele Regionen bzw. Gruppen erreicht 23andMe nach eigenen Angaben eine Zuverlässigkeit zwischen 90 und 100 % ("precision" und "recall"); gerade für Europa liegen die Werte aber zum Teil deutlich niedriger, wie folgende Tabelle zeigt:
Gruppe precision recall European 99 % 99 % Northwestern European 95 % 95 % British & Irish 90 % 39 % Finnish 95 % 86 % French & German 78 % 8 % Scandinavian 86 % 34 % Southern European 93 % 66 % Balkan 88 % 42 % Iberian 92 % 51 % Italian 88 % 50 % Sardinian 96 % 62 % Eastern European 90 % 50 % Ashkenazi 97 % 93 %
Diese Angaben bedeuten, dass beispielsweise die Bestimmung als "Northwestern European" in 95 % der Fälle zutrifft und dass auch 95 % der tatsächlich aus Nordwesteuropa stammenden DNA als solche identifiziert wird. Gerade für Deutschland ist die Zuverlässigkeit am geringsten: Die Bestimmung als "French & German" ist in 78 % aller Fälle richtig, aber nur 8 % [!!] der aus Frankreich und Deutschland stammenden DNA wird als solche erkannt.[2]
Ancestry: "Genetic Communities"
Living DNA
MyHeritage: "Ethnizitätseinschätzung"
Bei der "Ethnizitätseinschätzung" von MyHeritage werden derzeit 17 Gruppen mit 42 Untergruppen unterschieden. Europa wird unterteilt in:
- Nord- und Westeuropa (mit "Nord- und Westeuropäer", "Skandinavier", "Engländer", "Finne" und "Iren, Schotten und Waliser" als Untergruppen)
- Südeuropa (mit "Iberer", "Griechen", "Italiener" und "Sarde")
- Osteuropa (mit "Osteuropäer", "Balten", "Balkanbewohner")
- Aschkenasischer Jude (ohne weitere Unterteilung).
Referenzgruppen: Über die Größe und Zusammensetzung der einzelnen Vergleichsgruppen macht MyHeritage keine Angabe; es heißt in den Erläuterungen nur, man habe "ein genetisches Modell für jede Region der Welt anlegen können".
Zeitrahmen: MyHeritage macht keine Angaben, auf welchen Zeitraum in der Vergangenheit sich die "Ethnizitätseinschätzung" bezieht.
Genauigkeit der Ergebnisse: Hinsichtlich der Genau- oder Ungenauigkeit weist MyHeritage ausdrücklich darauf hin, "dass die Ethnizitätsschätzungen - welche das Ergebnis eines in hohem Grade genauen statistischen Algorithmus ist [!] - immer noch Schätzungen sind. Einige Bevölkerungsgruppen weltweit zeigen ähnliche DNA aufgrund der Nähe und Vermischung der Bevölkerung."
National Geographic: "Your Regional Ancestry"
Bei der Bestimmung der "Regional Ancestry" beim "Genographic Project" von National Geographic erfolgt eine Zuordnung zu einer von derzeit neun Regionen: Northeast Asian, Mediterranean, Southern African, Southwest Asian, Native American, Oceanian, Southeast Asian, Northern European, Sub-Saharan African. Diese Regionen sind hergeleitet aus der Menschheitsgeschichte der letzten 50.000 Jahre. [3]
In diesen neun Regionen werden insgesamt 43 Referenzgruppen unterschieden, die jeweils definiert sind durch ihre je individuelle Mischung von Elementen aus jenen neun Regionen. Europa wird durch folgende Referenzgruppen vertreten:
- British (United Kingdom)
- Bulgarian
- Danish
- Finnish
- Georgian
- German
- Greek
- Iberian (Spain & Portugal)
- Romanian
- Russians
- Sardinian
- Tuscan (Italy)
Es fällt auf, dass Skandinavien hier allein durch "Danish" vertreten ist und Frankreich ganz fehlt, während Deutschland hingegen - anders als bei anderen Anbietern - als eigene Referenzgruppe ausgewiesen ist. Diese deutsche Referenzgruppe ist charakterisiert durch ihre Zusammensetzung aus 46 % "Northern European" (zurückgeführt auf die Jäger und Sammler, die vor mehr als 35.000 Jahren nach Europa gekommen sind), 36 % "Mediterranian" und 17 % "Southwest Asian" (beides zurückgeführt auf Ackerbauern und Viehzüchter, die in den letzten 10.000 Jahren nach Europa eingewandert sind):
The dominant 46% Northern European component likely reflects the earliest settlers in Europe, hunter-gatherers who arrived there more than 35,000 years ago. The 36% Mediterranean and 17% Southwest Asian percentages probably arrived later, with the spread of agriculture from the Fertile Crescent in the Middle East over the past 10,000 years. As these early farmers moved into Europe, they spread their genetic patterns as well. Today, northern and central European populations retain links to both the earliest Europeans and these later migrants from the Middle East.
Die einzelne DNA-Probe wird im "Genographic Project" dann auf ihre Zusammensetzung aus den neun Hauptregionen untersucht; anschließend wird deren Mischungsverhältnis mit dem der Referenzgruppen verglichen. Auf dieser Grundlage erfolgt dann eine Zuordnung. Wenn also im Einzelfall das Verhältnis von "Northern European", "Mediterranean" und "Southwest Asian" am ehesten dem Verhältnis in der deutschen Referenzgruppe entspricht, erfolgt eine Zuordnung zu dieser Gruppe. Unter Umständen werden mehrere Referenzgruppen als ähnlich genannt (etwa "Danish" und "German").
Referenzgruppen: Über die Größe der deutschen Referenzgruppe macht National Geographic keine Angabe. Es heißt nur: "This reference population is based on samples collected from people native to Germany."
Zeitrahmen: Die Herkunftsanalyse bezieht sich auf die Geschichte des Homo sapiens in Europa, also auf mehrere zehntausend Jahre.
Genauigkeit der Ergebnisse: Über die Zuverlässigkeit der Zuordnung macht National Geographic keine Angaben.
DNATribes
MyDNA global
GPS Origins
==
==
Freie Herkunftsanalysen
Eurogenes (GEDmatch)
MDLP (GEDmatch)
Dodecad (GEDmatch)
puntDNAL (GEDmatch)
Harappa World (GEDmatch)
GedrosiaDNA (GEDmatch)
Ethiohelix (GEDmatch)
DNA Land
Geneplaza
Interpretome
WeGene
Literatur
Zum Weiterlesen im Internet
- Estes, Roberta: Which Ethnicity Test is Best? Blog "DNAeXplained – Genetic Genealogy", 20.6.2017
- Estes, Roberta: Ethnicity Testing – A Conundrum. "DNAeXplained – Genetic Genealogy", 10.2.2016
- Estes, Roberta: Concepts – Calculating Ethnicity Percentages. "DNAeXplained – Genetic Genealogy", 11.1.2017
Anmerkungen
- ↑ Vgl. dazu das White Paper 23-14: Katarzyna Bryc, Eric Y. Durand, Joanna Mountain: Admixture Date Estimator. 2016, online veröffentlicht.
- ↑ Vgl. die vollständige Tabelle für alle 31 Gruppen bei 23andMe.
- ↑ Siehe die Erläuterungen zu "Your Regional Ancestry: Regions".