DNA-Herkunftsanalyse
DNA-Herkunftsanalysen
Die DNA-Herkunftsanalyse (englisch: ethnicity estimate) beruht auf der Tatsache, dass sich Menschen aus verschiedenen Regionen der Welt mehr oder weniger stark voneinander unterscheiden. Die Menschen von verschiedenen Kontinenten unterscheiden sich recht deutlich in verschiedenen äußerlichen Merkmalen, aber auch in bestimmten genetischen Merkmalen, die sich im Laufe der Menschheitsgeschichte in den letzten 200.000 Jahren herausgebildet haben. Je weiter sich zwei Bevölkerungen historisch voneinander entfernt haben, desto größer sind die Unterschiede, während benachbarte Bevölkerungen zahlreiche Überschneidungen in ihren Merkmalen aufweisen.
Bis hin auf die Ebene kleinerer Regionen gibt es bestimmte genetische Merkmale, die in einer jeweils unterschiedlichen Mischung für die jeweilige einheimische Bevölkerung charakteristisch sind. Diese unterschiedlichen Mischungen erklären sich durch die Migrationsbewegungen in den letzten Jahrtausenden und die wiederholte Vermischung verschiedener Bevölkerungsgruppen. Beispiele dafür sind die Einwanderung neolithischer Bauern nach Mitteleuropa vor rund 8000 Jahren und deren sukzessive Vermischung mit den alteuropäischen Jägern und Sammlern, die massive Zuwanderung indoeuropäischer Steppenvölker vor etwa 5000 Jahren, die keltischen Wanderungen in der Latènezeit, die Völkerwanderung in der Spätantike mit der Zuwanderung germanischer Stämme nach Mitteleuropa und in Teile des Römischen Reiches oder die mittelalterliche Ostsiedlung im Hohen Mittelalter.
Bei einer DNA-Herkunftsanalyse wird die atDNA eines Probanden auf die für bestimmte Regionen bzw. Bevölkerungen typischen Merkmale hin untersucht und mit einer möglichst großen Zahl anderer DNA-Proben, die bereits räumlich genau zugeordnet sind, verglichen. Anhand der Übereinstimmung bestimmter genetische Merkmale und deren Mischung kann dann die Herkunft der Vorfahren des Probanden anhand bestimmter statistischer Berechnungen bestimmt werden. Die Genauigkeit einer solchen Herkunftsanalyse hängt ganz entscheidend davon ab, wie groß die Vergleichsgruppe ist und wie genau die in der Vergleichsgruppe enthaltenen Vergleichsproben räumlich zugeordnet werden können.
Die verschiedenen Anbieter für atDNA-Tests benutzen für ihre Herkunftsanalysen unterschiedlich große Vergleichsgruppen und unterschiedliche Berechnungsverfahren. Aus diesem Grund kommen die Herkunftsanalysen verschiedener Anbieter zu mehr oder weniger abweichenden Ergebnissen. Die Zuordnung auf die einzelnen Kontinente kann heute mit hoher Sicherheit erfolgen, während beispielsweise die Zuordnung zu einzelnen Regionen in Mitteleuropa oft fehlerhaft ist. Hier ist in Zukunft mit besseren und größeren Referenzgruppen mit genaueren Ergebnissen zu rechnen.
Für die Vergleichsgruppen werden heute in der Regel Personen ausgewählt, deren vier Großeltern in einer bestimmten Gegend geboren wurden, in der Erwartung, dass dann auch die weiteren Vorfahren (überwiegend) aus der betreffenden Gegend stammen. Vor dem Hintergrund der seit dem späten 19. Jahrhundert massiv gestiegenen Mobilität kann diese Annahme aber nur unter Vorbehalt gelten. Deutlich besser wäre eine systematische Auswertung der DNA von Skeletten aus archäologischen Funden; leider wird derzeit bei archäologischen Ausgrabungen oft nur die yDNA und die mtDNA analysiert, aber nicht die atDNA, so dass hier viele Erkenntnismöglichkeiten ungenutzt bleiben.
Wichtige Hinweise
1. Wegen der möglichen Ungenauigkeit einer Herkunftsanalyse, vor allem bei Anteilen von weniger 10 %, sollte man keine Zeit und Mühe darauf verwenden, auf dieser Grundlage nach Vorfahren aus einer bestimmten Region zu suchen. Im Zweifelsfall sollte das Ergebnis der traditionellen genealogischen Forschung Vorrang haben, wenngleich in manchen Fällen die Herkunftsanalyse wichtige Hinweise geben kann - vor allem dann, wenn bestimmte Vorfahrenlinien mit traditionellen Quellen nicht erforscht werden können.
2. Bei Probanden aus Mitteleuropa werden häufig hohe oder sehr hohe DNA-Anteile den Herkunftsregionen "England" bzw. "British Isles" und/oder "Skandinavien" zugewiesen, obwohl die Vorfahren - soweit bekannt - aus dem deutschen Sprachraum stammen.
Der Grund für diese häufige Falschzuordnung ist die offenbar hohe genetische Ähnlichkeit der Bevölkerung in Nord- und Westdeutschland, Nordfrankreich, in den Benelux-Ländern, in Südengland und in Südskandinavien. Unschwer erkennt man hier jene Gebiete, die zum Siedlungsgebiet der Germanen gehörten (Südskandinavien, Norddeutschland) oder in der Völkerwanderung von germanischen Stämmen besetzt wurden (Benelux-Länder, Nordfrankreich durch die Franken; Südengland durch die Angeln und Sachsen).
Diese hohen Übereinstimmungen haben sicher nichts zu tun mit einzelnen Hansekaufleuten aus Deutschland, die in England Nachkommen hinterlassen haben könnten, den Wikingern oder jenen Engländern, die in den Armeen des Dreißigjährigen Krieges in Mitteleuropa kämpften; mögliche einzelne Vorfahren aus den genannten Ländern können für die angeblich hohen DNA-Anteile dieser Herkunftsregionen nicht verantwortlich sein.
Daneben werden bei Probanden aus Mitteleuropa teilweise auch DNA-Anteile den Herkunftsregionen "Italien" oder "Spanien" zugeordnet. Dies scheint öfter der Fall zu sein bei Personen mit Vorfahren aus dem südwestdeutschen Raum. Möglicherweise bestehen hier in geringerem Maße genetische Ähnlichkeiten mit Bevölkerungsgruppen im Mittelmeerraum.
Die Herkunftsanalysen der verschiedenen Anbieter
FTDNA: "My Origins"
Bei der Bestimmung der "Origins" von FTDNA werden derzeit 24 Gruppen ("population clusters") unterschieden. Europa wird dabei unterteilt in:
- Sephardic (sephardische, d.h. ursprünglich spanische Juden)
- Ashkenazi (ashkenasische, d.h. mittel- und osteuropäische Juden)
- British Isles
- Scandinavia
- Finland
- West and Central Europe (France, Belgium, Netherlands, Luxembourg, Switzerland, Austria, Czech Republic, and Germany)
- Southeast Europe (Italy, Greece, and the western Balkan states from Bulgaria to Croatia)
- East Europe (Latvia, south to Ukraine, Romania, and the northern part of Bulgaria, west along the eastern edge of the Balkan states to Poland and the eastern half of Germany)
- Iberia (Spain and Portugal)
Deutschland wird unter "West and Central Europe" subsumiert; Probanden aus Deutschland werden allerdings häufig mit hohen Anteilen "British Isles" bestimmt.
Referenzgruppen: Über die Größe der Referenzgruppen macht FTDNA keine Angaben.
Zeitrahmen: Die Erläuterungen zu den einzelnen "population clusters" beziehen sich für die europäischen Teilgruppen i. W. auf die Zeit seit der letzten Eiszeit (etwa 11.000 v.Chr.) bis etwa zur Völkerwanderung. Die Ergebnisse von "MyOrigins" zeigen also im Wesentlichen die Zusammensetzung des Genoms mit Bezug auf Bevölkerungsgruppen und deren Verteilung, wie sie sich in der Spätantike herausgebildet haben.[1]
Genauigkeit der Ergebnisse: Bezogen auf den Zeithorizont etwa der Völkerwanderungszeit (um 500 n.Chr.) dürften die Ergebnisse gut zutreffen. Ein häufiges Missverständnis besteht darin, dass angenommen wird, die Ergebnisse würden sich auf die genealogisch relevanten letzten Jahrhunderte beziehen, so dass die Ergebnisse dann als "falsch" angesehen werden. Scheinbar überraschende Anteile "British Isles" pder "Southeast Europe" deuten also keineswegs auf englische oder italienische Vorfahren in den letzten Jahrhunderten hin, sondern spiegeln Wanderungsbewegungen in Europa mindestens in den letzten 2.000 Jahren wieder.
FTDNA: "Ancient Origins"
In der Besiedlung Europas durch den modernen Menschen lassen sich verschiedene wesentliche Einwanderungswellen unterscheiden, die ihre Spuren bis heute in der DNA der Europäer hinterlassen haben. FTDNA unterscheidet nach einem sehr vereinfachten Modell Jäger und Sammler (40.000 v. Chr.), Bauern und Viehzüchter aus dem Nahen Osten (seit etwa 10.000 v.Chr.) und Zuwanderer während der Metallzeit, die oft mit den Indoeuropäern aus der pontischen Steppe gleichgesetzt werden[2] (Metal Age Invaders). Hier vergleicht FTDNA die DNA eines Probanden mit der DNA von etwa einem Dutzend vor- und frühgeschichtlicher Skelette und errechnet daraus die Anteile von "Hunter-Gatherers, Early Farmers, and Metal Age Invaders".
Kritik an diesem Modell von FTDNA ist im Eurogenes-Blog formuliert worden.
iGENEA
23andMe: "Ancestry Composition"
Bei der Bestimmung der "Ancestry Composition" von 23andMe werden derzeit 31 Gruppen ("populations") unterschieden. Europa wird dabei unterteilt in:
- Northwestern European (mit "French & German", "British & Irish", "Scandinavian", "Finnish", "Broadly Northwestern European" als Untergruppen)
- Southern European (mit "Sardinian", "Iberian", "Italian", "Balkan", "Broadly Southern European")
- Eastern European (ohne weitere Unterteilung)
- Ashkenazi Jewish
- Broadly European
Referenzgruppen: Als Vergleich für die Bestimmung der "Ancestry Composition" dient eine Datensammlung mit der DNA von 10.418 Personen, deren vier Großeltern alle in einem Land geboren sind (ausgenommen Einwanderungsländer wie die USA, Kanada und Australien). Die Daten stammen von 23andMe selbst sowie aus öffentlich zugänglich Referenzdatenbanken (Human Genome Diversity Project, HapMap, 1000 Genomes project). Offensichtliche "Ausreißer", deren DNA große Unterschiede zu der Mehrzahl der Proben aus der gleichen Region aufweist, werden herausgefiltert. Wie sich die 10.418 Referenzproben auf die 31 Gruppen verteilen, ist nicht angegeben; bei einer gleichmäßigen Verteilung würde jede der 31 Gruppen durch rund 330 Vergleichsproben vertreten. Die genaue Vorgehensweise einschließlich der verwendeten statistischen Modelle stellt 23andMe sehr ausführlich selbst dar.
Zeitrahmen: Die Herkunftsanalyse durch 23andMe soll die "Ancestry Composition" in den letzten zehn Generationen darstellen. Dies wird in der "Ancestry Timeline" visualisiert.[3]
Genauigkeit der Ergebnisse: 23andMe gibt für jede der 31 Populationen an, wie zuverlässig die jeweilige Bestimmung ist. Dabei wird unterschieden zwischen "precision" und "recall". "Precision" gibt an, mit welcher Häufigkeit ein DNA-Segment tatsächlich zu der Population gehört, der es zugeordnet wird. "Recall" meint umgekehrt, wie häufig ein Segment, das zu einer bestimmten Population gehört, auch tatsächlich dieser zugewiesen wird. Für viele Regionen bzw. Gruppen erreicht 23andMe nach eigenen Angaben eine Zuverlässigkeit zwischen 90 und 100 % ("precision" und "recall"); gerade für Europa liegen die Werte aber zum Teil deutlich niedriger, wie folgende Tabelle zeigt:
Gruppe precision recall European 99 % 99 % Northwestern European 95 % 95 % British & Irish 90 % 39 % Finnish 95 % 86 % French & German 78 % 8 % Scandinavian 86 % 34 % Southern European 93 % 66 % Balkan 88 % 42 % Iberian 92 % 51 % Italian 88 % 50 % Sardinian 96 % 62 % Eastern European 90 % 50 % Ashkenazi 97 % 93 %
Diese Angaben bedeuten, dass beispielsweise die Bestimmung als "Northwestern European" in 95 % der Fälle zutrifft und dass auch 95 % der tatsächlich aus Nordwesteuropa stammenden DNA als solche identifiziert wird. Gerade für Deutschland ist die Zuverlässigkeit am geringsten: Die Bestimmung als "French & German" ist in 78 % aller Fälle richtig, aber nur 8 % [!!] der aus Frankreich und Deutschland stammenden DNA wird als solche erkannt.[4]
Ancestry: "Genetic Communities"
Living DNA
MyHeritage: "Ethnizitätseinschätzung"
Bei der "Ethnizitätseinschätzung" von MyHeritage werden derzeit 17 Gruppen mit 42 Untergruppen unterschieden. Europa wird unterteilt in:
- Nord- und Westeuropa (mit "Nord- und Westeuropäer", "Skandinavier", "Engländer", "Finne" und "Iren, Schotten und Waliser" als Untergruppen)
- Südeuropa (mit "Iberer", "Griechen", "Italiener" und "Sarde")
- Osteuropa (mit "Osteuropäer", "Balten", "Balkanbewohner")
- Aschkenasischer Jude (ohne weitere Unterteilung).
Referenzgruppen: Über die Größe und Zusammensetzung der einzelnen Vergleichsgruppen macht MyHeritage keine Angabe; es heißt in den Erläuterungen nur, man habe "ein genetisches Modell für jede Region der Welt anlegen können".
Zeitrahmen: MyHeritage macht keine Angaben, auf welchen Zeitraum in der Vergangenheit sich die "Ethnizitätseinschätzung" bezieht.
Genauigkeit der Ergebnisse: Hinsichtlich der Genau- oder Ungenauigkeit weist MyHeritage ausdrücklich darauf hin, "dass die Ethnizitätsschätzungen - welche das Ergebnis eines in hohem Grade genauen statistischen Algorithmus ist [!] - immer noch Schätzungen sind. Einige Bevölkerungsgruppen weltweit zeigen ähnliche DNA aufgrund der Nähe und Vermischung der Bevölkerung."
National Geographic: "Your Regional Ancestry"
Bei der Bestimmung der "Regional Ancestry" beim "Genographic Project" von National Geographic erfolgt eine Zuordnung zu einer von derzeit neun Regionen: Northeast Asian, Mediterranean, Southern African, Southwest Asian, Native American, Oceanian, Southeast Asian, Northern European, Sub-Saharan African. Diese Regionen sind hergeleitet aus der Menschheitsgeschichte der letzten 50.000 Jahre. [5]
In diesen neun Regionen werden insgesamt 43 Referenzgruppen unterschieden, die jeweils definiert sind durch ihre je individuelle Mischung von Elementen aus jenen neun Regionen. Europa wird durch folgende Referenzgruppen vertreten:
- British (United Kingdom)
- Bulgarian
- Danish
- Finnish
- Georgian
- German
- Greek
- Iberian (Spain & Portugal)
- Romanian
- Russians
- Sardinian
- Tuscan (Italy)
Es fällt auf, dass Skandinavien hier allein durch "Danish" vertreten ist und Frankreich ganz fehlt, während Deutschland hingegen - anders als bei anderen Anbietern - als eigene Referenzgruppe ausgewiesen ist. Diese deutsche Referenzgruppe ist charakterisiert durch ihre Zusammensetzung aus 46 % "Northern European" (zurückgeführt auf die Jäger und Sammler, die vor mehr als 35.000 Jahren nach Europa gekommen sind), 36 % "Mediterranian" und 17 % "Southwest Asian" (beides zurückgeführt auf Ackerbauern und Viehzüchter, die in den letzten 10.000 Jahren nach Europa eingewandert sind):
The dominant 46% Northern European component likely reflects the earliest settlers in Europe, hunter-gatherers who arrived there more than 35,000 years ago. The 36% Mediterranean and 17% Southwest Asian percentages probably arrived later, with the spread of agriculture from the Fertile Crescent in the Middle East over the past 10,000 years. As these early farmers moved into Europe, they spread their genetic patterns as well. Today, northern and central European populations retain links to both the earliest Europeans and these later migrants from the Middle East.[6]
Die einzelne DNA-Probe wird im "Genographic Project" dann auf ihre Zusammensetzung aus den neun Hauptregionen untersucht; anschließend wird deren Mischungsverhältnis mit dem der Referenzgruppen verglichen. Auf dieser Grundlage erfolgt dann eine Zuordnung. Wenn also im Einzelfall das Verhältnis von "Northern European", "Mediterranean" und "Southwest Asian" am ehesten dem Verhältnis in der deutschen Referenzgruppe entspricht, erfolgt eine Zuordnung zu dieser Gruppe. Unter Umständen werden mehrere Referenzgruppen als ähnlich genannt (etwa "Danish" und "German").
Referenzgruppen: Über die Größe der deutschen Referenzgruppe macht National Geographic keine Angabe. Es heißt nur: "This reference population is based on samples collected from people native to Germany."[7]
Zeitrahmen: Die Herkunftsanalyse bezieht sich auf die Geschichte des Homo sapiens in Europa, also auf mehrere zehntausend Jahre.
Genauigkeit der Ergebnisse: National Geographic weist ausdrücklich darauf hin, dass die Zuordnung zu einer Referenzgruppe allein auf der Ähnlichkeit der Mischung bestimmter genetischer Marker beruht und nicht zwingend bedeutet, dass man selbst auch dieser Population angehört. Diese Marker sind zum Teil mehrere tausend Jahre alt, liegen aber in einer individuellen Mischung vor, die in den letzten sechs Generationen entstanden ist:
This doesn’t necessarily mean that you belong to these groups, but that these groups were a similar genetic match, and can therefore be used as a guide to help determine why you have a certain result. Remember, this is a mixture of recent (past six generations) and ancient patterns established over thousands of years, so you may see surprising matches. Read each of the population descriptions below to better interpret your particular results.[8]
DNATribes
MyDNA global
GPS Origins
Freie Herkunftsanalysen
Kurze Erläuterungen und eine Anleitung den verschiedenen Herkunftsanalysen bei Gedmatch bietet der Blog "Genealogical Musings".
Eurogenes (GEDmatch)
MDLP (GEDmatch)
Dodecad (GEDmatch)
puntDNAL (GEDmatch)
Harappa World (GEDmatch)
GedrosiaDNA (GEDmatch)
Ethiohelix (GEDmatch)
DNA Land
Geneplaza
Interpretome
WeGene
Literatur
- Bettinger, Blaine T.: The Family Tree Guide to DNA Testing and Genetic Genealogy. Cincinnati 2016, S. 153-169.
Zum Weiterlesen im Internet
- Finally! A Gedmatch Admixture Guide! Blog Genealogical Musings
- Estes, Roberta: Which Ethnicity Test is Best? Blog "DNAeXplained – Genetic Genealogy", 20.6.2017
- Estes, Roberta: Ethnicity Testing – A Conundrum. "DNAeXplained – Genetic Genealogy", 10.2.2016
- Estes, Roberta: Concepts – Calculating Ethnicity Percentages. "DNAeXplained – Genetic Genealogy", 11.1.2017
Anmerkungen
- ↑ Vgl. die Beschreibung zum "West and Central Europe cluster": "Modern humans began to populate West and Central Europe toward the end of the last ice age when the ice sheets north of the Mediterranean coast began to retreat. Due to ancient interactions and exchanges with cultures from the British Isles, Scandinavia, Asia, and Africa, this cluster displays an incredible history of migration, invasion, and colonization resulting in continual shared genetic, cultural, and linguistic relatedness with nearly all of the other European clusters. [...] With Germanic tribes being pushed out of eastern Europe as well, Slavic speaking peoples settled in their wake, occupying areas leading up to east Germany. Continual raids from various European and Asian groups ended the Roman occupation of this area by roughly 500 CE. [...] It is after this migration that populations within this cluster began to establish complex and diverse civilizations [...]."
- ↑ Vgl. Wolfgang Haak u.a.: Massive migration from the steppe was a source for Indo-European languages in Europe. In: Nature 522, 207–211 (11 June 2015) doi:10.1038/nature14317
- ↑ Vgl. dazu das White Paper 23-14: Katarzyna Bryc, Eric Y. Durand, Joanna Mountain: Admixture Date Estimator. 2016, online veröffentlicht.
- ↑ Vgl. die vollständige Tabelle für alle 31 Gruppen bei 23andMe.
- ↑ Siehe die Erläuterungen zu "Your Regional Ancestry: Regions".
- ↑ Your Regional Ancestry: Reference Populations
- ↑ Your Regional Ancestry: Reference Populations
- ↑ Your Regional Ancestry