Составлено генеалогическое древо всего человечества — в нем 27 миллионов наших предков
На сегодняшний день созданы сотни тысяч геномов современного человека и тысячи геномов древнего человека. Однако разные методы и качество данных затрудняют их сравнение. Кроме того, каждый человеческий геном содержит сегменты предков разного возраста. Ученые из University of Oxford’s Big Data Institute применили метод древовидной записи к геномам древних и современных людей, чтобы создать объединенное генеалогическое древо человечества. Этот метод учитывает отсутствующие и ошибочные данные и использует древние геномы для калибровки времени их слияния. Это позволяет определить, как геномы изменились с течением времени и между популяциями, а также дает подробную картину эволюции нашего вида.
Наборы геномных данных, как правило, весьма неоднородны. Образцы из разных времен, географических мест и популяций обрабатываются, секвенируются и анализируются с использованием различных методов. Результирующие наборы данных содержат подлинные вариации, но также и сложные модели пропусков и ошибок. Это затрудняет объединение данных и препятствует усилиям по созданию наиболее полной картины геномной изменчивости человека.
Чтобы решить эти проблемы, авторы исследования, вышедшего в Science, использовали основополагающее представление о том, что наследственные отношения всех людей, которые когда-либо жили, могут быть описаны единой генеалогией.
В своей работе они представили статистические и вычислительные методы для вывода единой генеалогии современных и древних образцов. Также ученые их проверили с использованием компьютерного моделирования и анализа эмпирических данных, выделив точки различий и совпадений. Потом на основе этого исследователи провели теоретические линии происхождения между геномами и получили представление о том, какие генные варианты (или аллели), вероятно, были у общих предков этих людей.
Кроме того, что ученые смогли отобразить эти генеалогические отношения, они еще и попытались выяснить, где именно в мире жили общие предки секвенированных людей. Местоположение оценивалось на основе возраста отобранных геномов и места, где был отобран каждый геном. Хотя, конечно, эта оценка может быть очень приблизительной.
Чтобы построить единое генеалогическое древо, исследователи сначала собрали воедино геномные данные из нескольких крупных наборов данных разных проектов. Они включали 3601 высококачественную последовательность генома современных людей, и 8 — древних, в числе которых есть геномы неандертальца и денисовца.
В результате генеалогическая структура представляет собой анализ 27 миллионов фрагментов гаплотипов предков и 231 миллиона родословных, связывающих геномы из этих наборов данных. Также ученые использовали дополнительные 3589 древних образцов более низкого качества для ограничения и датирования взаимосвязей.
Древо, созданное в исследовании, показывает довольно много информации о генеалогии всего человечества. В целом, авторы работы реконструировали человеческую историю максимально точно с учетом имеющихся данных. Однако с большим количеством образцов генома и более сложным программным обеспечением генеалогическое древо могло бы быть еще точнее.
Здесь важно, что в процессе работы были созданы методы, главное преимущество которых — в их потенциальной возможности работать даже с миллионами образцов. Чем больше данных, тем точнее будет результат.
Сейчас члены команды работают над созданием новых алгоритмов машинного обучения, чтобы получить более точные данные о том, где и когда жили наши предки. Теоретически, тот же метод построения древа поможет лучше понять генетические основы болезней человека: можно определить точку происхождения аллелей, связанных с болезнью, а затем реконструировать, как и когда эти варианты генов распространяются в разных популяциях. И, наконец, метод можно использовать для отслеживания истории эволюции других организмов, таких как пчелы или крупный рогатый скот, и даже вирусов.