исследования

Гражданство по ДНК

Популяционные
группы в генетике

Анализ популяционной принадлежности человека по ДНК, по нашему опыту, вызывает у публики три больших вопроса: можно ли связывать между собой гены и этнические группы, как происходит анализ происхождения с технической точки зрения, и умеют ли генетические тесты «определять евреев». Почему-то именно вопрос определения идентичности по ДНК особенно волнует как тех, кто имеет неоспоримые свидетельства о принадлежности к еврейскому этому народу, так и тех, кто только начал поиски своих корней.

Современные биологи подходят к вопросу генетических различий между популяциями с осторожностью: использование терминов «раса» и «этническая принадлежность» в исследованиях активно обсуждается и нередко осуждается. Были попытки ввести правила, заставляющие обосновывать необходимость использования «скользких» категорий и уточнять, что именно понимается под конкретными терминами. В 2016 году один из самых авторитетных естественно-научных журналов, Science, предложил отказаться от использования термина «race» в генетических исследованиях, заменив его более корректным и нейтральным «ancestry» — «происхождение».(1)

Но даже в условиях неопределенности с терминами делить человечество на популяционные группы по-прежнему приходится: в частности, для корректного проведения клинических испытаний лекарств и оценки риска заболеваний. У одинаковых, в целом, генов нашлись слегка отличающиеся аллельные варианты, связанные с риском заболеваний (2), метаболизмом лекарств (3), ответом организма на условия окружающей среды (4), и эти варианты встречались в различных популяциях с различной частотой. Например, три аллельных варианта гена NOD2 — R702W, G908R и 1007fs — связаны с повышенным риском болезни Крона у американцев европейского происхождения (5,6), однако, ни один из этих вариантов не ассоциирован с болезнью Крона у японцев (7). Известны аллели гена CCR5, влияющие на скорость развития иммунодефицита у ВИЧ-инфицированных больных (8): среди них был найден вариант, замедляющий прогрессирование болезни у американцев европейского происхождения, но ускоряющий ее развитие у афроамериканцев (9). У азиатов обнаружили корреляцию между полиморфизмами гена белка p53, регулирующего стрессовый ответ и подавляющего развитие опухолей, и среднезимними температурами в местах обитания популяций — генетическую адаптацию к морозам (10). И если в прошлом для разбиения выборки на этнические группы использовались исключительно сведения, сообщенные самими участниками, в постгеномную эру их все чаще дополняют и уточняют генетической оценкой происхождения испытуемого.

Pixabay

Генетические вариации между популяциями

В повседневной жизни мы делим людей на группы по внешности или языку общения. Большинство датчан похожи друг на друга больше, чем каждый из них — на итальянца (вот классная визуализация с усредненными портретами разных народностей). Датчане и итальянцы куда ближе между собой, чем каждый из них — к жителям суб-сахарской Африки: человеческие фенотипы кластеризованы по географическому паттерну. Распределение генотипов имеет похожую структуру: члены локальной группы, как правило, имеют более тесные родственные связи, чем жители отдаленных областей, а популяции, населяющие один регион, более близки, чем те, чьи места обитания разделены географическими барьерами (например, горной грядой или водным массивом).

При этом генетическое разнообразие человеческой популяции ниже, чем у многих биологических видов. Объясняют это тем, что человечество — вид молодой: у отдельных групп было относительно немного времени, чтобы аккумулировать отличия. Два случайно выбранных человека отличаются друг от друга каждым из ~1000 нуклеотидов, тогда как два шимпанзе не совпадают раз в ~500 «букв». И, тем не менее, в сумме в человеческом геноме есть около 3 миллионов потенциальных «точек расхождения». Большинство таких несоответствий, называемых однонуклеотидными полиморфизмами (single nucleotide polymorphism, SNP), нейтрально или практически нейтрально, однако часть из них и отвечает за фенотипические отличия между людьми.

Распределение нейтральных полиморфизмов (так как они не несут биологического смысла, то и направленному эволюционному отбору не подвергаются, разносятся ветром миграций) в мировой популяции отражает демографическую историю нашего вида. Генетические и археологические данные указывают на то, что в последние 100 000 лет размер человеческой популяции значительно вырос. Люди расселялись за пределы Африки, колонизируя остальной мир. Процесс расселения влиял на географическое распределение аллелей двумя путями: во-первых, сказывался «эффект основателя» — в популяции переселенцев, как правило, была представлена только часть генетических вариантов из всего пула разнообразия их в предковой популяции; во-вторых, происходило так называемое «ассортативное скрещивание», т.е. пары образовывались преимущественно внутри своей группы, что ограничивало распространение существующих и возникающих de novo полиморфизмов среди особей, населявших различные географические области. Эти процессы вели к постепенному накоплению генетических различий.

В контексте популяционных групп геномные маркеры начали изучать в 70-х — 80-х годах, в 90-е их стали использовать для выявления популяционной принадлежности конкретного человека. Исследователи снова и снова демонстрировали, что генетические полиморфизмы позволяют успешно выделить популяционные группы и определить групповую принадлежность индивидуума. Тогда же показали, что люди, живущие на одном континенте, как правило, ближе друг к другу генетически, чем люди с различных континентов. Поначалу в таких исследованиях информация о месте рождения, расе, этнической группе была известна с самого начала и использовалась совместно с генетическими данными; если же испытуемые распределялись по кластерам «вслепую», исключительно на основе генетических признаков, соответствие между географическим происхождением, этнической принадлежностью и популяционной структурой было менее явным. Как показали дальнейшие исследования, успех зависел от используемых генетических маркеров и их количества (больше — лучше), корректного выбора референсных популяций и других факторов (11).

К 2004 году в США генетическое определение популяционной принадлежности применялось не только в биомедицинских исследованиях, но и в расследованиях преступлений: вот эта статья из Nature содержит захватывающую историю о том, как полицейские, отчаявшись найти преступника, заказали ДНК-тест в коммерческой компании, определились с цветом кожи подозреваемого и раскрыли дело. Предложения по анализу генетического происхождения удачно попали в волну повального интереса людей к собственному прошлому. «Roots mania», так назвали это увлечение в статье в Time, посвященной «America's latest obsession» — генеалогическим исследованиям.

Активно применяют геномные методы специалисты, изучающие происхождение и эволюцию народов. Например, в 2013 году международная команда исследователей использовала генетический анализ для опровержения гипотезы происхождения евреев-ашкеназов от хазар (12). Набор геномных данных, использованный авторами, находится в открытом доступе: в нем представлено более 100 мировых популяций. Предлагаем вместе с нами смоделировать небольшое исследование: определить место клиентов Genotek в этой выборке, а заодно разобраться в технических деталях определения популяционной принадлежности.

Валерий Ильинский
Генеральный директор Genotek
В 2013 году международная команда исследователей использовала генетический анализ для опровержения гипотезы происхождения евреев-ашкеназов от хазар. Набор геномных данных, использованный авторами, находится в открытом доступе: в нем представлено более 100 мировых популяций. Предлагаем вместе с нами смоделировать небольшое исследование: определить место клиентов Genotek в этой выборке, а заодно разобраться в технических деталях определения популяционной принадлежности.

Цель исследования:

Определить место клиентов Genotek среди референсных популяций. Выяснить, есть ли в нашей выборке представители евреев-ашкеназов. Продемонстрировать принципы и методы анализа популяционной принадлежности отдельного человека.

Задачи исследования:

Обработать данные генотипирования 722 испытуемых программой ADMIXTURE, используя в качестве обучающей выборки набор данных из работы Behar et al., 2013.

Материалы и методы:

Всего у нас 2 496 образцов/индивидов, каждый из которых относится к одной из 106 современных популяций. Мы предполагаем, что современные популяции, скорее всего, произошли от относительно небольшого числа предковых популяций. «Предковые популяции» в таком анализе — это некие древние геномные кластеры, объединенные по принципу генетического сходства. ADMIXTURE позволяет как произвольно выдвигать предположения о числе таких кластеров в выборке, так и подбирать оптимальное их количество, наиболее корректно описывающее реальное распределение геномных данных.

Получив сведения о генотипах и предположительное количество «предковых» популяций (К), ADMIXTURE строит модель, оценивающую вклад каждой из «предковых» популяций в каждый образец. При интерпретации данных важен как количественный состав генома (процентное соотношение кластеров), так и качественный — их наличие или отсутствие в конкретных геномах. На основании этих данных можно делать предположения об эволюционных процессах в популяции, в частности, о наличии или отсутствии общих «корней» у популяционных групп. Однако выводы будут легитимны в том случае, если построенная нами модель хороша: подобрано оптимальное значение К.

Подберём оптимальное значение К

Как определить, какое количество «предковых» популяций наиболее точно соответствует истинному для данной выборки? Эмпирическим путем!

ADMIXTURE — умная программа: строя модель генетической структуры популяций на основании данных о генотипах индивидов (оценивая вклад каждого из древних геномных кластеров в каждый из геномов выборки) для заданного числа К, она не забывает в конце провести сравнение с реальностью. Проверить, насколько хорошо входные данные описываются построенной моделью. Мерой сравнения служит «ошибка» — величина, описывающая несоответствие между моделью и реальными данными. Чем больше ошибка, тем хуже предположение о количестве предковых популяций соответствует действительности.

Как выбрать оптимальное значение К? Запускаем алгоритм ADMIXTURE на данной выборке, подставляя разные значения К, и получаем для каждого К свою величину ошибки. Строим график зависимости величины ошибки от К. Вот какой график получился у авторов статьи:

Оптимальное значение К находится в точке минимума функции.

Если же минимума на графике не обнаруживается (функция постоянно растет или убывает), придется строить модели, выбирая новые К, до тех пор, пока не удастся найти нужное.

Даже при оптимально подобранном К достоверность результатов анализа зависит от корректности выборки:

1. Индивидуумы не должны быть родственниками друг другу.
2. Однонуклеотидные полиморфизмы (SNP), по которым производится генотипирование, должны быть равномерно распределены по геному с достаточно высокой плотностью.
3. Аллели SNP должны находиться в равновесном сцеплении, то есть вероятность наличия данного аллеля у конкретного индивида должно зависеть только от частоты этого аллеля в популяции, но не от других аллелей в геноме.

Как видно из графика, оптимальное К для данной выборки составило 10 «предковых» популяций.

Результаты

Результаты анализа ADMIXTURE визуализирует вот так (на рисунке видна только часть данных):

Каждому кластеру соответствует свой цвет, а популяции отличаются (или не отличаются) долями кластеров в геноме.

В целом, внутри «популяции» Genotek соотношение кластеров ожидаемо соответствует паттерну, характерному для популяций восточно-европейского происхождения. Интересное начинается на уровне отдельных образцов:

Хотя точно наиболее близкую данному образцу популяцию определяют по численным значениям, немало информации можно получить и путем визуального сравнения паттернов. Предлагаем вам самостоятельно определить наиболее близкие популяции для образцов четырех клиентов Genotek с картинки и свериться с ответом в конце статьи.

Всего среди 722 образцов мы нашли 9 евреев-ашкеназов.

Заключение

Популяционная принадлежность — далеко не единственный фактор, определяющий этническую самоидентификацию человека. Однако выявить корреляцию между этническими группами и структурой генома их представителей все-таки возможно. Такой анализ применяется как в научных и медицинских целях, так и для изучения собственных корней всеми желающими. При этом важно понимать, что модели постоянно совершенствуются, а полученные результаты для большей точности нужно рассматривать совместно с другими данными, например, семейным генеалогическим древом.

Свидетельств хазарского происхождения ашкеназов авторами исходной статьи обнаружено не было. Генетические тесты, безусловно, «умеют» определять евреев — однако не нужно забывать, что и «еврейство» — это, прежде всего, состояние души.

В ближайшее время в Genotek запустится обновленный ДНК-тест «Генеалогия» с расширенными результатами: доведем число популяций до сотни, добавим еврейские популяции. Обновим информацию в личном кабинете для всех, кто когда-либо передавал нам свой генетический материал. Если вы все еще не отгенотипированы, приглашаем присоединиться.

P.S. Ответ на задачку. На картинке образцы 1 и 2 имеют азиатское происхождение: преобладание розового кластера характерно для японцев и и народности хан в нашей выборке, синего — для якутов, третий образец демонстрирует соотношение компонентов, характерное для русских, белорусов, украинцев и поляков, а четвертый — типичный еврей-ашкеназ.

Впервые опубликовано в блоге компании на Geektimes 5.04.2017

Список литературы:

Какую информацию о происхождении дают ДНК-тесты?

Подпишитесь на нашу рассылку, и мы все подробно расскажем. Это бесплатно.

Гражданство по ДНК

Популяционныегруппы в генетике

Генетические вариации между популяциями

Результаты

Заключение

Популяционные
группы в генетике