Что такое мутация, гаплотип и гаплогруппа?

Со словом "мутация" читатель наверняка сталкивался с детства, и начав заниматься молекулярной генеалогией, возможно, не сразу избавился от негативных оттенков его значения в бытовом употреблении. В предыдущих разделах нашего пособия данный термин упоминался не раз, но более-менее точное разъяснение того, как мы намерены его понимать, мы дадим только сейчас.

Прежде всего обратимся к физической стороне вопроса. Как читатель знает, в типичном случае мутация есть неисправленная ошибка ДНК-полимеразы при копировании цепей. В частности, если речь идет о митохондриальной ДНК, мутационное событие могло произойти на любом этапе истории женской половой клетки, так как митохондрии делятся независимо от клеточного цикла. Однако статистически наиболее вероятным моментом ошибки копирования является состояние зрелого ооцита, количество митохондрий в котором достигает сотен тысяч, поэтому количество мутационных событий в линии мтДНК условно считают пропорциональным количеству трансмиссий - рождений девочек. Заметим, что в данном словоупотреблении мутация - это событие.

С эволюционной (филогенетической) точки зрения мутациями обычно называют различия между двумя сиквенсами, про которые установлено, что один из них является "непосредственным" эволюционным предком другого. Между ними могут быть десятки и даже сотни трансмиссий, и нередко мы сталкиваемся с ситуацией, когда близкие "родственники" сиквенса не обнаружены, и его приходится сравнивать с достаточно отдаленными, что приводит к реконструированию большого числа мутаций при переходе от узла-предка к его ныне живущим "непосредственным" узлам-потомкам. Поясним сказанное простым примером.

Taxon1 AGCCTGGATCGTATTAGCATGTA
Taxon2 AGCCTGAATCGTACTAGCATGTA
Taxon3 AGCCTGAATCGTATTAGCACGCA

Вариабельные позиции выделены цветом; мы будем обозначать их цифрами 1, 2, 3 и 4. В каждой из них чередуются нуклеотиды двух типов, причем все различия являются транзициями. Как мы уже упоминали в предыдущем разделе, трансверсии встречаются значительно реже транзиций, а чередования более чем двух нуклеотидов в одной позиции - исключительная редкость. Разумно предположить, что общий предок трех данных сиквенсов в каждой позиции имел нуклеотид, встречающийся у большинства потомков:

Anc AGCCTGAATCGTATTAGCATGTA

но при этом любой из трех сиквенсов Taxon1, Taxon2 и Taxon3 хотя бы в одной позиции отличается от своего предка. Иными словами, где-то на эволюционном пути от сиквенса Anc к трем его потомков произошли мутации, а именно, линии Taxon1 и Taxon2 мутировали в одной позиции, а Taxon3 - сразу в двух. В каком порядке происходили мутации в линии Taxon3? Ответить на данный вопрос, имея в наличии только указанный элайнмент, невозможно, например сначала могла произойти мутация в 3-ей вариабельной позиции, а затем в 4-ой, либо наоборот, сначала в 4-ой а затем в 3-ей, или наконец, обе мутации могли произойти одновременно при одной трансмиссии, хотя это и маловероятно. Однако, если бы в нашем элайнменте присутствовал такой сиквенс:

Taxon4 AGCCTGAATCGTATTAGCATGCA

то обнаружим, что он лежит "на полпути" между вариантом Taxon3 и общим предком Anc, имея только одну мутировавшую позицию - 4-ую. Таким образом, сиквенс Taxon4 - предок сиквенса Taxon3, что не мешает обоим "жить" в одно время, ведь мы сейчас рассматриваем не реальные организмы, а участки их ДНК, которые могут мутировать с разной скоростью, вследствие чего среди живых потомков Taxon4 есть как неизменные, так и мутировавшие до состояния Taxon3. Более того, среди ныне живущих организмов вполне может встретиться и носитель предкового типа Anc, хотя со временем количество таких неизмененных вариантов убывает.

Итак, мы провели простейшую филогенетическую реконструкцию - восстановили вид общего предка трех сиквенсов, при этом столкнулись с неопределенностью порядка возникновения мутаций и видели, как добавление новых данных может изменить точность нашего анализа. Изучением истории генов по ДНК занимается молекулярная филогенетика, в которой разработаны практические методы построения таких реконструкций - филогенетических деревьев, которые описывают развитие сиквенсов от древнего предка к его ныне живущим потомкам. Обсуждение методов построения деревьев выходит за рамки нашего краткого пособия, однако ниже мы рассмотрим еще несколько вопросов, относящихся к филогенетике, понимание которых принципиально даже для начинающего специалиста по молекулярной генеалогии.

Прежде всего, еще раз отметим, что даже самая близкая эволюционная связь сиквенсов не является непосредственной в физическом смысле слова, так как степень реального родства живых организмов можно восстановить по ДНК только в том случае, если известна скорость мутирования рассматриваемого участка. Встречаются участки ДНК, где мутации определенного типа происходят раз в несколько столетий, и наоборот, бывают крайне консервативные участки, например кодирующие критически важные для организма функции, где большинство мутаций влечет нежизнеспособность нового организма, и поэтому новые "устойчивые" варианты появляются раз в несколько тысячелетий. Специалисты, имеющие практический опыт работы с сиквенсами, даже интуитивно умеют определять примерную степень родства генетических линий, исходя из свойств рассматриваемых участков ДНК, скорости их эволюции и особенностей филогении.

Физическая мутация всегда имеет направление изменения: одно состояние цепи ДНК сменяет другое. Эволюционное древо также имеет корневой узел, с которого началась эволюция рассматриваемой ветви, и узлы-листья, являющиеся ныне живущими потомками корня. В рассмотренном выше элементарном примере мы применили простейший метод реконструкции предка, выбрав в каждой вариабельной позиции нуклеотид, представленный у большинства сиквенсов. В случае, если мы рассмотрим реальную выборку из большого числа сиквенсов, описанный подход будет неприменим, ведь трудно предположить, что например 100 сиквенсов различного вида развились от одного общего предка одновременно и независимо, напротив, наверняка в этой выборке есть более близкие друг к другу типы и наоборот более удаленные друг от друга, стало быть, эволюционное древо может иметь сложную иерархическую структуру. Филогенетическая наука разработала множество формализованных методов реконструкции структуры дерева, определения вида предковых узлов и корня, которые применимы как к "игрушечным" элайнментам из нескольких сиквенсов, так и к элайнментам размером несколько тысяч образцов.

Читатель наверное уже заметил, что в данном контексте "элайнмент" употребляется как синоним слова "выборка" - действительно, как уже было отмечено в предыдущем разделе, "на вход" филогении поступают элайнменты, то есть выровненные участки ДНК. Для построения древа обычно не нужно знать, в какой последовательности расположены нуклеотиды в цепи - достаточно извлечь из элайнмента одни лишь вариабельные колонки и передать их филогенетической программе, причем порядок колонок можно как угодно менять. Более того, филогению можно строить и по искусственным признакам, например по количеству повторяющихся мотивов на некоторых участках, и более того - по признакам фенотипическим, напрямую не связанным с ДНК, то есть филогения в некотором смысле отвлекается от природы сходства и различия признаков. Однако нередко возникает потребность как-то ранжировать позиции по скорости мутаций в них, чтобы программа могла искать деревья, более вероятные с точки зрения известных биологических особенностей мутирования, поэтому предварительная обработка молекулярных данных обязательно включает в себя анализ сиквенсов как последовательностей нуклеотидов. Кроме того, многие методы требуют данных об относительной вероятности перехода одного нуклеотида в другой, притом для каждой позиции отдельно. Поэтому, говоря о том что на вход филогении подается только элайнмент, мы несколько упростили реальную ситуацию.

Рассмотренный выше пример элементарен не только по причине малого размера, но и потому что не содержит никаких препятствий на пути реконструкции дерева. Изменим элайнмент следующим образом, сохранив первые два сиквенса и добавив два новых:

Taxon1 AGCCTGGATCGTATTAGCATGTA
Taxon2 AGCCTGAATCGTACTAGCATGTA
Taxon5 AGCCTGGATCGTACTAGCATGTA
Taxon6 AGCCTGAATCGTATTAGCATGTA

Вариабельных позиций осталось только две (1-ая и 2-ая), однако они имеют неприятную особенность: в них представлены все 4 возможных сочетания изменяющихся нуклеотидов:

GT
AC
GC
AT

Какой из четырех вариантов состояния позиций 1 и 2 ни выбрать в качестве предкового, придется допустить, что по крайней мере одна из позиций мутировала дважды. Например, если выбран предок GT, от него можно произвести с одной заменой GC, от GC - AC, и далее AT, то есть во второй позиции имели место переходы T -> C -> T. В таких случаях говорят, что имеет место гомоплазия в паре позиций 1 и 2, причем позиция 2 мутирует "обратно". Если в качестве корня выбрать сиквенс с GC, то гомоплазия вызовет уже не обратную, а "параллельную" мутацию второй позиции: в двух ветвях независимо друг от друга происходит мутация C в T: T <- C -> T. Чем больше таких пар позиций в выборке, тем сложнее и ненадежнее реконструкция истории таких сиквенсов. Заметим, что чем быстрее мутирует позиция, тем чаще она вступает в такие гомоплазийные пары с другими позициями. В реальных выборках гомоплазия встречается достаточно часто, а в случаях, когда рассматриваются участки такого вида, как например тандемные повторы, то почти каждая позиция (или признак) может вступать в отношение гомоплазии с какой-то другой позицией (признаком). Филогенетические программы возвращают результат в виде эволюционного дерева либо множества равновероятных деревьев. Заметим, что чем выше доля гомоплазийных пар признаков, тем больше различных деревьев может вернуть программа - таким способом на практике проявляется неопределенность реконструкции истории при гомоплазии. Степень гомоплазии оказывает влияние и на выбор корня, с которого начиналась история: чем больше гомоплазия в выборке, тем больше вариантов корня может найти программа. Даже в нашем последнем примере с четырьмя сиквенсами все они равноправны как возможные корни дерева, в то время как в первом примере (с тремя и затем четырьмя сиквенсами) выбор корня трудностей не вызвал. Чтобы почувствовать проблематику глубже, читатель может поэкспериментировать с гомоплазийным элайнментом, сделав вариабельными какие-то новые позиции, так чтобы они не вызывали гомоплазию ни между собой ни с рассмотренными позициями 1 и 2, и попытаться реконструировать предка заново.

Теперь нам осталось разобраться с двумя понятиями, вынесенными в заголовок раздела. Учитывая объем уже разобранного материала, это будет нетрудно.

Гаплотипом называют произвольный вариант какого-либо участка ДНК, в контексте, когда на этом участке встречаются вариации нуклеотидов. Каждый конкретный вариант любой позиции называют аллелем. Так, в последнем примере сиквенс Taxon6 в вариабельной позиции 1 имеет аллель A, а Taxon5 - G. Гаплотипом можно называть как весь сиквенс, так и набор состояний его вариабельных позиций, например, если ограничиться только позициями 1 и 2, то GT, AC, GC и AT - гаплотипы. В случае, когда рассматривается нерекомбинирующая часть генома, например Y-хромосома или мтДНК млекопитающих, на каждом участке представлен только один гаплотип, унаследованный от одного из родителей. Большая часть генетического материала представлена двумя вариантами, наследуется от обоих родителей и рекомбинирует при делении половых клеток, поэтому например на каждом участке хромосомы 12 у человека имеется два гаплотипа, один из которых унаследован от отца, а второй - от матери. При этом совокупность двух таких гаплотипов называет генотипом данного участка. Учитывая значение слова "гапло-" ("полу-"), такое именование представляется разумным.

Гаплотип - понятие эмпирическое, так как последовательность нуклеотидов на каждом участке можно узнать с помощью секвенирования, применяя минимум теоретических усилий. Набор родственных гаплотипов, происходящих от общего предка, называют гаплогруппой, но это понятие уже не столь элементарно. Очевидно, что огромная неопределенность скрывается в понятии "родственный", ведь мы уже знаем, что факт филогенетического родства сиквенсов может иметь разную степень достоверности. Далее, почему не считать, что каждый гаплотип на филогенетическом древе вместе со всеми своими потомками образует гаплогруппу? Действительно, пока не указаны строгие правила выделения "главных" ветвей, такой подход кажется разумным. На первый вопрос (о достоверности гаплогрупп) можно ответить следующим образом: любая гаплогруппная номенклатура основывается на некотором варианте дерева, принимаемом большинством специалистов, поэтому в конечном счете проблема упирается в наличие консенсусного мнения. Например, авторитетным считается мнение авторов Y-хромосомной филогении http://isogg.org или филогении мтДНК http://phylotree.org. Второй вопрос решается аналогичным образом: ведь номенклатура представляет собой некий исторически сложившийся набор обозначений для ветвей, выделение которых удобно для практической классификации частных вариантов сиквенсов. Например, предельно точное определение гаплогруппы мтДНК возможно только при наличии полного сиквенса молекулы, в то время как большинство опубликованных сиквенсов неполно и поэтому для их классификации требуется только номенклатура крупных гаплогрупп. В идеале гаплогруппа выделяется на основании какой-либо уникальной мутации в некоторой позиции, в которой определенный нуклеотид (либо инсерция или делеция) представлен только у сиквенсов данной гаплогруппы. Чем больше у гаплогруппы таких диагностических позиций, тем надежнее ее статус как самостоятельной ветви филогении. Количество определяющих мутаций в немалой степени зависит от истории популяции, где гаплогруппа развивалась. Например, очень большое число таких определяющих позиций свидетельствует о вымирании родственных линий, с которыми данная гаплогруппа когда-то разделяла часть своих характеристик, но по мере исчезновения родственных ветвей все большее число таких нуклеотидных позиций становилось уникальными. В свою очередь, скорость вымирания ветвей зависит от размера популяции их носителей: чем больше популяция, тем меньше вероятность потери линий.

В заключение следует сделать замечание, содержание которого наверняка известно подготовленному читателю, но поскольку наш очерк может быть первым материалом, изученным начинающим молекулярным генеалогом, замечание не будет лишним. Читатель видел, что при работе с сиквенсами мы свободно использовали филогенетическую терминологию, например "таксон", "предок", "линия", "ветвь". В школьном курсе биологии эти понятия применяют только по отношению к разным видам, находящимся в родстве, и никогда - по отношению к организмам одного вида, размножающегося половым путем, так как линий родства внутри одной популяции бесчисленное множество. Молекулярная филогения, рассматривая нерекомбинирующие участки ДНК, дает возможность распространить данные понятия и на внутривидовые связи. Действительно, если мы говорим о мтДНК, Y-хромосоме или некотором небольшом участке аутосомной ДНК, где не найдено ни одной точки рекомбинации, эволюцию можно описать одним деревом, где у каждого узла-таксона есть только один непосредственный узел-родитель и сколь угодно много непосредственных потомков. Поэтому все интуитивные представления о родстве видов, которые читатель получил в школьном курсе биологии, можно свободно применять по отношению к нерекомбинирующим участкам ДНК. Единственным значительным отличием будет пожалуй то, что каждый нерекомбинирующий участок генома имеет свою собственную филогению, порой не связанную с филогенией других участков, например у человека может быть одна гаплогруппа мтДНК, другая гаплогруппа Y-хромосомы и например две гаплогруппы некоторого участка гена групп крови ABO - по одной от каждого родителя.

NB! Важно разделять понятия "мутация" (англ. mutation) и "различие" (difference), допуская их смешение в научном обиходе только в случае, когда смысл употребления однозначно восстанавливается из контекста. Так, например строчка отличий некоторого сиквенса от риференса содержит не мутации а различия, стало быть понять точный смысл здесь нетрудно. Но говоря например о "гетероплазмических мутациях" в митохондриальном геноме яйцеклетки, следует уточнить, о чем идет речь - о реальном событии мутации при делении митохондрий данной клетки или о различиях между унаследованными от более далекого предка гетероплазмическими вариантами.

© Gentis. Публикуется на условиях лицензии Creative Commons
(При цитировании любой части текста ссылка на страницу сайта Gentis.ru обязательна!)