Что такое сиквенс?

Грубо говоря, сиквенс - это результат секвенирования ДНК либо РНК. Техника секвенирования совершенствуется уже более 30 лет, начиная с 70х, когда пользовались радиоактивной меткой (и на секвенирование даже коротких фрагментов уходили недели), вплоть до перспективных методов последних лет, дозволяющих читать миллионы оснований за очень короткое время.

"Классическая" последовательность манипуляций заключается в постановке ПЦР (полимеразной цепной реакции) и последующем чтении ДНК на секвенаторе. ПЦР во многом аналогична естественному процессу репликации ДНК, с той разницей, что продуктом реакции является новая одинарная цепь вместо двойной. Перед началом реакции с помощью нагревания добиваются денатурации - расплетания цепей исходного образца ДНК. Как и естественная репликация, рост цепи при ПЦР начинается с праймера - короткого, но вместе с тем уникального, заранее синтезированного, фрагмента каждой цепи на ее 5'-ом конце, который станет началом новой цепи, растущей в направлении 3'-го конца. Для реакции используются специальные термостойкие полимеразы, способные сохранить активность при повышенной температуре. Целью ПЦР является увеличение количества ДНК в миллионы раз, чего добиваются многократным повторением циклов, каждый из которых дает увеличение количества в два раза. С учетом того, что следующим этапом будет секвенирование, в состав нуклеотидов, из которых строятся новые цепочки, подмешивается определенное количество т.н. "терминаторов" - модифицированных молекул, к 3'-му концу которых не способны присоединяться новые. При этом каждый такой нуклеотид метится особым флуоресцентным красителем, чтобы при возбуждении лазером детектор мог легко распознать основание (A, G, T, C) по длине волны. Готовый ПЦР-продукт разгоняется в геле, как при электрофорезе, и, двигаясь по тонкому капилляру, проходит зону сканирования, где луч лазера улавливается детектором, передающим тип прочтенного основания управляющему компьютеру. Правильный порядок "чтения" гарантируется тем, что чем короче фрагмент, т.е. чем ближе к 5'-му концу исходного продукта вместо нормального нуклеотида присоединился терминатор, тем быстрее фрагмент "добежит" до сканера.

Описанная классическая схема позволяет читать лишь относительно короткие фрагменты ДНК - порядка 1-2 kbp, и до недавнего времени она была единственно доступной. Также оговоримся, что здесь мы ограничились только описанием процедуры, использующей специфические праймеры, то есть перед тем, как ставить ПЦР и секвенировать некоторый фрагмент, нужно неплохо знать, как выглядят его концы. Есть и более универсальные методы, применяемые при тотальном секвенировании больших участков генома, их мы здесь касаться не будем. Заметим только, что "специфичность" праймера отнюдь не значит, что реакция пройдет только в том случае, если в геноме найдется участок, полностью комплементарный последовательности прайиера. Праймеры намеренно синтезируют таким образом, чтобы они могли присоединяться и к мутировавшим участкам; такие праймеры, обычно подходящие для всех индивидов в пределах вида, называют "консенсусными".

Прочитанная последовательность ДНК, ограниченная двумя праймерами, называется сиквенсом. Как мы уже заметили в предыдущем разделе, отвлекаясь от химической структуры, с математической точки зрения подобные цепочки можно рассматривать как последовательности букв A, G, T и C, снабженные ориентацией, обычно от 5' к 3'. Существует масса способов хранения таких последовательностей в электронном виде, начиная от простой строки и заканчивая сложными форматами, где фрагменты нуклеотидного "текста" дополняются различными аннотациями для разъяснения его биологического "смысла", если таковой известен. Наиболее популярен простой формат FASTA, представляющий собой ASCII-файл, где сиквенсы разбиваются на фрагменты определенной длины, например 60 символов, и предваряются служебной строчкой с идентификатором или комментарием:

>Homo sapiens mitochondrion, D-loop region, sample #1
AATCAGAGAAAAAGTCTTTAACTCCACCATTAGCACCCAAAGCTAAGATTCTAATTTAAACTATTCTCTG
TTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCCATCAACAACCGCTATGTATT
TCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATAAATACTTGACCACCTGTAGTACATAA
AAACCCAATCCACATCAAAATCCCCTCCCCATGCTTACAAGCAGGTACAGCAATCAACCCTCAACTATCA
CACATCAACTGCAACTCCAAAGCCACCCCTCACCCACTAGGATACCAACAAACCTACCCACCCTTAACAG
TACATAGTACATAAAGCCATTTACCGTACATAGCACATTACAGTCAAATCCCTTCTCGTCCCCATGGATG
ACCCCC

>Homo sapiens mitochondrion, D-loop region, sample #2
AGTCTTTAACTCCACCATTAGCACCCAAAGCTAAGATTCTAATTTAAACTATTCTCTGTTCTTTCATGGG
GAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCCATCAACAACCGCTATGTATTTCGTACATTACT
GCCAGCCACCATGAATATTTTACGGTACCATAAATACTTGACCACCTGTAGTACATAAAAACCCAATCCA
CATCAAACCCCCCCCCCCNATGCTTACAAACAAGTACAGCAATCAACCCTCAACTATAACACATCAACTG
CAACCCCAAAGCCACCCCTCACCCACTAGGATACCAACAAACCTACCCACCCTTAACAGCACATAGCACA
TAAAGCCATTTACCGTACATAGCACATTACAGTCAAATCCCTTCTCGTCCCCATGGATGACCCCC

>Homo sapiens mitochondrion, D-loop region, sample #3
TCTCCACCATTAGCACCCAAAGCTAAGATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGA
TTTGGGTACCACCCAAGTATTGACTCACCCATCAACAACCGCTATGTATTTCGTACATTACTGCCAGCCA
CCATGAATATTGTACGGTACCATAAATACTTGACCACCTGTAGTACATAAAAACCCAATCCACATCAAAA
CCCCCTCCCCATGCTTACAAGCAAGTACAGCAATCAACCTTCAACTATCACACATCAACTGCAACTCCAA
AGCCACACCCTCACCCACTAGGATACCAACAAACCTACCCACCCTCAACAGTACGTAGTACATAAAGCCA
TTTATCGTACATAGCACATTACAGTCAAATCCCTTCTCGTCCCCATGGATGACCCCC

Наиболее крупным онлайн-хранилищем сиквенсов является Генбанк, откуда любой сиквенс можно экспортировать во множестве форматов, включая FASTA.

К сожалению, иногда встречаются случаи, когда даже современное оборудование по каким-либо причинам не в состоянии прочитать тот или иной нуклеотид в последовательности, возвращая результат вроде "A или G" или даже "A, G, T или С". Вспомним также, что в одном из предыдущих разделов мы говорили о гетероплазмии в мтДНК, то есть одновременном присутствии в геноме нескольких вариантов нуклеотидов в одной и той же позиции. Во время ПЦР и секвенирования будут размножены и прочитаны практически все виды цепочек, ограниченных выбранными праймерами, поэтому даже идеальное оборудование может (и должно) вернуть результат неопределенного вида. Наконец, есть потребность как-то записывать последовательности консенсусных праймеров, которые могут иметь например такой вид:

AGGCTAG{T либо C}TCCTGTCTT

где в восьмой позиции можно произвольно выбрать T или C.

Для всех подобных случаев используется расширение алфавита AGTC с 4 до 15 символов (т.н. "кодов IUPAC"), где новые знаки определяют "неопределенные" состояния из двух, трех и даже 4 нуклеотидов. Чаще всего употребляются следующие коды:

N: A,G,T и C
Y: T и C
R: A и G

Полный список см. в разделе mtDNA Basics / Ambiguities нашего справочника. Все эти новые символы можно включать в сиквенсы наравне с четырьмя "обычными" (однозначными) нуклеотидами.

Можно сказать, что использование праймеров является естественной "химической" формой адресации внутри генома. Так, вместо "25-ая позиция такого-то участка такой-то хромосомы" с практической точки зрения удобнее указать последовательность в непосредственной близости от искомой точки, достаточно длинную, чтобы быть уникальной во всем геноме данного вида, и достаточно "гибкую", чтобы благодаря использованию расширенного алфавита IUPAC покрывать все эволюционные формы рассматриваемого участка у вида, и затем "адресовать" искомую точку, отсчитав от конца последовательности, например 3'-го, определенное число позиций.

© Gentis. Публикуется на условиях лицензии Creative Commons
(При цитировании любой части текста ссылка на страницу сайта Gentis.ru обязательна!)