Какое количество генов содержится в геноме человека
Сколько генов в человеческом геноме.
Steven L. Salzberg
BMC Biology, 20.08.2018
Через 17 лет после первоначальной публикации генома человека мы все еще не нашли всех наших генов. Ответ оказывается более сложным, чем можно была себе представить в начале проекта геном человека(HGP).
Список человеческих генов
Трудно переоценить важность списка человеческих генов. Тысячи исследований полагаются на него, включая исследования по выявлению генетических причин рака, сложных расстройств, таких как шизофрения и деменция, менделевские расстройства и многие другие. Получив результаты секвенирования ДНК у больного пациента, первый вопрос, который обычно задают, «какие гены затронуты?». Сам вопрос предполагает, что мы знаем, где находятся гены, — и все же, несмотря на огромный прогресс за последние два десятилетия, наши знания о каталоге человеческих генов еще далеки от завершения.
Основные цели Проекта генома человека (HGP), который длился с 1990 по 2003 год, заключались в определении как последовательности ДНК, так и «местоположения оценочных 100 000 человеческих генов» [1]. Ученые в то время полагали, что как только у нас в руках будет последовательность, мы довольно быстро сможем определит местоположение всех генов. Последующая история доказала обратное: сегодня существует несколько конкурирующих баз данных генов человека, в которых много тысяч различий. И хотя количество белок-кодирующих генов постепенно сходится, число других типов генов взорвалось.
Что такое ген?
Чтобы ответить на вопрос о том, сколько генов у нас есть, мы должны сначала договориться о том, что мы подразумеваем под словом «ген». Определение эволюционировало со времен Менделя, но основное внимание в процессе HGP было связано с белок-кодирующими генами; т.е. области генома, которые транскрибируются в РНК, а затем используются для синтеза белков. Однако многие гены являются некодирующими: оригинальная статья о HGP в 2001 году признала, что «тысячи генов человека продуцируют некодирующие РНК в качестве своего конечного продукта», хотя в самой статье сообщалось о 706 некодирующих генах РНК [2]. Поэтому для этого обсуждения дадим следующее определение гена:
Gene: любой интервал вдоль хромосомной ДНК, который транскрибируется в функциональную молекулу РНК или который транскрибируется в РНК, а затем переводится в функциональный белок.
Это определение включает как некодирующие РНК-гены, так и белок-кодирующие гены, а также объединяет все альтернативные варианты сплайсинга в одном локусе вместе, считая их вариантами на одно и того же гена. Это правило предназначено для исключения псевдогенов, которые являются не функциональными остатками истинных генов. Правда это определение ставит вопрос о том, что подразумевается под функциональностью, и по-настоящему всеобъемлющее определение термина гена, вероятно, займет много страниц для описания.
Однако, есть ли у нас понимание относительно количества белок-кодирующих генов? Короткий ответ: нет. HGP начинался с предположения, что наш геном содержит 100 000 белок-кодирующих генов, а оценки, опубликованные в 1990-х годах, немного изменили этот показатель вниз, обычно сообщая о значениях между 50 000 и 100 000. В двух исходных документах HGP сообщалось о 31 000 [2] и 26 588 белок-кодирующих генах [3], а когда более полный проект HGP появился в 2004 году [4], авторы подсчитали, что полный каталог будет содержать 24 000 белок-кодирующих генов. Каталог человеческих генов Ensembl, описанный в этой статье (версия 34d), содержит 22 287 белок-кодирующих генов и 34 214 транскриптов.
Расширяющееся число генов РНК
Изобретение RNA-seq в 2008 году [5,6], которое было разработано для улучшения нашей способности количественно определять экспрессию генов, также значительно улучшило нашу способность обнаруживать транскрибируемые последовательности, как кодирующие, так и некодирующие. Многие из впоследствии обнаруженных некодирующих транскриптов содержали интроны и были довольно длинными, что приводило их к тому, что они назывались линк-РНК, для длинных промежуточных некодирующих РНК, которые позднее были сокращены до lncRNAs, что привело к «вмешательству». Базы данных lncRNAs (и других генов РНК, таких как микроРНК) резко выросли за десятилетие, и в настоящее время в каталогах человеческих генов теперь больше генов РНК, чем белок-кодирующих генов.
Быстро расширяющееся число вариантов сращивания
РНК-seq также выявила еще один сюрприз: альтернативное сращивание, альтернативное инициирование транскрипции и альтернативное прерывание транскрипции происходили гораздо чаще, чем кто-либо раньше, возможно, затрагивая до 95% человеческих генов [7, 8]. Следствием этих находок является то, что даже если мы знаем, где находятся все гены, у нас все еще есть значительная работа, чтобы обнаружить все изоформы этих генов, и еще большая, чтобы определить, имеют ли эти изоформы какую-либо функцию или они просто представляют ошибки сплайсинга, как утверждают некоторые [9].
Где мы сейчас?
Перед нами стоит задача выявления всех человеческих генов. Одной из проблем сейчас является то, что за последние 15 лет только две группы контролировали доминирующие списки генов: RefSeq, который поддерживается Национальным центром биотехнологической информации (NCBI) в NIH и Ensembl / Gencode, который поддерживается Европейской лабораторией молекулярной биологии (EMBL). Даже после всего этого времени, несмотря на значительный прогресс, у двух каталогов сегодня есть сотни разногласий между их списками белок-кодирующих генов, тысячи несоответствий между их lncRNAs и несколькими категориями генов (например, микроРНК и антисмысловых РНК), где они расходятся еще больше, иногда даже не соглашаясь на тип гена. Эти два каталога также развиваются; например, только в прошлом году сотни генов, кодирующих белок, были добавлены или удалены из списка Gencode. Эти разногласия подчеркивают постоянную проблему создания всеобъемлющего каталога генов человека.
Проблема нахождения всех человеческих генов слишком важна, чтобы оставить ее в руках только двух групп, особенно с учетом отсутствия согласия в текущих базах данных. В 2017 году мы создали новую базу данных человеческих генов, CHESS, которая использовала массивную коллекцию РНК-seq для сбора заново всех транскриптов из широкого обзора тканей человека, который доступен в виде препринта [10]. Набор генов CHESS, который добавляет более 100 000 новых изоформ гена и меньшее количество новых генов в существующие базы данных, предназначен для обеспечения более полной коллекции генов человека. По дизайну он включает в себя все белок-кодирующие гены как Gencode, так и RefSeq, так что пользователям CHESS не нужно решать, какую базу данных они предпочитают. Большее количество генов может включать в себя больше ложных результатов, но мы полагаем, что более широкий набор, тем не менее, окажется очень полезным, особенно для многих исследований болезней человека, которые еще не нашли генетической причины. Ясно что база данных CHESS в настоящей версии 2.0, еще не окончательна и улучшится в ближайшие годы.
Суть в том, что мы еще не знаем, сколько у нас генов, хотя мы добились прогресса. Многие гены (особенно lncRNAs) оказываются сильно тканеспецифичными. И пока мы более тщательно не изучим все типы клеток человека нет уверенности, что обнаружены все человеческие гены и транскрипты. Для большинства других видов животных и растений мы знаем еще меньше о наборе генов, хотя наши знания быстро улучшаются. Однако наша неспособность найти простой ответ на фундаментальный вопрос HGP не означает, что мы потерпели неудачу. Напротив, наши знания о генах человека значительно богаче, чем в начале HGP, и технологические достижения последнего десятилетия вселяют оптимизм, что мы в конечном итоге установим это число.
Юлия Макарова,
кафедра биотехнологии Сеченовского университета (Москва)
«Химия и жизнь» №4, 2019
После того как ученые получили основную информацию о геноме человека, они попытались определить число генов, но эта задача оказалась непростой. Точное число неизвестно до сих пор, и все же оценки становятся все более достоверными.
«Геном человека» завершен, поиск генов продолжается
В 1977 году Фредерик Сэнгер разработал метод определения нуклеотидной последовательности ДНК (секвенирования), который используется и по сей день (см. «Химию и жизнь» № 8, 2018). В 1995 году был расшифрован первый геном бактерии Haemophilis influenza, в 1996 году — геном эукариотической клетки (дрожжей Saccharomyces cerevisiae), а в 1998 году — геном нематоды Caenorhabditis elegans.
Конечно, на рубеже тысячелетий все с нетерпением ждали результатов проекта «Геном человека», который продолжался с 1990 по 2003 год. Его задачей было определение нуклеотидной последовательности ДНК человека и — главное! — локализация человеческих генов (изначально предполагалось, что их около 100 000). Биомедицинская наука вот-вот должна была получить бесценный инструмент: полный список генов, необходимых для расшифровки молекулярных механизмов возникновения и развития тяжелых болезней — рака, шизофрении, деменции и многих других. О подготовке «черновой» версии генома человека торжественно объявили летом 2000 года, опубликована она была в 2001-м. «Геном человека» официально завершил свою работу в 2003 году и 27 мая 2004 года опубликовал полную последовательность генома.
«Полной» ее можно было назвать с некоторыми оговорками. Прежде всего, секвенировалась только ДНК в составе эухроматина, то есть такая ДНК, которая между делениями клетки пребывает в неплотно упакованном состоянии. Примерно 8% человеческого генома — это гетерохроматин, компактно уложенная ДНК, она приходится в основном на районы центромер и теломер (то есть концов хромосом и участков, к которым прикрепляются нити веретена деления). С другой стороны, эти 8% ДНК и менее интересны, чем остальные 92, поскольку они крайне слабо транскрибируются, то есть содержат относительно мало генов. (Напомним, что транскрипция — это синтез РНК на матрице ДНК, а что дальше происходит с РНК, разберем чуть позже.) К тому же они богаты повторами, что затрудняет сборку непрерывной последовательности из прочтенных фрагментов. «Белые пятна» в геноме человека продолжают заполнять до сих пор: на начало 2019 года разрывов все еще больше 500, и в основном это те же центромерные и концевые области хромосом. Те, кому интересно, как продвигается дело, могут следить за процессом в Сети, на сайте международной организации, которая занимается эталонными геномами, — Genome Reference Consortium.
Считалось, что секвенирование генома человека позволит определить локализацию каждого гена и их общее количество. Однако сегодня существует несколько баз данных генов, которые в значительной мере отличаются друг от друга.
С генами, кодирующими белки, удалось достичь некоторой ясности. Их оказалось гораздо меньше 100 000. В 2010 году по инициативе Организации по изучению протеома человека (HUPO — Human Proteome Organization) запущен одноименный проект — «Протеом человека», который должен составить полный список человеческих белков.
Какие факты позволяют утверждать, что определенный участок генома — это ген белка? Возможно, у нас есть белок, последовательность аминокислот в котором соответствует последовательности нуклеотидных триплетов в этом участке, и (или) имеются другие доказательства. Например, известна матричная РНК (мРНК) — молекула РНК, которая синтезируется в ходе транскрипции на матрице ДНК и, в свою очередь, становится матрицей для белка. Кстати, одна и та же мРНК может кодировать несколько белков за счет альтернативного сплайсинга — различных вариантов сшивания ее кодирующих участков. Вообще, белков у человека больше, чем белок-кодирующих генов. В рамках проекта «Протеом человека» предполагается идентифицировать и охарактеризовать не менее одного белка, считываемого с каждого гена, описать однонуклеотидные полиморфизмы (отличия в одну «букву») в этих генах, а также варианты сплайсинга мРНК и посттрансляционной модификации белков.
Однако есть и другие способы. Сейчас довольно много известно о том, какими признаками должны обладать гены белка, и существуют программы, которые ищут их in silico — в компьютере, с помощью анализа генома. Подсказкой может служить и то, что гены разных видов эукариот в силу общности эволюционного происхождения сходны между собой (гомологичны), и если мы видим последовательность, которая у другого живого существа кодировала белок, — возможно, она кодирует белок и у человека.
Данные, полученные в рамках проекта «Протеом человека», представлены в аннотированных базах знаний, таких как neXtProt. Белки делятся на пять групп, по достоверности наших сведений об их существовании — PE1, 2, 3, 4, 5 (PE означает protein existence). В марте 2019 года neXtProt содержала информацию о 17694 белках, существование которых экспериментально подтверждено, 1548 белках, для которых известны мРНК, 510 — определенных на основании гомологии с другими белками, 71 белке, предсказанном по последовательности ДНК, без других доказательств, и 576 сомнительных белках, относительно которых неясно, существуют они или нет.
Особый интерес вызывают белки, чье существование экспериментально не доказано, — так называемые потерянные (missing) белки. К этой категории относят все вышеперечисленные группы, кроме первой либо первой и последней. Для выявления и характеристики таких белков создан ресурс MissingProteinPedia.
Не только белки
Но белками все не исчерпывается. Проект «Геном человека» показал, что кроме матричных, транспортных и рибосомных РНК существует еще множество типов РНК, не менее важных для жизни.
РНК подразделяются на некодирующие РНК (нкРНК), которые не транслируются в белки, и кодирующие, или матричные РНК (мРНК), служащие матрицей для синтеза белков. У некодирующих РНК более сложная классификация. Они бывают инфраструктурными и регуляторными. Инфраструктурные РНК известны нам из школьных учебников — это рибосомные РНК (рРНК) и транспортные РНК (тРНК). Молекулы рРНК составляют основу рибосомы — молекулярной машины, которая и строит белок на матричной РНК (проводит трансляцию). Последовательность из трех нуклеотидов в мРНК указывает, какую аминокислоту следуют включить в белок. Молекулы тРНК приносят указанные аминокислоты на рибосомы в ходе трансляции.
Регуляторные нкРНК очень широко представлены в организме, классифицируются в зависимости от размера и выполняют важные функции (см. таблицу 1). По сравнению с генами белков, длина которых обычно измеряется в килобазах — тысячах пар нуклеотидов, а точнее, в десятках и сотнях тысяч пар, они совсем маленькие (что не облегчает поиск их генов). Но рычажку «вкл.—выкл.» и не надо быть большим.
Таблица 1. Некодирующие регуляторные РНК
Название | Длина (нуклеотиды) | Функции | |
---|---|---|---|
Длинные некодирующие РНК (днкРНК, lncRNA) | 200 | 1. Регулируют избирательное метилирование ДНК 2. Руководят избирательной посадкой на хроматин белковых комплексов, подавляющих активность генов | |
Малые РНК | |||
Малые ядерные РНК (мяРНК, snRNA) | 150 | 1. Участвуют в сплайсинге 2. Регулируют активность факторов транскрипции 3. Поддерживают целостность теломер | |
Малые ядрышковые РНК (мякРНК, snoRNA) | 60–300 | 1. Участвуют в химической модификации рРНК, тРНК и мяРНК 2. Возможно, участвуют в стабилизации структуры рРНК и защите от действия ферментов гидролаз | |
Малые интерферирующие РНК (миРНК, siRNA) | 21–22 | 1. Обеспечивают антивирусную иммунную защиту 2. Подавляют активность собственных генов | |
МикроРНК (мкРНК, miRNA) | 18–25 | Подавляют трансляцию путем РНК-интерференции | |
Антисмысловые РНК (asRNA) | 1. Короткие: менее 200 2. Длинные: более 200 | Блокируют трансляцию, образуя гибриды с мРНК | |
РНК, связанные с белками Piwi (piRNA, piwiRNA) | 26–32 | Их называют «стражами генома», они подавляют активность мобильных генетических элементов во время эмбриогенеза |
Таким образом, прежде чем ответить на вопрос: «Сколько у нас генов?», необходимо понять, что «ген» может кодировать не только белок. Собственно, это ясно уже давно. Основное внимание проекта «Геном человека» было направлено на белок-кодирующие гены. Однако уже в первом докладе о геноме, опубликованном в 2001 году, сказано, что «тысячи генов человека продуцируют некодирующие РНК (нкРНК), являющиеся их конечным продуктом», хотя на тот момент было известно лишь около 706 генов нкРНК.
Стивен Зальцберг из Университета Джонса Хопкинса в своей статье, посвященной как раз проблеме подсчета человеческих генов, дает следующее определение: «Ген — любой участок хромосомной ДНК, который транскрибируется в функциональную молекулу РНК или сначала транскрибируется в РНК, а затем транслируется в функциональный белок». Это определение включает как гены некодирующих РНК, так и белок-кодирующие гены, но исключает псевдогены — нефункциональные остатки структурных генов, утратившие способность кодировать белок.
Публикация проекта «Геном человека» 2001 года оценила количество белок-кодирующих генов в 31 000, а группа под руководством Крейга Вентера (которая успешно соперничала с международным проектом), назвала «точное» число 26 588. В 2004 году, после завершения официального проекта предполагаемое число белок-кодирующих генов снизилось до 24 000. Каталог человеческих генов Ensembl (версия 34d) на тот момент включал 22 287 белок-кодирующих генов и 34 214 транскриптов. Скорее всего, мы не ошибемся, если скажем, что генов, кодирующих белки, у человека около 20 000 или чуть больше. Но что с генами РНК?
Новое секвенирование и базы данных
Исследовать многообразие РНК не так просто по многим причинам, от их высокой лабильности до малых размеров. Однако появление высокопроизводительных методов параллельного секвенирования (когда миллионы фрагментов ДНК из одного образца читаются одновременно), оно же секвенирование нового поколения (next-generation sequencing, NGS), значительно ускорило поиск функциональных участков генома.
Различные платформы для NGS позволяют читать от миллиона до десятков миллиардов коротких последовательностей (отсеквенированные «за один проход» участки называют ридами, от английского read) длиной 50–600 нуклеотидов каждая. К наиболее популярным платформам относятся Illumina и IonTorrent, и все больше внимания привлекают к себе платформы для секвенирования единичных молекул — Pacific Biosciences, нанопоровое секвенирование Oxford Nanopore, Helicos Biosciences HeliScope (компания Helicos объявлена банкротом, но технология лицензирована другим компаниям). Последним не нужно нарабатывать много копий ДНК для секвенирования — они действительно работают с отдельными молекулами! Другой их важный плюс в том, что они позволяют прочитывать значительно более длинные риды, до 10–60 тысяч нуклеотидов. Именно благодаря этому качеству, например, метод нанопорового секвенирования с успехом применили для секвенирования богатого повторами центромерного участка Y-хромосомы человека.
Кроме того, появились методы секвенирования РНК — сначала через создание ДНК-копий, а потом и прямые. Изначально они создавались для количественного определения экспрессии генов, но также способствовали обнаружению ранее не известных РНК, как кодирующих, так и не кодирующих.
Благодаря методам NGS базы данных генов lncRNA и других РНК всего за десятилетие резко выросли, и каталоги генов человека теперь содержат больше генов РНК, чем генов белков. Кроме того, секвенирование РНК позволило установить, что альтернативный сплайсинг, альтернативное инициирование транскрипции и альтернативное прерывание транскрипции происходят гораздо чаще, чем полагали, и затрагивают до 95% человеческих генов. Следовательно, даже когда мы узнаем местоположение всех генов в геноме, нужно будет выявить все изоформы этих генов, а также определить, выполняют ли эти изоформы какие-либо функции или просто представляют собой ошибки сплайсинга.
Задача по составлению каталога всех генов по-прежнему не решена. В последние 15 лет только две исследовательские группы составляют, корректируют и пополняют список генов: RefSeq и Ensembl / Gencode. Первая поддерживается Национальным центром биотехнологической информации при Национальных институтах здравоохранения США, вторая — Европейской молекулярно-биологической лабораторией. Кстати, Gencode — подпроект консорциума ENCODE, «масштабной научной экспедиции в пустыни генома, не кодирующего белки» (см. «Химию и жизнь» № 10, 2012). В этих каталогах есть сотни различий по белок-кодирующим генам, тысячи — по генам длинных некодирующих РНК; имеются существенные расхождения и в других группах (см. таблицу 2).
Таблица 2. Количество разных типов генов в базах данных Gencode, RefSeq, CHESS
Типы генов | Gencode | RefSeq | CHESS |
---|---|---|---|
Белок-кодирующие гены | 19 901 | 20 345 | 21 306 |
Гены длинных некодирующих РНК | 15 779 | 17 712 | 18 484 |
Антисмысловые РНК | 5501 | 28 | 2694 |
Другие некодирующие РНК | 2213 | 13 899 | 4347 |
Псевдогены | 14 723 | 15 952 | — |
Общее число транскриптов (видов РНК) | 203 835 | 154 484 | 323 827 |
По: BMC Biology, 2018, 16:94
В 2017 году сотрудники Университета Джонса Хопкинса под руководством Стивена Зальцберга создали еще одну базу данных генов человека — CHESS. Они использовали данные глубокого секвенирования РНК, чтобы заново получить информацию о всех продуктах транскрипции в разнообразных тканях человеческого организма, и отмечают, что существенно пополнили списки генов. Примечательно, что новая база включает все белок-кодирующие гены как Gencode, так и RefSeq, поэтому пользователям CHESS не нужно решать, какую базу данных они предпочитают. Создатели CHESS отмечают, что более обширная база с большей вероятностью содержит последовательности, ошибочно отнесенные к генам, но лучше потом удалить такую последовательность, чем пропустить существующий ген.
Итак, все еще неизвестно, сколько всего генов у человека. Существуют проблемы, затрудняющие получение точного ответа. Например, многие гены (особенно гены lncRNA), видимо, имеют высокую тканеспецифичность. Во всех клетках один и тот же геном, однако в разных тканях транскрибируются различные гены, не только белков, но и регуляторных РНК. А значит, пока ученые подробно не исследуют все типы клеток человека, они не могут быть уверены, что обнаружили все человеческие гены. И все же сегодня знания о человеческих генах значительно обширнее, чем в начале проекта «Геном человека», а технологии совершеннее. Это дает надежду на то, что в скором времени мы узнаем точный ответ на поставленный вопрос. А пока ограничимся приблизительными данными: чуть более 20 тысяч генов белков, а вместе с генами РНК — возможно, 200–300 тысяч, но, может быть, и меньше.