19 February 2024, 12:00

Обновлена база моделей характерных последовательностей в ДНК

HOCOMOCO в переводе на русский расшифровывается как «Обширная коллекция моделей для Homo Sapiens». В этой базе хранятся модели участков связывания транскрипционных факторов. Каждая такая модель — это математическое представление участков ДНК, с которыми может связываться транскрипционный фактор — один из белков, которые подавляют или, наоборот, активируют работу различных генов. В геноме человека закодировано более полутора тысяч транскрипционных факторов. В базе данных хранятся модели участков связывания транскрипционных факторов для мышиных и человеческих ортологов — генов, которые произошли от одного и того же гена у вида — общего предка мыши и человека. 

К такой базе, как HOCOMOCO, обращаются исследователи со всего мира для своих экспериментов. С помощью моделей из базы можно, например, предсказывать места связывания транскрипционных факторов с нуклеотидами в цепочке ДНК. То есть с такими местами в геноме, на экспрессию генов в которых как раз влияют транскрипционные факторы. После этого на основе предсказанных мест связывания можно строить модели регуляторных сетей, которые объясняют механизмы переключения генов в различных условиях. Такие сети нужны для понимания биологической картины экспрессии генов в том или ином процессе, например при развитии рака.

Для того чтобы создать такую базу, ученые собирали результаты экспериментов по исследованию взаимодействий ДНК и транскрипционных факторов из нескольких открытых баз данных. Большую роль в этой работе сыграли сотрудники ФИЦ информационных и вычислительных технологий Сибирского отделения РАН под руководством Федора Колпакова, заведующего лабораторией биоинформатики. Благодаря их работе удалось получить огромную коллекцию фрагментов ДНК, связывающихся с белками. Для создания HOCOMOCO в этих фрагментах с помощью вычислительного анализа ДНК-текста были найдены мотивы — небольшие последовательности ДНК, с которыми связываются транскрипционные факторы. Прежде чем мотивы попадут в итоговую базу данных, их аннотируют — с помощью специальных инструментов определяют структуру соответствующих белков и их  функцию. Дальше для мотивов определяют надежность, показывающую, насколько достоверно взаимодействие несущей мотив ДНК и транскрипционного фактора в  экспериментах разного вида. 

Но это не единственная проверка. Перед попаданием в базу каждая модель проходит вычислительные эксперименты на то, насколько хорошо она помогает предсказывать места связывания ДНК с транскрипционным фактором. Результаты вычислительных экспериментов сравниваются с реальными данными, полученными в лаборатории. На основе нескольких разных сравнений каждой модели выставляются оценки точности, чувствительности и специфичности. После всех этих процедур составляется итоговая строчка для каждой модели в общую базу. База открыта, и ученые со всего мира могут использовать данные из нее для планирования своих экспериментов. По сравнению с предыдущей версией, в HOCOMOCO появилось больше новых моделей, возросла их точность и валидность. Кроме этого, построены коллекции специальных моделей для предсказания ДНК-белковых взаимодействий in vivo, in vitro, а также для предсказания индивидуальных вариантов в геноме, влияющих на связывание белков-регуляторов.

«Мы считаем, что HOCOMOCO — это надежная база данных, расширяющая возможности молекулярной биологии и эпигенетики. Для ее пополнения и обновления наша команда изучила данные 14 183 экспериментов ChIP-секвенирования и 2554 экспериментов HT-SELEX, что дало возможность получить более 400 тысяч мотивов-кандидатов, из которых было отобрано 1443 мотива, характеризующих участки ДНК, связывающие 949 транскрипционных факторов человека и 720 их аналогов у мыши», — говорит Всеволод Макеев, член-корреспондент РАН, заведующий лабораторией системной биологии и вычислительной генетики ИОГен им. Н. И. Вавилова РАН, заведующий кафедрой биоинформатики и системной биологии МФТИ. В работе принимали участие ученые из Института общей генетики им. Н.И. Вавилова РАН, ФИЦ информационных и вычислительных технологий (Новосибирск), Института исследования белка РАН, МГУ им. М.В. Ломоносова, МФТИ, Института биохимии и генетики УФИЦ РАН, Сколтеха, Института проблем передачи информации РАН, НИТУ «Сириус», ООО «Биософт.Ру» (Новосибирск), НИЦ биотехнологии РАН, Казанского федерального университета, а также из США и Канады.

Статья опубликована в журнале Nucleic Acid Research. 

Source:  Пресс-служба МФТИ

News article organizations

Institute of Protein Research of the Russian Academy of Sciences
IPR RAS
 Russia, Pushchino
1 lab6 researchers
1 645 publications58 108 citationsh-index: 85
Institute of Biochemistry and Genetics of the Ufa Federal Research Center of the Russian Academy of Sciences
IBG UFRC RAS
 Russia, Ufa
1 100 publications24 136 citationsh-index: 66
Vavilov Institute of General Genetics of the Russian Academy of Sciences
VIGG RAS
 Russia, Moscow
2 researchers
2 639 publications58 369 citationsh-index: 97
Institute for Information Transmission Problems of the Russian Academy of Sciences
IITP RAS
 Russia, Moscow
7 researchers
5 093 publications65 743 citationsh-index: 94
Lomonosov Moscow State University
MSU
 Russia, Moscow
33 labs329 researchers
140 274 publications1 602 490 citationsh-index: 310
Moscow Institute of Physics and Technology
MIPT
 Russia, Dolgoprudnyy
16 labs161 researchers
19 789 publications238 817 citationsh-index: 145
Sirius University of Science and Technology
Sirius University
 Russia, Sochi
17 researchers
727 publications4 826 citationsh-index: 28
Skolkovo Institute of Science and Technology
Skoltech
 Russia, Moscow
6 labs50 researchers
6 310 publications118 878 citationsh-index: 120
Federal Research Center for Information and Computational Technologies
 Russia, Novosibirsk
985 publications7 595 citationsh-index: 40
Kazan Federal University
KFU
 Russia, Kazan’
5 labs49 researchers
24 129 publications191 461 citationsh-index: 124

News article publications

Read also

Разработана единая платформа для данных о работе генов
Ученые МФТИ разработали единую платформу Shambhala, объединяющую данные разных платформ моделей экспрессии генов человека при сохранении их биологических свойств. Эти данные широко используются в функциональной геномике и молекулярной медицине. Стандартизация профилей открывает возможности для всестороннего сравнения характеристик, связанных с заболеваниями и разработкой новых вакцин и лекарств.
Bioinformatics
Data analysis
Genetics
24 September 2023
Раскрыты особенности структурной и регуляторной эволюции генов человека
Ученые Сеченовского Университета и МФТИ впервые в мире сравнили скорость регуляторной и структурной эволюции отдельных генов, а также целых молекулярных путей, в которые вовлечены продукты многих генов. Исследование открыло ранее неизвестные особенности молекулярной эволюции генов человека, что впоследствии послужит основной для новых разработок, в том числе в поиске путей лечения различных заболеваний.
Evolution
Evolutionary biology
Genetics
Molecular Biology
7 February 2024
Раскрыто, что некоторые белки помогают вирусам проникнуть в бактериальную клетку
Белки семейства ArdA помогают вирусам проникнуть в бактериальную клетку, приняв образ ее ДНК. Проведя фундаментальные исследования, ученые Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ и НИЦ «Курчатовский институт» показали, что такие белки не только подавляют защиту клеток, но и регулируют целый ряд других клеточных процессов. Результаты исследования заложили основу для будущих прикладных работ в области генной терапии.
Bacteriology
Genetics
Virology
31 January 2024
Найдена «точка невозврата» при развитии хронических вирусных инфекций
Ученые определили, что форма протекания вирусной инфекции — острая или хроническая — зависит от того, сколько раз в организме вырабатывается белок интерферон. При острой инфекции возникает две волны его продукции, но, если вирусная нагрузка оказывается слишком высокой, макрофаги CD169+, отвечающие за вторую волну, преждевременно разрушаются. В результате остается только первая волна интерферона, и иммунная система не может эффективно «мобилизоваться» и уничтожить вирус, а потому инфекция надолго остается в организме и становится хронической.
Genetics
Infectious diseases
Virology
30 January 2024
Глиомные клетки обмениваются друг с другом вирус-подобными частицами с мРНК
Ученые из МФТИ с коллегами выяснили, что клетки глиомы — опухоли мозга — могут обмениваться генетической информацией с помощью вирус-подобных частиц. Они формируются при участии белка вирусного происхождения, который образует капсидные контейнеры для мРНК. Результат исследования поможет разобраться в биологии развития глиом — наиболее распространенной и опасной формы рака головного мозга.
Cell Biology
Genetics
Virology
6 January 2024
Современные смартфоны и ноутбуки могут помешать новым сетям Wi-Fi 7
Ученые выяснили, что современные смартфоны и ноутбуки от популярных производителей не поддерживают механизм интервалов тишины с той точностью, которая требуется для совместной работы этих устройств рядом с будущими устройствами Wi-Fi 7. «Интервалы тишины» в технологии Wi-Fi нужны, чтобы соблюдать строгое расписание при передаче данных на устройства и тем самым избежать задержек. Эксперимент показал, что современная техника часто игнорирует эти интервалы или неверно определяет их параметры, что создаст проблемы, например, для приложений виртуальной реальности в сетях Wi-Fi 7.
Cloud technologies
Computer science
Electronics
IT
25 December 2023