19 February 2024, 12:00

Обновлена база моделей характерных последовательностей в ДНК

HOCOMOCO в переводе на русский расшифровывается как «Обширная коллекция моделей для Homo Sapiens». В этой базе хранятся модели участков связывания транскрипционных факторов. Каждая такая модель — это математическое представление участков ДНК, с которыми может связываться транскрипционный фактор — один из белков, которые подавляют или, наоборот, активируют работу различных генов. В геноме человека закодировано более полутора тысяч транскрипционных факторов. В базе данных хранятся модели участков связывания транскрипционных факторов для мышиных и человеческих ортологов — генов, которые произошли от одного и того же гена у вида — общего предка мыши и человека. 

К такой базе, как HOCOMOCO, обращаются исследователи со всего мира для своих экспериментов. С помощью моделей из базы можно, например, предсказывать места связывания транскрипционных факторов с нуклеотидами в цепочке ДНК. То есть с такими местами в геноме, на экспрессию генов в которых как раз влияют транскрипционные факторы. После этого на основе предсказанных мест связывания можно строить модели регуляторных сетей, которые объясняют механизмы переключения генов в различных условиях. Такие сети нужны для понимания биологической картины экспрессии генов в том или ином процессе, например при развитии рака.

Для того чтобы создать такую базу, ученые собирали результаты экспериментов по исследованию взаимодействий ДНК и транскрипционных факторов из нескольких открытых баз данных. Большую роль в этой работе сыграли сотрудники ФИЦ информационных и вычислительных технологий Сибирского отделения РАН под руководством Федора Колпакова, заведующего лабораторией биоинформатики. Благодаря их работе удалось получить огромную коллекцию фрагментов ДНК, связывающихся с белками. Для создания HOCOMOCO в этих фрагментах с помощью вычислительного анализа ДНК-текста были найдены мотивы — небольшие последовательности ДНК, с которыми связываются транскрипционные факторы. Прежде чем мотивы попадут в итоговую базу данных, их аннотируют — с помощью специальных инструментов определяют структуру соответствующих белков и их функцию. Дальше для мотивов определяют надежность, показывающую, насколько достоверно взаимодействие несущей мотив ДНК и транскрипционного фактора в экспериментах разного вида.

Но это не единственная проверка. Перед попаданием в базу каждая модель проходит вычислительные эксперименты на то, насколько хорошо она помогает предсказывать места связывания ДНК с транскрипционным фактором. Результаты вычислительных экспериментов сравниваются с реальными данными, полученными в лаборатории. На основе нескольких разных сравнений каждой модели выставляются оценки точности, чувствительности и специфичности. После всех этих процедур составляется итоговая строчка для каждой модели в общую базу. База открыта, и ученые со всего мира могут использовать данные из нее для планирования своих экспериментов. По сравнению с предыдущей версией, в HOCOMOCO появилось больше новых моделей, возросла их точность и валидность. Кроме этого, построены коллекции специальных моделей для предсказания ДНК-белковых взаимодействий in vivo, in vitro, а также для предсказания индивидуальных вариантов в геноме, влияющих на связывание белков-регуляторов.

«Мы считаем, что HOCOMOCO — это надежная база данных, расширяющая возможности молекулярной биологии и эпигенетики. Для ее пополнения и обновления наша команда изучила данные 14 183 экспериментов ChIP-секвенирования и 2554 экспериментов HT-SELEX, что дало возможность получить более 400 тысяч мотивов-кандидатов, из которых было отобрано 1443 мотива, характеризующих участки ДНК, связывающие 949 транскрипционных факторов человека и 720 их аналогов у мыши», — говорит Всеволод Макеев, член-корреспондент РАН, заведующий лабораторией системной биологии и вычислительной генетики ИОГен им. Н. И. Вавилова РАН, заведующий кафедрой биоинформатики и системной биологии МФТИ. В работе принимали участие ученые из Института общей генетики им. Н.И. Вавилова РАН, ФИЦ информационных и вычислительных технологий (Новосибирск), Института исследования белка РАН, МГУ им. М.В. Ломоносова, МФТИ, Института биохимии и генетики УФИЦ РАН, Сколтеха, Института проблем передачи информации РАН, НИТУ «Сириус», ООО «Биософт.Ру» (Новосибирск), НИЦ биотехнологии РАН, Казанского федерального университета, а также из США и Канады.

Статья опубликована в журнале Nucleic Acid Research.

Source:  Пресс-служба МФТИ

News article organizations

Institute of Protein Research of the Russian Academy of Sciences
IPR RAS
 Russia, Pushchino
1 lab9 researchers
1 680 publications59 557 citationsh-index: 112
Institute of Biochemistry and Genetics of the Ufa Federal Research Center of the Russian Academy of Sciences
IBG UFRC RAS
 Russia, Ufa
1 researcher
1 188 publications26 368 citationsh-index: 67
Vavilov Institute of General Genetics of the Russian Academy of Sciences
VIGG RAS
 Russia, Moscow
2 researchers
2 804 publications62 290 citationsh-index: 100
Institute for Information Transmission Problems of the Russian Academy of Sciences
IITP RAS
 Russia, Moscow
6 researchers
5 413 publications70 269 citationsh-index: 103
Lomonosov Moscow State University
MSU
 Russia, Moscow
35 labs389 researchers
146 775 publications1 697 453 citationsh-index: 328
Moscow Institute of Physics and Technology
MIPT
 Russia, Dolgoprudnyy
19 labs193 researchers
21 131 publications262 478 citationsh-index: 153
Sirius University of Science and Technology
Sirius University
 Russia, Sochi
1 lab21 researchers
921 publications6 701 citationsh-index: 31
Skolkovo Institute of Science and Technology
Skoltech
 Russia, Moscow
8 labs77 researchers
6 698 publications135 830 citationsh-index: 130
Federal Research Center for Information and Computational Technologies
 Russia, Novosibirsk
1 027 publications8 135 citationsh-index: 41
Kazan Federal University
KFU
 Russia, Kazan’
5 labs59 researchers
25 312 publications208 870 citationsh-index: 132

News article publications

Read also

Разработана единая платформа для данных о работе генов
Ученые МФТИ разработали единую платформу Shambhala, объединяющую данные разных платформ моделей экспрессии генов человека при сохранении их биологических свойств. Эти данные широко используются в функциональной геномике и молекулярной медицине. Стандартизация профилей открывает возможности для всестороннего сравнения характеристик, связанных с заболеваниями и разработкой новых вакцин и лекарств.
Bioinformatics
Data analysis
Genetics
24 September 2023
Раскрыты особенности структурной и регуляторной эволюции генов человека
Ученые Сеченовского Университета и МФТИ впервые в мире сравнили скорость регуляторной и структурной эволюции отдельных генов, а также целых молекулярных путей, в которые вовлечены продукты многих генов. Исследование открыло ранее неизвестные особенности молекулярной эволюции генов человека, что впоследствии послужит основной для новых разработок, в том числе в поиске путей лечения различных заболеваний.
Evolution
Evolutionary biology
Genetics
Molecular Biology
7 February 2024
Раскрыто, что некоторые белки помогают вирусам проникнуть в бактериальную клетку
Белки семейства ArdA помогают вирусам проникнуть в бактериальную клетку, приняв образ ее ДНК. Проведя фундаментальные исследования, ученые Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ и НИЦ «Курчатовский институт» показали, что такие белки не только подавляют защиту клеток, но и регулируют целый ряд других клеточных процессов. Результаты исследования заложили основу для будущих прикладных работ в области генной терапии.
Bacteriology
Genetics
Virology
31 January 2024
Найдена «точка невозврата» при развитии хронических вирусных инфекций
Ученые определили, что форма протекания вирусной инфекции — острая или хроническая — зависит от того, сколько раз в организме вырабатывается белок интерферон. При острой инфекции возникает две волны его продукции, но, если вирусная нагрузка оказывается слишком высокой, макрофаги CD169+, отвечающие за вторую волну, преждевременно разрушаются. В результате остается только первая волна интерферона, и иммунная система не может эффективно «мобилизоваться» и уничтожить вирус, а потому инфекция надолго остается в организме и становится хронической.
Genetics
Infectious diseases
Virology
30 January 2024
Глиомные клетки обмениваются друг с другом вирус-подобными частицами с мРНК
Ученые из МФТИ с коллегами выяснили, что клетки глиомы — опухоли мозга — могут обмениваться генетической информацией с помощью вирус-подобных частиц. Они формируются при участии белка вирусного происхождения, который образует капсидные контейнеры для мРНК. Результат исследования поможет разобраться в биологии развития глиом — наиболее распространенной и опасной формы рака головного мозга.
Cell Biology
Genetics
Virology
6 January 2024
Современные смартфоны и ноутбуки могут помешать новым сетям Wi-Fi 7
Ученые выяснили, что современные смартфоны и ноутбуки от популярных производителей не поддерживают механизм интервалов тишины с той точностью, которая требуется для совместной работы этих устройств рядом с будущими устройствами Wi-Fi 7. «Интервалы тишины» в технологии Wi-Fi нужны, чтобы соблюдать строгое расписание при передаче данных на устройства и тем самым избежать задержек. Эксперимент показал, что современная техника часто игнорирует эти интервалы или неверно определяет их параметры, что создаст проблемы, например, для приложений виртуальной реальности в сетях Wi-Fi 7.
Cloud technologies
Computer science
Electronics
IT
25 December 2023