24 September 2023, 12:00

Разработана единая платформа для данных о работе генов

В современной биоинформатике допускают нормализацию данных генной экспрессии в довольно гибком формате, и по факту результаты различных исследований оказываются плохо совместимы. Для получения Больших данных генной экспрессии на практике в основном применяется два подхода: микрочиповая гибридизация и секвенирование. Оба используют совершенно разные технологические платформы.

Основная сложность аналитической работы заключается в том, что каждая серия экспериментов вносит свою техническую специфику. В итоге не всегда понятно, на что списать обнаруженные различия: на биологию или работу разных лабораторий с разным оборудованием, протоколами и техническими факторами. Предлагаемое биоинформатиками МФТИ решение позволит объединять для единого анализа максимально большие массивы данных. Генная экспрессия (активность) отвечает за реализацию генетической информации, а именно преобразование наследственной информации в РНК и белки. Количественная характеристика этого процесса очень важна для исследований в медицине и фармацевтике. Но до сих пор данные экспериментов технически очень разнились, что мешало созданию общей базы данных. 

«Уже давно ученые бьются над тем, чтобы профили генной экспрессии были сравнимы друг с другом. Обычно берут два или три набора данных и соединяют результаты с помощью алгоритма, подобранного именно для этих наборов данных. То есть решается частная, а не универсальная задача. В итоге для каждого нового сравнения требуется и новая процедура. 

Мы решили пойти другим путем и разработать некий универсальный вариант  представления данных: мы создали электронную платформу Shambhala, которая преобразует каждый профиль генной экспрессии в заранее определенный универсальный формат. Таким образом, все данные объединяются в единую матрицу, части которой можно как угодно сравнивать между собой», — рассказал Антон Буздин, заведующий лабораторией биоинформатики МФТИ. 

В своей работе ученые использовали профили экспрессии генов 6 793 образцов рака и 11 135 нормальных тканей. К ним применили двенадцать критериев эффективности для различных версий платформы Shambhala. Они касались классификаторов биологического типа, свойств корреляции / регрессии, стабильности показателей эффективности лекарств и качества данных для использования классификаторов машинного обучения.

В ходе работы ученые проверили эффективность платформы в сохранении особенностей экспрессии генов и функциональных характеристик, таких как уровни активации путей и прогнозируемые показатели активности противораковых лекарств. Текущие версии платформы Shambhala используют преобразование профилей около 8000 наиболее активных человеческих генов, которые возможно оценить с наибольшей точностью.

«Практическое применение платформы лежит в сфере анализа больших данных.   Анализ генной экспрессии позволит нам научиться лечить многие хронические заболевания, в том числе онкологические, и различные инфекции, включая новые. Понять причину и механизм их появления и развития, а значит, и определить, какие лекарства наиболее эффективно подходят в каждом конкретном случае. Также эти данные помогут в разработке вакцин нового поколения, так называемых РНК-вакцин», — отметил Антон Буздин. 

Наконец, на вопрос, почему они выбрали такое романтическое название для своей платформы, ученый ответил: «На тот момент, когда перед нами только встала задача объединения данных, лучшим методом была программа XPN, написанная нашим бывшим соотечественником Андреем Шабалиным. Ну а в реализации первой версии уже нашего решения нам очень сильно помогла Ирина Шабалина (они не родственники) из Петрозаводского университета. Придумав такое название, мы не просто похвалили свой метод, но также увековечили вклад уважаемых коллег». 

Работа опубликована в журнале Frontiers in Molecular Biosciences.

Source:  Пресс-служба МФТИ

News article publications

Read also

Обновлена база моделей характерных последовательностей в ДНК
Международная группа ученых сделала большое обновление HOCOMOCO — базы моделей нуклеотидных последовательностей участков ДНК, связывающих транскрипционные факторы, созданной в 2013 году.
Computer science
Data analysis
Genetics
19 February 2024
Биотехнологи обнаружили ранее неизвестные повторы в геноме бактерий
Эти повторы представляют собой определенный код, который наложен на существующий из аминокислот. Используя его, ученые надеются эффективнее управлять продуктивностью полезных микроорганизмов
Bioinformatics
Genetics
Microbiology
New techniques
17 July 2023
Биологи нашли потенциальные мишени для персонифицированной терапии глиомы
Отдельные виды глиом требуют специализированных препаратов, нацеленных на обмен веществ и двигательную активность клеток — в дополнение к традиционным средствам, разрушающим структуры хромосом
Bioinformatics
Genetics
Oncology
19 April 2023
Генетики выяснили происхождение различных линий российского льна
Анализ ДНК растений показал, что российские сорта могут быть родом как из Юго-Восточной Европы, так и из Индо-Афганского региона, однако современный генофонд сформировался в основном усилиями крестьянской селекции.
Bioinformatics
Genetics
17 February 2022
Раскрыты особенности структурной и регуляторной эволюции генов человека
Ученые Сеченовского Университета и МФТИ впервые в мире сравнили скорость регуляторной и структурной эволюции отдельных генов, а также целых молекулярных путей, в которые вовлечены продукты многих генов. Исследование открыло ранее неизвестные особенности молекулярной эволюции генов человека, что впоследствии послужит основной для новых разработок, в том числе в поиске путей лечения различных заболеваний.
Evolution
Evolutionary biology
Genetics
Molecular Biology
7 February 2024
Раскрыто, что некоторые белки помогают вирусам проникнуть в бактериальную клетку
Белки семейства ArdA помогают вирусам проникнуть в бактериальную клетку, приняв образ ее ДНК. Проведя фундаментальные исследования, ученые Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ и НИЦ «Курчатовский институт» показали, что такие белки не только подавляют защиту клеток, но и регулируют целый ряд других клеточных процессов. Результаты исследования заложили основу для будущих прикладных работ в области генной терапии.
Bacteriology
Genetics
Virology
31 January 2024