5 February 2022, 2:00

Размер не главное: модель предсказала свойства соединений на "маленьких" данных

Сотрудники межкафедральной лаборатории Интеллектуального химического дизайна химического факультета МГУ использовали технику трансферного машинного обучения, чтобы спрогнозировать свойства молекул исходя из их структуры. Авторы показали, что обучения на нескольких десятках молекул достаточно для получения модели с хорошей предсказательной точностью. Работа опубликована в издании The Journal of Physical Chemistry Letters.

Размер не главное: модель предсказала свойства соединений на

Методы машинного обучения часто используются в химии, чтобы установить зависимость между структурой молекулы и ее свойствами. Для этого анализируется большое количество структур химических соединений и исследуется их физико-химическая и биологическая активность. Результат такого анализа — модель, способная предсказать свойства какого-либо соединения или, наоборот, предложить структуру молекулы с заданными свойствами.

«Этот процесс называется анализом больших данных, поскольку данных на самом деле нужно очень много: несколько тысяч или даже миллионы, — пояснил соавтор работы, заведующий лабораторией химического факультета МГУ, к.х.н. Артем Митрофанов. — Понятно, что в реальности миллион молекул с измеренным в одинаковых условиях свойством найти невозможно. Поэтому химики не могут использовать машинное обучение для решения многих актуальных задач».

Чтобы преодолеть нехватку данных, авторы решили использовать технику трансферного обучения. Ее идея состоит в том, что модель сначала обучается на большом наборе данных, а потом практически полностью переносится и дообучается на маленьких. Причем на первом этапе можно использовать расчетные или не очень точные данные, поскольку предсказательная точность модели уточняется именно вторым маленьким набором данных.

«В качестве первоначального набора данных мы взяли значения коэффициентов липофильности полутора миллионов малых органических молекул, — рассказал Артем Митрофанов. — Этот параметр показывает отношение растворимостей в октаноле и воде и очень удобен в использовании. Его легко посчитать и измерить, поэтому для него существуют большие базы данных».

Как отметил ученый, перенос модели на небольшие данные проходит лучше, если конечное свойство, которое желательно научиться предсказывать, похоже на использованное для обучения. Например, модель на базе коэффициента липофильности предсказывает лучшие результаты для растворимости в воде.

«С помощью предложенного метода нам удалось с хорошей точностью предугадать разнообразные физико-химические и биохимические параметры, — рассказал автор работы, аспирант лаборатории Кирилл Карпов. — Например, температуру кипения, токсичность и активность по отношению к ряду известных мишеней — то, что как раз интересует людей, занимающихся производством лекарственных средств».

В работе авторы выяснили, что всего двадцати молекул с измеренным свойством достаточно, чтобы научиться хорошо предсказывать это свойство.

Source:  Пресс-служба МГУ

News article publications

Read also

Ученые представили самую большую в мире базу данных для квантовой химии
Она поможет расширить возможности квантовых исследований в области поиска новых материалов и разработки новых лекарств
Machine learning
Molecular modeling
Neural networks
Quantum Chemistry
22 December 2022
Новый способ предсказания свойств магнитных сплавов с помощью машинного обучения
Ученые из Сколтеха и МФТИ с коллегами из Германии, Австрии и Норвегии предложили и верифицировали новый способ для компьютерного моделирования магнитных сплавов с помощью машинно-обучаемых потенциалов. В методе в качестве переменных учитываются магнитные моменты атомов (магнитные степени свободы), благодаря чему он успешно предсказал энергию, механические и магнитные характеристики сплава железа и алюминия. Ученые планируют добавить в метод активное обучение и протестировать его на другом материале — нитриде хрома.
Chemical Physics
Machine learning
Metals and their alloys
16 February 2024
Ускорен поиск новых лекарств с помощью машинного обучения
В последние годы компьютерное моделирование сильно облегчило создание новых лекарств за счет предсказания структуры молекул и их взаимодействий. Однако даже такой «чисто компьютерный» скрининг может быть слишком дорог и затруднен, если речь идет о миллионах веществ. Поэтому авторы новой статьи в Journal of Chemical Information and Modeling — исследователи из МФТИ, Университетов Гронингена и Гренобля, — сделали этот процесс намного быстрее и эффективнее с помощью активного машинного обучения.
Drug Design
Machine learning
Molecular Biology
13 February 2024
Разработана технология для проверки молочной продукции на антибиотики
Ученые ИТМО разработали технологию, которая автоматически определяет содержание и точную концентрацию антибиотиков в молоке. В ее основе — электрохимический анализ (высокочувствительный метод обнаружения нужных веществ в растворах) и алгоритмы машинного обучения. Разработка может уберечь потребителей молочной продукции от вредных для здоровья препаратов.  Она может использоваться и для анализа других сред — например, для обнаружения нежелательных примесей в нефти, проверки качества кофе и подлинности вина.
Electrochemistry
Electronics
Machine learning
8 December 2023
Модель машинного обучения выявила болезнь Паркинсона по сигналам ЭЭГ
Ученые разработали модель машинного обучения, позволяющую за сотые доли секунды по результатам электроэнцефалограммы (ЭЭГ) с 99,9% точностью выявлять болезнь Паркинсона. Еще одно преимущество нового алгоритма — в совместимости с портативными бытовыми устройствами, которые пациенты могут иметь у себя дома. Поэтому предложенный алгоритм может использоваться не только в больнице при диагностике, но и в домашних условиях для мониторинга состояния здоровья людей с ранее выявленной болезнью Паркинсона.
Machine learning
Medicine
Neuroscience
4 December 2023
Усовершенствован анализ качества растворителей литий-ионных аккумуляторов
Литий-ионные аккумуляторы нашли широкое применение в нашей жизни: от бытовой техники и электромобилей до накопителей энергии в системах жизнеобеспечения труднодоступных районов. Они хорошо зарекомендовали себя в работе, имея высокую плотность энергии и низкий саморазряд. В достижении наилучших характеристик аккумуляторов огромную роль играет состав раствора электролита. Ученые МФТИ и ОИВТ РАН разработали более быстрый и надежный метод проверки состава на молекулярном уровне, который может обеспечить максимальный КПД.
"Green" chemistry
"Green" technologies
Electrochemistry
Molecular modeling
19 October 2023