13 января 2022, 1:00 Анна Солдатенко

Нейросеть научилась превращать изображения химических молекул в SMILES-строки

Нейросети
Хемоинформатика
Машинное обучение
Нейросеть научилась превращать изображения химических молекул в SMILES-строки
Устройство модели Img2SMILES

Представить химическую молекулу можно множеством способов: нарисовать схему самого разного вида, записать как формулу, матрицу или строку символов. Однако для наиболее полной базы данных важно, чтобы все такие представления можно было бы привести к единому виду. К сожалению, описания молекул из работ до компьютерной эры остались на бумаге в виде разномастных рисунков. Их слишком много, а потому обработка вручную займет неоправданно много времени.

На помощь могут прийти технологии искусственного интеллекта — именно такую систему предложили сотрудники Сколковского института, ООО «Синтелли» и Научно-технического университета «Сириус». В основу архитектуры нейросети легла модель encoder-decoder, состоящая из Resnet и Transformer. Система способна преобразовывать изображения органических молекул в SMILES-строку. Такой способ представления однозначно описывает даже циклическую молекулу как цепочку атомов с указанием типа связей и того, какие группы атомов к ней прикреплены. Для обучения нейросети также был разработан генератор данных, который случайным образом моделирует различные стили рисования, функциональные группы и возможное художественное оформление, мешающее компьютеру выделить то, что необходимо.

Исследователи проверили свою программу на выборке изображений молекул из PubChem и реальных статей. В первом случае точность составила 91%, а во втором — порядка 62%. Это может объясняться тем, что в работах использовались символы и обозначения, на которых нейросеть не обучалась, а также возникала путаница с похожими символами и стереоизомерами, когда строение молекул одинаково, но различается пространственное расположение атомов. Дальнейшее обучение способно увеличить точность.

Представленная нейросеть может стать основой для быстрого и эффективного извлечения информации из рисунков молекул, что окажется полезным для пополнения общей базы химических структур.

Публикации из новости

Читайте также

Искусственная нейросеть распределила роли и смогла в многозадачность
Эта особенность делает алгоритм очень похожим на биологическую нейронную сеть; изучение механизмов как искусственной, так и природной нейросети позволит сделать ИИ еще эффективнее
Машинное обучение
Нейросети
6 апреля 2023
Ученые представили самую большую в мире базу данных для квантовой химии
Она поможет расширить возможности квантовых исследований в области поиска новых материалов и разработки новых лекарств
Квантовая химия
Машинное обучение
Молекулярное моделирование
Нейросети
22 декабря 2022
Нейросети помогут специалистам различать очень близкие виды насекомых
Оказывается, цифровые технологии способны справиться с этой задачей и тем самым упростить работу энтомологов, что важно не только для фундаментальной науки, но и для разработки эффективных способов борьбы с вредителями.
Машинное обучение
Нейросети
Экология
Энтомология
21 апреля 2022
Искусственный интеллект поможет сделать эскалаторы безопаснее
Ученые предложили систему, которая обрабатывает информацию с нескольких источников при помощи машинного обучения и рекуррентных нейросетей
Машинное обучение
Нейросети
19 апреля 2022
Нейронная сеть стала тренером для молодых боксеров
Московские ученые разработали нейронную сеть, которая помогла боксерам улучшить технику удара.
Машинное обучение
Нейросети
Спорт
2 декабря 2021
Медики предпочли нейросетям более простые алгоритмы ИИ
Это объясняется тем, что нейронные сети практически не оставляют специалисту возможности по-своему интерпретировать полученные результаты, тогда как окончательное заключение во избежание ошибок должен делать врач
Искусственный интеллект
Машинное обучение
Медицина
15 мая 2023