13 January 2022, 1:00 Анна Солдатенко

Нейросеть научилась превращать изображения химических молекул в SMILES-строки

Нейросеть научилась превращать изображения химических молекул в SMILES-строки
Устройство модели Img2SMILES

Представить химическую молекулу можно множеством способов: нарисовать схему самого разного вида, записать как формулу, матрицу или строку символов. Однако для наиболее полной базы данных важно, чтобы все такие представления можно было бы привести к единому виду. К сожалению, описания молекул из работ до компьютерной эры остались на бумаге в виде разномастных рисунков. Их слишком много, а потому обработка вручную займет неоправданно много времени.

На помощь могут прийти технологии искусственного интеллекта — именно такую систему предложили сотрудники Сколковского института, ООО «Синтелли» и Научно-технического университета «Сириус». В основу архитектуры нейросети легла модель encoder-decoder, состоящая из Resnet и Transformer. Система способна преобразовывать изображения органических молекул в SMILES-строку. Такой способ представления однозначно описывает даже циклическую молекулу как цепочку атомов с указанием типа связей и того, какие группы атомов к ней прикреплены. Для обучения нейросети также был разработан генератор данных, который случайным образом моделирует различные стили рисования, функциональные группы и возможное художественное оформление, мешающее компьютеру выделить то, что необходимо.

Исследователи проверили свою программу на выборке изображений молекул из PubChem и реальных статей. В первом случае точность составила 91%, а во втором — порядка 62%. Это может объясняться тем, что в работах использовались символы и обозначения, на которых нейросеть не обучалась, а также возникала путаница с похожими символами и стереоизомерами, когда строение молекул одинаково, но различается пространственное расположение атомов. Дальнейшее обучение способно увеличить точность.

Представленная нейросеть может стать основой для быстрого и эффективного извлечения информации из рисунков молекул, что окажется полезным для пополнения общей базы химических структур.

News article publications

Read also

Алгоритм распознал глобальные особенности в мозге людей с депрессией
Авторы по снимкам активности мозга строили функциональные сети, отражающие взаимодействия разных отделов головного мозга больных и здоровых людей. Различить две эти группы удалось с точностью в 82,6%
Machine learning
Medicine
Neural networks
Neuroscience
4 July 2023
Искусственная нейросеть распределила роли и смогла в многозадачность
Эта особенность делает алгоритм очень похожим на биологическую нейронную сеть; изучение механизмов как искусственной, так и природной нейросети позволит сделать ИИ еще эффективнее
Machine learning
Neural networks
6 April 2023
Ученые представили самую большую в мире базу данных для квантовой химии
Она поможет расширить возможности квантовых исследований в области поиска новых материалов и разработки новых лекарств
Machine learning
Molecular modeling
Neural networks
Quantum Chemistry
22 December 2022
Нейросети помогут специалистам различать очень близкие виды насекомых
Оказывается, цифровые технологии способны справиться с этой задачей и тем самым упростить работу энтомологов, что важно не только для фундаментальной науки, но и для разработки эффективных способов борьбы с вредителями.
Ecology
Entomology
Machine learning
Neural networks
21 April 2022
Искусственный интеллект поможет сделать эскалаторы безопаснее
Ученые предложили систему, которая обрабатывает информацию с нескольких источников при помощи машинного обучения и рекуррентных нейросетей
Machine learning
Neural networks
19 April 2022
Нейронная сеть стала тренером для молодых боксеров
Московские ученые разработали нейронную сеть, которая помогла боксерам улучшить технику удара.
Machine learning
Neural networks
Sport
2 December 2021