12 января 2022 Анна Солдатенко

Нейросеть научилась превращать изображения химических молекул в SMILES-строки

  • Нейросети
  • Хемоинформатика
  • Машинное обучение
Нейросеть научилась превращать изображения химических молекул в SMILES-строки
Устройство модели Img2SMILES

Представить химическую молекулу можно множеством способов: нарисовать схему самого разного вида, записать как формулу, матрицу или строку символов. Однако для наиболее полной базы данных важно, чтобы все такие представления можно было бы привести к единому виду. К сожалению, описания молекул из работ до компьютерной эры остались на бумаге в виде разномастных рисунков. Их слишком много, а потому обработка вручную займет неоправданно много времени.

На помощь могут прийти технологии искусственного интеллекта — именно такую систему предложили сотрудники Сколковского института, ООО «Синтелли» и Научно-технического университета «Сириус». В основу архитектуры нейросети легла модель encoder-decoder, состоящая из Resnet и Transformer. Система способна преобразовывать изображения органических молекул в SMILES-строку. Такой способ представления однозначно описывает даже циклическую молекулу как цепочку атомов с указанием типа связей и того, какие группы атомов к ней прикреплены. Для обучения нейросети также был разработан генератор данных, который случайным образом моделирует различные стили рисования, функциональные группы и возможное художественное оформление, мешающее компьютеру выделить то, что необходимо.

Исследователи проверили свою программу на выборке изображений молекул из PubChem и реальных статей. В первом случае точность составила 91%, а во втором — порядка 62%. Это может объясняться тем, что в работах использовались символы и обозначения, на которых нейросеть не обучалась, а также возникала путаница с похожими символами и стереоизомерами, когда строение молекул одинаково, но различается пространственное расположение атомов. Дальнейшее обучение способно увеличить точность.

Представленная нейросеть может стать основой для быстрого и эффективного извлечения информации из рисунков молекул, что окажется полезным для пополнения общей базы химических структур.

Публикации из новости

Image2SMILES: Transformer‐Based Molecular Optical Recognition Engine**
Khokhlov I., Krasnov L., Fedorov M.V., Sosnin S.
Chemistry - Methods 2022 цитирований: 0