Нейросеть научилась превращать изображения химических молекул в SMILES-строки
Представить химическую молекулу можно множеством способов: нарисовать схему самого разного вида, записать как формулу, матрицу или строку символов. Однако для наиболее полной базы данных важно, чтобы все такие представления можно было бы привести к единому виду. К сожалению, описания молекул из работ до компьютерной эры остались на бумаге в виде разномастных рисунков. Их слишком много, а потому обработка вручную займет неоправданно много времени.
На помощь могут прийти технологии искусственного интеллекта — именно такую систему предложили сотрудники Сколковского института, ООО «Синтелли» и Научно-технического университета «Сириус». В основу архитектуры нейросети легла модель encoder-decoder, состоящая из Resnet и Transformer. Система способна преобразовывать изображения органических молекул в SMILES-строку. Такой способ представления однозначно описывает даже циклическую молекулу как цепочку атомов с указанием типа связей и того, какие группы атомов к ней прикреплены. Для обучения нейросети также был разработан генератор данных, который случайным образом моделирует различные стили рисования, функциональные группы и возможное художественное оформление, мешающее компьютеру выделить то, что необходимо.
Исследователи проверили свою программу на выборке изображений молекул из PubChem и реальных статей. В первом случае точность составила 91%, а во втором — порядка 62%. Это может объясняться тем, что в работах использовались символы и обозначения, на которых нейросеть не обучалась, а также возникала путаница с похожими символами и стереоизомерами, когда строение молекул одинаково, но различается пространственное расположение атомов. Дальнейшее обучение способно увеличить точность.
Представленная нейросеть может стать основой для быстрого и эффективного извлечения информации из рисунков молекул, что окажется полезным для пополнения общей базы химических структур.