Ученые представили самую большую в мире базу данных для квантовой химии
Волновые функции используются для описания состояния систем в квантовой физике и химии и с их помощью можно рассчитать свойства молекул и материалов еще до того, как они будут синтезированы экспериментально. С одной стороны, это экономит время и реактивы, а с другой — вычислить волновые функции очень сложно даже для простых молекул, не говоря уже о системе из многих частиц. Для решения такой задачи приходится использовать приближенные подходы, например метод Хартри–Фока или теорию функционала плотности. Они действительно позволяют получить аппроксимацию волновой функции, однако для повышения точности нужны большие вычислительные ресурсы.
Снизить требования к вычислительным мощностям могут недавние достижения в сфере глубокого обучения, особенно в сетях свертки графов. Они открыли совершенно новую область исследований — нейронные сети для квантовой химии. Вместо того, чтобы предсказывать конкретное свойство молекулярной структуры, эти методы направлены на оценку молекулярной конформации — трехмерного расположения атомов в молекуле путем предсказания ее квантовых свойств.
В своей новой работе российские ученые представили крупнейший в мире набор электронных структур молекул, подобных лекарствам. База данных содержит более 5 миллионов конформаций для более чем 1 миллиона соединений, а также квантовые свойства, такие как конформационная энергия, гамильтонова матрица DFT и многие другие.
В дополнение к данным в набор включили четыре модели для предсказания энергии молекулярной конформации и две модели для работы с теорией функционала плотности. Авторы протестировали их в разных условиях, обучая на системах из многих молекул. И хотя даже самая лучшая модель показала точность предсказания конформаций в 20 раз хуже, чем в лаборатории, стало ясно, что на больших данных нейронные сети обучаются эффективнее и дают более близкий к реальности результат.
Научная группа планирует дальше пополнять уже собранную базу и надеется, что эта работа сделает эксперименты in silico более доступными, а точность предоставляемых результатов приблизится к качеству лабораторных исследований.