Ученые разработали новый алгоритм на основе нейронной сети, который точно определяет степень неупорядоченности, то есть хаоса, свойственную данным из таких сфер как медицина, информационные технологии, экология и бизнес. Предложенный алгоритм помог распознать сигналы болезни Альцгеймера и рассортировать электроэнцефалограммы здоровых людей и пациентов с данным диагнозом с точностью более 70%.
В различных научных сферах — от химии до психологии — для оценки степени хаоса, беспорядка и неизвестности используют термин «энтропия». Обычно энтропию определяют для некой последовательности чисел или набора случайных величин, называемого временным рядом. Низкие значения энтропии указывают на систематичность, упорядоченность данных, а высокие — на хаотичность. Для понимания приведем пример. Представьте, что у вашего друга десять игральных кубиков. Он их бросил и сказал, что сумма всех выпавших чисел равна 30. А какие конкретно числа ему выпали — неизвестно, и величина такой неопределенности обозначается как энтропия. Если цифры на кубиках одинаковые, то достаточно увидеть одну из них, чтобы догадаться об остальных. В данном случае энтропия будет маленькой. Но, если цифры разные, чтобы определить их все, нужно увидеть больше кубиков, а значит, и энтропия в данном случае выше. Для ее оценки используются различные формулы, одна из самых распространенных — формула Шеннона. Согласно ей, энтропия напрямую связана с «неожиданностью» возникновения события, и чем событие более предсказуемо, тем степень неупорядоченности меньше. Но данная формула может решить не все задачи, поэтому важно использовать несколько энтропий для эффективного результата.
Ученые из Петрозаводского государственного университета (Петрозаводск) совместно с зарубежными коллегами предложили совершенно другой подход, где при расчете энтропии используется не формула Шеннона, а применяется искусственный интеллект. Они создали собственную нейронную сеть для определения особого типа энтропии — энтропии NNetEn (Neural Network Entropy — энтропия на нейронной сети). На вход нейронной сети подавался исследуемый временной ряд и вспомогательная база данных MNIST, состоящая из рукописных цифр от 0 до 9. Программа трансформировала цифры во временные ряды, после чего происходило обучение сети. В результате алгоритм с помощью математических методов вычислял значение энтропии.
Такой подход кардинально отличается от известных методик, использующих формулу Шеннона, и имеет более высокую точность при наличии каких-либо помех, «заглушающих» сигнал. Представьте, что вы всегда использовали линейку, чтобы узнать количество воды в бочке при постоянном перемешивании. В данном случае перепады высот и волны, возникающие на поверхности жидкости, мешают сделать это точно. Тогда вы решили использовать весы. В результате точность измерений возросла, и методика перестала быть чувствительной к перепадам уровня воды.
Чтобы нагляднее продемонстрировать работу алгоритма, ученые использовали его для распознавания болезни Альцгеймера на электроэнцефалограммах. Авторы взяли готовую базу данных 65 пациентов, разделенных на две группы: контрольная (29 человек) и с болезнью Альцгеймера (36 человек). Алгоритм машинного обучения должен был различить здоровых участников и пациентов с болезнью Альцгеймера по величине энтропии NNetEn, так как хаотичность этого сигнала меняется при наличии болезни.
В эксперименте при использовании NNetEn как единственного признака точность разделения групп оказалась не слишком высокой — около 67%. Для повышения чувствительности ученые использовали сочетание признаков, например, нескольких типов энтропий с разными значениями: примерной, приблизительной, перестановочной и фуззи энтропии. Каждая из них по-своему чувствует тонкую структуру хаоса, а их совместное применение делает это еще эффективнее. Такого рода комбинирование часто используется при классификации с помощью машинного обучения. В результате ученые обнаружили, что новая NNetEn энтропия в сочетании с другими дает значительный синергетический, то есть усиливающий эффект. Так, при использовании одной дополнительной энтропии в паре с NNetEn точность разделения групп возросла до 73%.
В перспективе методика может использоваться для выявления ранних сигналов болезни Альцгеймера уже в клинической практике. Кроме того, каждый исследователь может легко применить алгоритм к своим собственным данным, поскольку нейросеть находится в открытом доступе.
«Новый метод вычисления энтропии нейронной сетью будет полезен для специалистов, работающих с большими данными в области искусственного интеллекта и машинного обучения. Преимущество алгоритма заключается в том, что он использует оригинальный способ оценки и изучения хаоса, в результате чего получаемые данные дают значительный синергетический эффект при добавлении их к другим признакам. Мы предложили использовать энтропию для распознавания болезни Альцгеймера, но может быть еще множество других вариантов применения нашего метода для задач классификации сигналов алгоритмами машинного обучения. В дальнейшем мы попробуем применить предложенный подход в других научных областях, например, для классификации зашумленных аудио сигналов, обработки сейсмических колебаний, кардиограмм и графиков валютных пар», — рассказывает руководитель проекта, поддержанного грантом РНФ, Андрей Величко, кандидат физико-математических наук, ведущий научный сотрудник ПетрГУ.