Заведующий лабораторией

Деркач Денис Александрович

PhD, доц.
Публикаций
835
Цитирований
39 546
Индекс Хирша
94
Необходимо авторизоваться.
Коллектив

Деятельность лаборатории методов анализа больших данных заключается в разработке и применении методов машинного обучения и анализа данных для решения задач фундаментальных наук, таких как физика частиц и астрофизика. Поиск ответов на загадки Вселенной с ведущими учеными из этих областей составляет основное направление развития лаборатории. В частности, мы сотрудничаем с Европейским центром ядерных исследований (CERN), и совместная работа заключается как в исследованиях физики событий Большого адронного коллайдера, так и в решении задач повышения эффективности обработки данных. Кроме того, образовательная деятельность лаборатории включает организацию и проведение академических семинаров и летних/зимних школ по анализу больших данных и обеспечение научного руководства выпускными и диссертационными работами. Лаборатория методов анализа больших данных была основана в 2015 году.

  1. Новые материалы
  2. Компьютерный поиск материалов
  3. Искусственный интеллект
Денис Деркач
Заведующий лабораторией
Ратников Федор Дмитриевич
Федор Ратников
Ведущий научный сотрудник
Устюжанин Андрей Евгеньевич
Андрей Устюжанин
Ведущий научный сотрудник
Гущин Михаил Иванович
Михаил Гущин
Старший научный сотрудник
Мыльцев Александр Анатольевич
Александр Мыльцев
Научный сотрудник
Сергей Мохненко 🤝
Научный сотрудник
Болдырев Алексей Сергеевич
Алексей Болдырев
Научный сотрудник
Михаил Лазарев 🥼 🤝
Научный сотрудник
Маевский Артем Сергеевич
Артем Маевский
Научный сотрудник
Трофимова Екатерина Алексеевна
Екатерина Трофимова
Младший научный сотрудник
Рыжиков Артём Сергеевич
Артём Рыжиков
Младший научный сотрудник
Курбатов Евгений Олегович
Евгений Курбатов
Младший научный сотрудник
Бочарников Владимир Олегович
Владимир Бочарников
Младший научный сотрудник
Арзыматов Кененбек
Кененбек Арзыматов
Младший научный сотрудник
Карпов Максим Евгеньевич
Максим Карпов
Младший научный сотрудник
Чимпоеш  Константин
Константин Чимпоеш
Стажёр-исследователь
Рогачев Александр Игоревич
Александр Рогачев
Стажёр-исследователь
Шевелев Андрей Александрович
Андрей Шевелев
Стажёр-исследователь
Шипилов Фома Александрович
Фома Шипилов
Стажёр-исследователь
Гремячих Леонид Игоревич
Леонид Гремячих
Стажёр-исследователь
Аль-Маини Абдалазиз Рашид Халид
Абдалазиз Аль-Маини
Стажёр-исследователь
Рамазян Тигран Арменович
Тигран Рамазян
Стажёр-исследователь
Каграманян Давид Геворгович
Давид Каграманян
Стажёр-исследователь
Попов Сергей Александрович
Сергей Попов
Стажёр-исследователь
Темирханов Азиз
Азиз Темирханов
Стажёр-исследователь

Направления исследований

Естественный язык для машинного обучения

+
Рутинные задачи проектирования пайплайнов анализа данных с использованием различных моделей машинного обучения обычно включают построение комбинации повторяющихся общих шаблонов. Тем не менее, построение таких пайплайнов крайне важно для специалистов в разных предметных областях, не связанных напрямую с анализом данных. Таким образом, среди неспециалистов в области анализа данных, например, среди биологов, химиков, физиков или гуманитариев, существует большой спрос на передовые разработки ML пайплайнов. Этот проект направлен на разработку вспомогательного бота/вспомогательного агента, способного формировать пайплайны задач, связанных с ML, из описания задачи на естественном языке. Такой вспомогательный бот должен в значительной степени полагаться на методы обработки естественного языка и синтеза языка программирования.

Интерпретируемые модели машинного обучения и поиск законов природы

+
Интерпретируемые модели машинного обучения и поиск законов природы
Есть много проблем в физике, биологии и других естественных науках, в которых символическая регрессия может дать ценную информацию и открыть новые законы природы. Широко распространенная глубокая нейронная сеть не предлагает интерпретируемых решений. Между тем символические выражения указывают на четкую связь между наблюдениями и целевой переменной. Однако на данный момент нет доминирующего решения для задачи символической регрессии, и мы стремимся сократить этот разрыв с помощью нашего проекта. Наша лаборатория начала исследования в этом направлении, и наш подход к поиску представления символического закона подразумевает использование генеративных моделей наряду с методами оптимизации с ограничениями. Его можно применять к уравнениям в замкнутой форме или к системе дифференцируемых уравнений. Задача исследования состоит в том, чтобы улучшить модель за счет использования методов активного/нулевого обучения.

Платформы для оценки моделей ML

+
Перенос прогнозных моделей глубокого обучения из исследовательской среды в среду промышленного использования сопряжен со значительными затратами, связанными с разносторонней проверкой таких моделей: работа под нагрузкой, работа в условиях ограничений оперативной памяти, потоковый доступ к данным. Этот проект направлен на реализацию алгоритмов непрерывного мониторинга различных моделей глубокого обучения в промышленной среде и ранней диагностики необходимости предварительного обучения этих моделей на минимально необходимом наборе данных. Цель состоит в том, чтобы внедрить эту платформу в эксперимент CERN LHCb.

Высокоточный цифровой двойник систем хранения данных (СХД)

+
Высокоточный цифровой двойник систем хранения данных (СХД)
Высокоточное моделирование установок и систем сегодня является одним из основных направлений индустриального анализа данных. Модели систем, их цифровые двойники, используются для предсказания их поведения при различных условиях. Мы разработали цифровой двойник системы хранения данных (СХД) с использованием генеративных моделей машинного обучения. Система состоит их нескольких типов компонент: HDD и SSD диски, пулы дисков с разными RAID массивами, кэш и контроллеры хранения. Каждый компонент СХД представляется вероятностной моделью, которая описывает распределение вероятности значений параметров производительности компонентов в зависимости от их конфигурации и параметров внешней нагрузки данных. Использование машинного обучения позволяет получить высокоточный цифровой двойник конкретной системы, потратив меньше времени и ресурсов, чем прочие аналоги. Он позволяет быстро предсказывать производительность системы и ее компонентов при разных конфигурациях и внешних нагрузках данных, что существенно ускоряет разработку новых СХД. Также, сравнение прогнозов двойника с показателями реальной СХД позволяет диагностировать сбои и аномалии в работе системы, повышая ее надежность.

Обнаружение временных изменений для систем предсказательной аналитики

+
Обнаружение изменений в поведении сложных систем является одной из важных индустриальных задач в обработке сигналов, статистике и машинном обучении. Решения этой задачи нашли применения во многих приложениях: контроль качества производственных процессов, мониторинг состояния инженерных конструкций, обнаружение сбоев и поломок оборудования по показаниям сенсоров, мониторинг распределенных компьютерных систем и обнаружение нарушения безопасности, сегментация видеопотока, распознавание звуковых эффектов, контроль химических процессов, мониторинг сейсмологических данных, анализ финансовых и экономических данных и многие другие. Мы разработали ряд новых методов обнаружения смены режимов работы сложных систем с использованием моделей классификации и регрессии, генеративно-состязательных сетей и нормализационных потоков, а также нейронных стохастических дифференциальных уравнений. Были продемонстрированы теоретические и практические преимущества по сравнению с другими аналогами. Мы успешно применили новые методы для обнаружения сбоев систем хранения данных, анализа активности человека, а также сегментации видео и текстов.

Уточнение прогноза погоды

+
Уточнение прогноза погоды
Прогнозирование и проверка состояния погоды - это задача экстраполяции ряда показателей. Современные модели исследования и прогнозирования погоды хорошо работают на хорошо известных условиях и коротких временных интервалах. С другой стороны, известно, что методы ИИ, доступные данные и симуляторы погоды не идеально согласуются друг с другом. Таким образом, данный проект направлен на разработку и обучение новых алгоритмов для настройки параметров симулятора и более эффективного получения достоверных прогнозов. Эта синергия, в свою очередь, позволит повысить точность прогнозов нормальных и аномальных погодных условий на более длительный срок.

Исследование двумерных материалов: предсказание свойств и генерация по заданным параметрам

+
Исследование двумерных материалов: предсказание свойств и генерация по заданным параметрам
Разработка новых материалов, обладающих свойствами накопителей электрической энергии, является важнейшей задачей современной энергетической отрасли. Для производства таких материалов могут быть использованы двумерные кристаллы, построенные на принципах графеновых решеток. Поиск конфигураций кристаллических решеток затруднен множеством возможных вариантов и длительностью цикла испытаний для одной конфигурации. Требуется много ресурсоемких тестов in silico и in vitro. Эти алгоритмы направлены на реализацию возможности предсказания энергетических свойств кристаллов заданной конфигурации и решение задачи вывода - определения оптимальной конфигурации кристалла по заданной энергетической характеристике. Объединение таких алгоритмов позволит значительно сократить время поиска и синтеза практически полезных энергоносителей.

Публикации и патенты

Найдено 

Партнёры

Адрес лаборатории

Москва, Покровский бульвар, 11 комн. S-924
Необходимо авторизоваться.