Химики разработали новый полуручной метод обработки данных
Сотрудники кафедры органической химии химического факультета МГУ с коллегами из Северного (Арктического) Федерального Университета применили новый подход обработки данных для масштабного анализа загрязнителей снега. Совмещение ручной обработки с хемометрическими подходами позволило выявить характеристические загрязняющие вещества, а также оценить сходство и различие образцов снега, собранного на разных участках Архангельска, и выявить вероятные источники загрязнений.
В химическом анализе существуют два глобальных подхода: целевой и нецелевой. В случае целевого анализа точно известно, какое вещество нужно определить. При нецелевом подходе исследователи изначально не представляют, с чем будут иметь дело. Иногда присутствие некоторых веществ можно ожидать в образце, но главной задачей остается выявление всех веществ, находящихся в пробе. Нецелевой анализ в объектах окружающей среды позволяет проводить масштабный поиск всевозможных органических веществ для оценки уровня загрязнения воздуха, воды, почвы и прочего.
«Эта работа продолжает наши исследования, посвященные изучению загрязнений окружающей среды методами хромато-масс-спектрометрии, — рассказал соавтор исследования, старший научный сотрудник кафедры органической химии химического факультета МГУ кандидат химических наук Дмитрий Мазур. — Ранее мы проводили многолетние исследования снега по периметру Москвы и в определенных районах, например, возле МГУ. Теперь мы решили использовать этот подход для большего количества городов, пока начали с Архангельска».
Изначально авторы проверили снег на присутствие 78 загрязняющих веществ из стандартного списка, особенно полиароматические углеводороды. Далее провели нецелевой поиск и нашли другие предполагаемые или совсем неожиданные вещества в пробе. Следующим стал важнейший этап — хемометрическая обработка массива полученных данных, который еще называют методом химических «отпечатков пальцев».
«В этом исследовании анализ данных существенно отличался от предыдущих наших работ, — пояснил Дмитрий Мазур. — Мы попробовали совместить ручную обработку данных с известными хемометрическими подходами, которые обеспечивают в некоторой степени автоматическую обработку. Это нужно для выявления сходств и различий между образцами снега, а также поиска специфических для каждого образца компонентов».
Для исследователей представляет особый интерес поиск причин, по которым образцы снега из разных частей города схожи или различны по содержанию загрязнителей окружающей среды. Для выявления этих причин можно использовать автоматическую обработку данных с помощью программных пакетов, находящихся в открытом доступе. Но при выборе набора параметров в этой программе нельзя повлиять на способ обработки данных. Это приводит к тому, что программа распределяет образцы согласно предположениям исследователя. Поэтому полученное группирование не всегда объективно отражает ситуацию.
«Используя коды из открытого доступа, мы смогли реализовать новый ручной подход для обработки данных, — объяснил Дмитрий Мазур. — Увидели, что результаты нашей обработки существенно отличаются от результатов автоматической обработки. В случае нашего подхода количество групп больше отражает реальную ситуацию, поскольку не задается исследователем изначально, а выявляется программой с помощью комбинации математической статистики и хемометрики. Это позволяет получить более надежные результаты анализа с лучшей корреляцией с источниками загрязнения и географическими особенностями».
Как отмечают исследователи, метод применим не только для объектов окружающей среды, но и для любых других больших массивов данных.