Биотехнологи обнаружили ранее неизвестные повторы в геноме бактерий
Ученые разработали математический алгоритм, позволяющий с высокой точностью находить повторяющиеся элементы в геномах. Авторы протестировали подход на генетических последовательностях девяти видов бактерий, и у всех из них обнаружили ранее неизвестные последовательности. Результаты работы могут помочь находить новые генетические мишени, интересные с точки зрения биотехнологии, например, участки ДНК, воздействие на которые позволит увеличить продуктивность бактериальных штаммов.
В геномах многих эукариотических организмов — от дрожжей до человека — встречаются повторяющиеся последовательности из нескольких сотен нуклеотидов, распределенные по всему геному. Все вместе они образуют семейство, которое может иметь значительное число отдельных членов. Число таких семейств, а также расположение и количество повторов в каждом семействе отличается у разных видов, а потому они могут рассказать об эволюции и происхождении различных живых организмов.
Для поиска дисперсных повторов (тех, которые более или менее равномерно распределены по геному) существует множество математических алгоритмов, которые даже позволяют обнаружить «искаженные» копии. Однако подобных изменений в процессе эволюции может накопиться так много, что найти в геноме недостаточно похожие друг на друга последовательности становится невозможно. Важно отметить, что такие семейства повторов были обнаружены ранее только в геномах эукариот, тогда как в геномах бактерий они не известны.
Ученые из ФИЦ Биотехнологии РАН предложили новый метод поиска повторяющихся последовательностей. Принцип его работы можно сравнить с поиском математической матрицы, состоящей из столбцов и строк, которая наилучшим образом описывает семейство повторов. Предложенный алгоритм является оптимальным по точности нахождения «разбросанных» повторов в полном геноме, так как учитывает возможность замен нуклеотидов и их вставок и делеций, то есть мутаций.
Исследователи протестировали алгоритм на искусственно сгенерированных последовательностях, содержащих по тысяче повторов, часть из которых содержала мутации. Сравнение с широко применяемыми в биоинформатике системами поиска показало, что предложенный авторами метод позволяет точнее выявлять повторы одного семейства с большим числом мутаций между ними (вплоть до замены половины нуклеотидов в последовательности). Затем авторы исследования применили алгоритм для поиска повторов в геномах девяти видов бактерий: Escherichia coli, Bacillus subtilis, Azotobacter vinelandii, Clostridium tetani, Methylococcus capsulatus, Mycobacterium tuberculosis, Shigella sonnei, Treponema pallidum и Yersinia pestis.
Анализ позволил ученым впервые выявить у Escherichia coli три семейства повторов длиной 400–600 пар нуклеотидов, которые суммарно занимают практически 50% всего генома бактерии. Ранее у этого микроорганизма были известны подобные элементы только меньшей длины — до 300 пар нуклеотидов — и в значительно меньшем количестве. В генетических последовательностях других бактерий удалось обнаружить 1–2 семейства столь же крупных (400–600 пар нуклеотидов) повторов. При этом меньше всего их оказалось у Treponema pallidum, что может быть связано с маленьким размером генома этого микроорганизма.
«Найденные семейства повторов обнаружены в генах, и они представляют собой определенный код, наложенный на гены поверх триплетного кода, обеспечивающего кодировку генами аминокислотных последовательностей. Причем совершенно неважно, на какой нити ДНК находятся гены. Обнаруженный код может служить основой для сворачивания ДНК в так называемый нуклеоид, который в значительной степени определяет экспрессию генов бактерий, и мы получили сейчас возможность управлять им. Это открывает большие возможности в создании новых полезных для человека микроорганизмов», — рассказывает Евгений Коротков, д.б.н., руководитель группы математического анализа последовательностей ДНК и белков ФИЦ Биотехнологии РАН.
Предложенный учеными подход может использоваться для анализа не только бактериальных геномов, но также генетических последовательностей многоклеточных организмов, например животных и растений. Это может помочь лучше понять эволюцию геномов и отдельных их элементов, а также в случае бактерий найти мишени для создания новых антибиотиков или повышения продуктивности ценных для биотехнологии штаммов.