metaFlye Сборщик для чтения геномов микробных сообществ

Продукт
Разработчики: Калифорнийский университет в Сан-Диего (UCSD), Санкт-Петербургский государственный университет (СПбГУ)
Дата премьеры системы: 2020/10/07
Отрасли: Образование и наука,  Фармацевтика, медицина, здравоохранение

Основные статьи:

2020: Презентация metaFlye

7 октября 2020 года СПбГУ сообщил, что сотрудники лаборатории «Центр алгоритмической биотехнологии» СПбГУ в составе группы российских и американских ученых разработали сборщик metaFlye, специализирующийся на сборке образцов ДНК микробных сообществ. С его помощью можно решить широкий круг фундаментальных и прикладных задач, среди которых — контроль процесса лечения человека и даже создание новых лекарств.

Графики повторений раскрывают повторяющуюся структуру генома, что помогает восстановить оптимальную сборку

Для изучения ДНК любого живого организма ученые всего мира используют сложные биотехнологические инструменты — секвенаторы. Эти специальные машины не умеют «прочитывать» геном от начала и до конца (как люди читают книги). Они делают это отдельными короткими фрагментами — прочтениями, или ридами (от английского слова read). Объединение прочтений в более длинные фрагменты, а в идеальном случае — в единую последовательность исходного генома, представляет собой крайне сложную вычислительную задачу, чем-то напоминающую сборку пазла из миллионов фрагментов. Задача осложняется тем, что геномы часто содержат большое количество одинаковых повторяющихся последовательностей, которые нередко превышают длину прочтений. Справиться с этой непростой задачей помогают специализированные программы — геномные сборщики.

Ученым доступно несколько десятков различных сборщиков, которые разрабатывают в ведущих биоинформатических лабораториях по всему миру. Такое многообразие обусловлено тем, что лежащие в основе сборщиков алгоритмы нужно адаптировать к разным типам входных данных, получаемых на разных видах секвенаторов, а также к различным организмам. Например, подходы для сборки генома бактерий могут совершенно не подойти сборке генома человека и наоборот. Кроме того, разработчики геномных сборщиков постоянно стремятся улучшить свои решения, чтобы их программы работали быстрее, использовали меньше памяти, а итоговые сборки были длиннее и точнее, чем у конкурентов.

Сборщик metaFlye используется при сборке метагеномов, то есть образцов ДНК микробных сообществ, полученных из различных сред, — например, из глубин океана, почвы в парке или кишечника человека. Получая сборку такого образца, можно определить, что за организмы в нем представлены и сколько их. Используя дополнительный анализ сборки, часто можно выяснить, чем эти организмы могут питаться, как взаимодействуют, какие вещества синтезируют. Все эти сведения в дальнейшем можно использовать, например, для поиска новых лекарственных средств природного происхождения, для определения причин, лежащих в основе особой плодородности почвы, при проверке хода лечения человека и во множестве других как фундаментальных, так и прикладных задач.

Сборщик metaFlye предназначен для данных, получаемых по самой современной технологии секвенирования на данный момент — технологии секвенирования длинными прочтениями (long-read sequencing). Для данных метагеномного секвенирования короткими прочтениями (short-read sequencing, или next-generation sequencing, NGS) на платформе Illumina уже есть несколько сборщиков, используемых во всем мире. В их число входит сборщик metaSPAdes, разработанный в Центре алгоритмической биотехнологии СПбГУ в 2016 году. Также уже существуют программы для сборки отдельных геномов из длинных прочтений. Продукт metaFlye позволяет использовать особенности технологии для сложных метагеномных данных. Это первый специализированный сборщик для метагеномов, работающий с технологиями Oxford Nanopore и PacBio.

«
Стимулом к созданию metaFlye послужило отсутствие специализированного метагеномного сборщика для технологии длинных прочтений. Эта технология уже кардинально изменила всю современную геномную науку, мы научились получать гораздо более полные сборки. Так, например, с ее помощью недавно были прочитаны и локализованы многие недостающие фрагменты генома человека (с использованием оригинального инструмента Flye и тоже с участием членов нашей лаборатории). Но для метагеномов такие данные только начали появляться, и, конечно, они потребовали специальных инструментов,

— отмечает один из авторов проекта, старший научный сотрудник Центра алгоритмической биотехнологии СПбГУ Михаил Райко
»

Работа над metaFlye началась примерно два года назад. Если же вести отсчет с создания его предшественника, геномного сборщика Flye, на базе которого и был реализован новый проект, получается вдвое больше — четыре года.

«
В нашем исследовании, опубликованном в журнале Nature Methods, мы использовали metaFlye и другие сборщики, чтобы проанализировать несколько симулированных (то есть сгенерированных на компьютере, без секвенирования настоящей ДНК) и реальных метагеномных образцов из желудочно-кишечного тракта человека, коровы и овцы. Наибольший интерес, пожалуй, представляет образец микробиома овцы, так как он был впервые получен и исследован именно в этой работе, в то время как исходные данные секвенирования для двух других образцов взяты из работ сторонних авторов. Благодаря metaFlye в этом образце удалось собрать на порядок больше вирусных геномов и в полтора раза больше плазмид, чем при использовании лучших из существующих программ-аналогов,

— рассказывает старший научный сотрудник Центра алгоритмической биотехнологии СПбГУ Алексей Гуревич
»

Другим любопытным результатом стало то, что в образце удалось собрать геномы не только бактерий и архей, но и эукариот. При этом биоинформатический анализ показал, что почти половина эукариотических геномных фрагментов относится к представителям нематод, или круглых червей. Этот результат полностью соответствует отчету о вскрытии трупа животного, в котором были обнаружены признаки паразитарной инфекции.

Публикация о metaFlye — результат коллаборации 11 российских и американских ученых, представляющих Санкт-Петербургский государственный университет, Калифорнийский университет в Сан-Диего (UCSD), Институт биоинформатики (Санкт-Петербург) и американские исследовательские центры молочных и мясных продуктов. Сам сборщик metaFlye в основном разрабатывается в UCSD. Его создатель и первый автор публикации — Михаил Колмогоров, постдок UCSD. Научный руководитель проекта — Павел Певзнер, профессор UCSD и главный научный консультант Центра алгоритмической биотехнологии СПбГУ.