MArVD2: усовершенствованный инструмент машинного обучения для распознавания архейных и бактериальных вирусов в наборах вирусных данных
ISME Communications, том 3, номер статьи: 87 (2023 г.) Цитировать эту статью
370 Доступов
10 Альтметрика
Подробности о метриках
Наши знания о пространстве вирусных последовательностей резко возросли благодаря развитию технологий секвенирования и крупномасштабным отборам проб и аналитическим усилиям. Хотя археи являются важными и многочисленными прокариотами во многих системах, наши знания об архейных вирусах за пределами экстремальных условий ограничены. Во многом это связано с отсутствием надежного, высокопроизводительного и систематического способа различать бактериальные и архейные вирусы в наборах данных курируемых вирусов. Здесь мы обновляем наш предыдущий текстовый инструмент (MArVD) посредством обучения и тестирования алгоритма машинного обучения случайного леса на недавно созданном наборе данных архейных вирусов. После оптимизации MArVD2 продемонстрировал значительное улучшение по сравнению со своим предшественником с точки зрения масштабируемости, удобства использования и гибкости и позволит создавать пользовательские наборы обучающих данных по мере обнаружения архейных вирусов. Сравнительный анализ показал, что модель, обученная на вирусных последовательностях из гиперсоленой, морской среды и среды горячих источников, правильно классифицировала 85% архейных вирусов с уровнем ложного обнаружения ниже 2%, используя порог прогнозирования случайного леса 80% в отдельном наборе данных сравнительного анализа из те же места обитания.
Циклы питательных веществ и энергии на Земле управляются крошечными микробными двигателями [1]. Хотя бактерии изучаются чаще, растет признание того, что археи также имеют решающее значение [2, 3]. Например, археи могут составлять почти половину микробного сообщества мезопелагического океана [2]. Здесь Nitrososphaeria (ранее Thaumarchaeota) являются основными окислителями аммиака, вносящими вклад в глобальные выбросы парниковых газов (N2O) и на долю которых приходится большая часть фиксированных потерь азота ниже фотической зоны [3,4,5]. В последние десятилетия обратная связь между вызванным изменением климата расширением регионов с низким содержанием кислорода в мезопелагическом океане, где процветают Nitrososphaeria, и последующим увеличением выбросов парниковых газов из этих регионов ставит под угрозу некоторые из наиболее продуктивных морских сред в мире [6,7 ,8]. В водно-болотных угодьях и вечномерзлых почвах на долю доминирующих метаногенных Euryarchaeota приходится до 40% мирового производства метана, большая часть которого дополнительно окисляется сопутствующими метанотрофами [9]. Это вызывает особую озабоченность, поскольку большая часть углерода в почве мира хранится в регионах вечной мерзлоты, которые быстро превращаются в водно-болотные угодья по мере повышения глобальной температуры, представляя, таким образом, потенциальный основной источник атмосферного метана в будущем [10]. Учитывая численность и важнейшую биогеохимическую роль, которую археи играют в этих и других системах, знание вирусов, заражающих их, имеет важное значение для надежных экологических оценок и прогнозного климатического моделирования.
Точно так же, как бактерии хорошо изучены по сравнению с архей в большинстве природных экосистем, то же самое можно сказать и о бактериофагах по сравнению с архейными вирусами. Достижения в области метагеномного секвенирования, конвейер экогеномики «от образца к секвенированию», лучшие практики идентификации вирусов [11,12,13,14] и аналитические платформы, такие как iVirus, которые демократизировали эти возможности [15, 16], позволили открыть сотни тысяч бактериальных вирусов или фагов из окружающей среды по всему миру [17,18,19,20]. Этим фагам приписывают существенное влияние на смертность хозяина, горизонтальный перенос генов и метаболическое перепрограммирование [21,22,23,24,25,26,27] таким образом, что они влияют на критически важные функции экосистемы, такие как глобальный круговорот углерода в океане [28]. Таким образом, наша способность «видеть» фаги сильна, и это привело к трансформационному скачку в нашем понимании того, как фаги влияют на экосистемы.
Напротив, архейные вирусы, которые традиционно изучались в «экстремальных» средах, таких как кислые горячие источники, гиперсоленые пруды, анаэробные отложения или гидротермальные источники, крайне недостаточно представлены в большинстве исследований, основанных на метагеноме глобального масштаба [29,30,31, 32,33]. Например, на сегодняшний день в результате многочисленных метагеномных или культуральных исследований конфиденциально идентифицировано менее 230 вирусов морских архей [18, 32, 34,35,36,37,38,39,40,41,42]. в то время как недавнее исследование глобального океана выявило более 488 тысяч вирусных популяций, большинство из которых предположительно являются фаговыми [17]. В общей сложности, по нашим оценкам, в настоящее время имеются хорошо документированные геномы или крупные фрагменты генома менее чем от 380 архейных вирусов, а в IMG/VR-db v3.0 имеется еще 6027 предполагаемых архейных вирусов, [43] что представляет собой ничтожную долю. по сравнению с сотнями тысяч популяционных геномов, доступных сейчас для фагов [17,18,19,20]. Объяснение этому может заключаться в том, что открытие новых архейных вирусов в значительной степени основано на поиске гомологии последовательностей в общедоступных справочных базах данных, которые заполнены вирусами из экстремальных сред, и многие архейные вирусы не имеют гомологии с этими ссылками [44]. Эти «экстремальные» архейные вирусы, возможно, не являются хорошими представителями архейных вирусов из относительно неэкстремальных условий, несмотря на невероятное разнообразие морфологии и образа жизни, которые они демонстрируют [29, 45,46,47,48]. Таким образом, различение бактериофагов от архейных вирусов в наборах данных из относительно неэкстремальных сред с использованием современных подходов остается сложной задачей, несмотря на явные геномные и эволюционные различия между фагами и архейными вирусами [29, 45, 46, 49,50,51,52]. ]. Как следствие, экологическая роль архейных вирусов в относительно неэкстремальных условиях остается по большей части неясной, хотя данные свидетельствуют о том, что они могут быть неотъемлемой частью биогеохимического цикла и динамики сообщества-хозяина [36, 53,54,55].