banner
Дом / Блог / MArVD2: усовершенствованный инструмент машинного обучения для распознавания архейных и бактериальных вирусов в наборах вирусных данных
Блог

MArVD2: усовершенствованный инструмент машинного обучения для распознавания архейных и бактериальных вирусов в наборах вирусных данных

Aug 11, 2023Aug 11, 2023

ISME Communications, том 3, номер статьи: 87 (2023 г.) Цитировать эту статью

370 Доступов

10 Альтметрика

Подробности о метриках

Наши знания о пространстве вирусных последовательностей резко возросли благодаря развитию технологий секвенирования и крупномасштабным отборам проб и аналитическим усилиям. Хотя археи являются важными и многочисленными прокариотами во многих системах, наши знания об архейных вирусах за пределами экстремальных условий ограничены. Во многом это связано с отсутствием надежного, высокопроизводительного и систематического способа различать бактериальные и архейные вирусы в наборах данных курируемых вирусов. Здесь мы обновляем наш предыдущий текстовый инструмент (MArVD) посредством обучения и тестирования алгоритма машинного обучения случайного леса на недавно созданном наборе данных архейных вирусов. После оптимизации MArVD2 продемонстрировал значительное улучшение по сравнению со своим предшественником с точки зрения масштабируемости, удобства использования и гибкости и позволит создавать пользовательские наборы обучающих данных по мере обнаружения архейных вирусов. Сравнительный анализ показал, что модель, обученная на вирусных последовательностях из гиперсоленой, морской среды и среды горячих источников, правильно классифицировала 85% архейных вирусов с уровнем ложного обнаружения ниже 2%, используя порог прогнозирования случайного леса 80% в отдельном наборе данных сравнительного анализа из те же места обитания.

Циклы питательных веществ и энергии на Земле управляются крошечными микробными двигателями [1]. Хотя бактерии изучаются чаще, растет признание того, что археи также имеют решающее значение [2, 3]. Например, археи могут составлять почти половину микробного сообщества мезопелагического океана [2]. Здесь Nitrososphaeria (ранее Thaumarchaeota) являются основными окислителями аммиака, вносящими вклад в глобальные выбросы парниковых газов (N2O) и на долю которых приходится большая часть фиксированных потерь азота ниже фотической зоны [3,4,5]. В последние десятилетия обратная связь между вызванным изменением климата расширением регионов с низким содержанием кислорода в мезопелагическом океане, где процветают Nitrososphaeria, и последующим увеличением выбросов парниковых газов из этих регионов ставит под угрозу некоторые из наиболее продуктивных морских сред в мире [6,7 ,8]. В водно-болотных угодьях и вечномерзлых почвах на долю доминирующих метаногенных Euryarchaeota приходится до 40% мирового производства метана, большая часть которого дополнительно окисляется сопутствующими метанотрофами [9]. Это вызывает особую озабоченность, поскольку большая часть углерода в почве мира хранится в регионах вечной мерзлоты, которые быстро превращаются в водно-болотные угодья по мере повышения глобальной температуры, представляя, таким образом, потенциальный основной источник атмосферного метана в будущем [10]. Учитывая численность и важнейшую биогеохимическую роль, которую археи играют в этих и других системах, знание вирусов, заражающих их, имеет важное значение для надежных экологических оценок и прогнозного климатического моделирования.

Точно так же, как бактерии хорошо изучены по сравнению с архей в большинстве природных экосистем, то же самое можно сказать и о бактериофагах по сравнению с архейными вирусами. Достижения в области метагеномного секвенирования, конвейер экогеномики «от образца к секвенированию», лучшие практики идентификации вирусов [11,12,13,14] и аналитические платформы, такие как iVirus, которые демократизировали эти возможности [15, 16], позволили открыть сотни тысяч бактериальных вирусов или фагов из окружающей среды по всему миру [17,18,19,20]. Этим фагам приписывают существенное влияние на смертность хозяина, горизонтальный перенос генов и метаболическое перепрограммирование [21,22,23,24,25,26,27] таким образом, что они влияют на критически важные функции экосистемы, такие как глобальный круговорот углерода в океане [28]. Таким образом, наша способность «видеть» фаги сильна, и это привело к трансформационному скачку в нашем понимании того, как фаги влияют на экосистемы.

Напротив, архейные вирусы, которые традиционно изучались в «экстремальных» средах, таких как кислые горячие источники, гиперсоленые пруды, анаэробные отложения или гидротермальные источники, крайне недостаточно представлены в большинстве исследований, основанных на метагеноме глобального масштаба [29,30,31, 32,33]. Например, на сегодняшний день в результате многочисленных метагеномных или культуральных исследований конфиденциально идентифицировано менее 230 вирусов морских архей [18, 32, 34,35,36,37,38,39,40,41,42]. в то время как недавнее исследование глобального океана выявило более 488 тысяч вирусных популяций, большинство из которых предположительно являются фаговыми [17]. В общей сложности, по нашим оценкам, в настоящее время имеются хорошо документированные геномы или крупные фрагменты генома менее чем от 380 архейных вирусов, а в IMG/VR-db v3.0 имеется еще 6027 предполагаемых архейных вирусов, [43] что представляет собой ничтожную долю. по сравнению с сотнями тысяч популяционных геномов, доступных сейчас для фагов [17,18,19,20]. Объяснение этому может заключаться в том, что открытие новых архейных вирусов в значительной степени основано на поиске гомологии последовательностей в общедоступных справочных базах данных, которые заполнены вирусами из экстремальных сред, и многие архейные вирусы не имеют гомологии с этими ссылками [44]. Эти «экстремальные» архейные вирусы, возможно, не являются хорошими представителями архейных вирусов из относительно неэкстремальных условий, несмотря на невероятное разнообразие морфологии и образа жизни, которые они демонстрируют [29, 45,46,47,48]. Таким образом, различение бактериофагов от архейных вирусов в наборах данных из относительно неэкстремальных сред с использованием современных подходов остается сложной задачей, несмотря на явные геномные и эволюционные различия между фагами и архейными вирусами [29, 45, 46, 49,50,51,52]. ]. Как следствие, экологическая роль архейных вирусов в относительно неэкстремальных условиях остается по большей части неясной, хотя данные свидетельствуют о том, что они могут быть неотъемлемой частью биогеохимического цикла и динамики сообщества-хозяина [36, 53,54,55].

10kbp (Fig. 6A and C). The exception to this was SPEC which remained high and nearly unchanged across the variable sequence size fractioned datasets (1 kb, 2.5 kb, 5 kb, 7.5 kb, 10 kb, >10 kb). Further, the FDR stayed relatively low across all fragment sizes, never exceeding 15% (Fig. 6A, C)./p>10 kbp./p>50 and evalue >0.001. These annotations are then integrated into the VirSorter “affi_contigs.csv” gene annotation file retaining the VirSorter derived Pfam [86] designations >40 bitscore and <0.00001 evalue. Using this updated per gene annotation file, MArVD functions exactly as its first inception [32]. Only MArVD category 1 and 2 putative archaeal viruses, corresponding to viruses having over 66 or 50% of their annotated genes affiliating with archaeal viruses respectively, and with bitscore >75 and higher than those for the phage affiliations, were retained as MArVD predicted archaeal viruses. This updated version of MArVD enabled the creation of the new environmental archaeal virus datasets from the ETSP and GOV2.0 datasets needed to train and test MArVD2 as well as allows for a means to compare the performance of MArVD with MArVD2./p>10 kb lengths. For the >10kbp size fraction, a second test dataset with various amounts of microbial sequences was included with equal proportions of bacteria and archaea. Genomic fragments from microbial sequences were randomly selected from the IMG/M [79] database and only included if their size was between 10 kb and 200 kb. Microbial sequences were added at 10, 25, 50, 75, and 95% of the total data. Microbial sequences were ensured not to be viral by use of VirSorter. Dataset size in terms of the number of contigs was also tested with the benchmarking dataset being broken into sets 10, 25, 50, 75, and 95% of the total number of contigs from the original validation dataset./p>