人工智能幫助揭開海洋和我們腸道中病毒的奧秘

病毒是微生物生態(tài)系統(tǒng)中一種神秘且知之甚少的力量。研究人員知道，它們可以感染、殺死和操縱人類和細菌細胞幾乎每個環(huán)境，從海洋到你的腸道。

但科學家們還沒有全面了解病毒如何影響周圍的環(huán)境，這在很大程度上是因為它們具有非凡的多樣性和快速進化的能力.

微生物群落很難在實驗室環(huán)境中進行研究。許多微生物的培養(yǎng)具有挑戰(zhàn)性，它們的自然環(huán)境已經(jīng)更多功能影響他們的成功或失敗比科學家在實驗室中可以復制的要多。

所以像我這樣的系統(tǒng)生物學家通常對樣本中存在的所有 DNA 進行測序——例如，來自患者的糞便樣本——分離出病毒DNA序列然后批注各部分編碼蛋白質的病毒基因組。

這些關于基因的位置、結構和其他特征的注釋有助于研究人員了解病毒在環(huán)境中可能執(zhí)行的功能，并幫助識別不同種類的病毒。

研究人員通過將樣本中的病毒序列與先前注釋的序列進行匹配來注釋病毒公共數(shù)據(jù)庫病毒基因序列.

然而，科學家們正在鑒定從環(huán)境中收集的DNA中的病毒序列遠遠超過的速度我們注釋這些基因的能力。這意味著研究人員正在使用不可接受的一小部分可用數(shù)據(jù)來發(fā)表有關微生物生態(tài)系統(tǒng)中病毒的發(fā)現(xiàn)。

為了提高研究人員在全球范圍內研究病毒的能力，我和我的團隊已經(jīng)開發(fā)了一種新穎的方法使用以下方法注釋病毒序列人工智能.

通過類似于 ChatGPT 等大型語言模型但特定于蛋白質的蛋白質語言模型，我們能夠對以前看不見的病毒序列進行分類。這為研究人員打開了大門，不僅可以更多地了解病毒，還可以解決當前技術難以回答的生物學問題

使用 AI 注釋病毒

大型語言模型使用大型文本數(shù)據(jù)集中單詞之間的關系，為未明確“教”出答案的問題提供潛在答案。

例如，當你問聊天機器人“法國的首都是什么？”時，該模型不會在首都城市表中查找答案。相反，它正在利用其對大量文件和信息數(shù)據(jù)集的訓練來推斷答案：“法國的首都是巴黎。

同樣地蛋白質語言模型是經(jīng)過訓練的人工智能算法，可以識別來自世界各地環(huán)境的數(shù)十億個蛋白質序列之間的關系。通過這種訓練，他們可能能夠推斷出一些關于病毒蛋白的本質及其功能的信息。

我們想知道蛋白質語言模型是否可以回答這個問題：“給定所有注釋的病毒基因序列，這個新序列的功能是什么？

在我們的概念驗證，我們在預先訓練的蛋白質語言模型中對先前注釋的病毒蛋白序列進行神經(jīng)網(wǎng)絡訓練，然后使用它們來預測新病毒蛋白序列的注釋。

我們的方法使我們能夠探測模型在導致特定注釋的特定病毒序列中“看到”的內容。這有助于根據(jù)它們的特定功能或它們的基因組排列方式來識別感興趣的候選蛋白質，從而篩選出大量數(shù)據(jù)集的搜索空間。

原綠球菌是研究人員以前從未見過的具有蛋白質的眾多海洋細菌之一。(Anne Thompson/Chisholm 實驗室，麻省理工學院，通過 Flickr）

通過識別更遠相關的病毒基因功能，蛋白質語言模型可以補充當前的方法，為微生物學提供新的見解。

例如，我和我的團隊能夠使用我們的模型來發(fā)現(xiàn)一個以前未識別的整合酶– 一種可以將遺傳信息移入和移出細胞的蛋白質 – 在全球豐富的海洋皮藍藻中原綠球菌和聚球菌.

值得注意的是，這種整合酶可能能夠將基因移入和移出海洋中的這些細菌種群，并使這些微生物能夠更好地適應不斷變化的環(huán)境。

我們的語言模型還識別了一個新型病毒衣殼蛋白這在全球海洋中很普遍。我們制作了第一張關于其基因如何排列的圖片，表明它可以包含不同的基因集，我們認為這些基因表明了這一點病毒在其環(huán)境中提供不同的功能。

這些初步發(fā)現(xiàn)僅代表了我們方法提供的數(shù)千個注釋中的兩個。

大多數(shù)數(shù)以百計數(shù)以千計新發(fā)現(xiàn)病毒仍然存在未分類.許多病毒基因序列與功能未知或以前從未見過的蛋白質家族相匹配。我們的研究表明，類似的蛋白質語言模型可以幫助研究我們星球上許多未表征的病毒的威脅和前景。

雖然我們的研究集中在全球海洋中的病毒上，但改進病毒蛋白的注釋對于更好地了解病毒在人體健康和疾病中的作用至關重要。

我們和其他研究人員假設病毒在人類腸道微生物組中的活性可能會被更改當你生病時。這意味著病毒可能有助于識別微生物群落中的壓力。

然而，我們的方法也有局限性，因為它需要高質量的注釋。研究人員正在開發(fā)更新的蛋白質語言模型，將其他“任務”作為訓練的一部分，特別是預測蛋白質結構以檢測相似的蛋白質，以使它們更強大。

使所有 AI 工具都可通過以下方式使用FAIR數(shù)據(jù)原則- 可查找、可訪問、可互操作和可重復使用的數(shù)據(jù) - 可以幫助廣大研究人員意識到這些注釋蛋白質序列的新方法的潛力，從而帶來有益于人類健康的發(fā)現(xiàn)。

利布莎·凱利，系統(tǒng)與計算生物學、微生物學和免疫學副教授，阿爾伯特愛因斯坦醫(yī)學院

本文轉載自對話根據(jù)知識共享許可。閱讀原文.

本站所有相關知識僅供大家參考、學習之用，部分來源于互聯(lián)網(wǎng)，其版權均歸原作者及網(wǎng)站所有，如無意侵犯您的權利，請與小編聯(lián)系，我們將會在第一時間核實并給予反饋。

相關期刊推薦