6月19日消息,國際頂級期刊《Nature Machine Intelligence》發(fā)表了阿里云AI for Science的研究成果LucaOne。這是業(yè)界首個聯(lián)合DNA、RNA、蛋白質的生物大模型。該大模型學習了超16萬個物種的12億條核酸序列及6億條蛋白序列數(shù)據(jù),不僅可以挖掘核酸、蛋白質的內部特征,還可識別核酸與蛋白質之間的聯(lián)系,幫助研究人員探索更多生物系統(tǒng)的內在邏輯與規(guī)則。
Nature Machine Intelligence(以下簡稱NMI)是Nature于2019年創(chuàng)立的期刊,收錄方向覆蓋計算生物學、模式識別和計算機視覺等多個領域,期刊影響因子一直位居行業(yè)前列,是業(yè)界公認的人工智能和機器學習領域的國際頂級期刊。
據(jù)介紹,阿里云研究團隊首次基于DNA、RNA和蛋白質等生命科學領域最主要的數(shù)據(jù)進行混合訓練,涵蓋12億條核酸序列和6億條蛋白序列,同時引入生物領域內基礎的標簽信息,讓模型學習到豐富的生物信息。在模型結構上,研究團隊采用Transformer-Encoder架構,在自監(jiān)督學習的基礎上,設計了8個不同級別的半監(jiān)督學習任務,有效增強模型的學習能力。
LucaOne技術框架
實驗結果顯示,在中心法則驗證(CentralDogma)、物種Genus分類(GenusTax)、蛋白質位置(ProtLoc)、蛋白質穩(wěn)定性(ProtStab)、非編碼RNA的類型(ncRNAFam)、流感病毒預測(InfA)等8個下游任務驗證中,LucaOne的表現(xiàn)均領先于現(xiàn)有的生物大模型。
NMI表示:該研究展示了對分子生物學中心法則的全新理解,極大地增強了研究人員對生物信息學分析的能力,可以幫助人類探索分子生物學的未知領域。
據(jù)介紹,LucaOne的模型代碼、訓練代碼、推理代碼等已全面開源,科研人員可基于該模型進行二次訓練、垂直領域生物模型構建、Embedding推理、Embedding-based分析、Embedding-based下游模型構建等。目前全球已有10多家公司和團隊使用該模型。
過去幾年,阿里云積極與國內高校和研究機構展開合作,在生命科學領域已發(fā)表核酸和蛋白質統(tǒng)一基礎模型-LucaOne(NMI 2025)、RNA病毒發(fā)現(xiàn)-LucaProt(Cell 2024)、磷循環(huán)蛋白家族識別-LucaPCycle(NC 2025)等研究成果。
論文地址:https://www.nature.com/articles/s42256-025-01044-4
開源地址:https://github.com/LucaOne/LucaOne
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )