北京大學楊仝教授團隊近期發(fā)布了其在高效大型語言模型研究方向的一項新成果——FairyR1-32B模型。該模型基于DeepSeek-R1-Distill-Qwen-32B基座,通過結合微調與模型合并技術構建。研究探索了在參數(shù)量大幅減少的情況下,模型在特定任務上實現(xiàn)與更大模型相當甚至更優(yōu)性能的可能性。該研究得到了國家自然科學基金委項目(624B2005, 62372009)的資助。FairyR1-32B模型已在huggingface開源:http://m.picoinsstore.com/uploadfile/pic2020/2025/0526/2025052611013134G>
FairyR1-32B模型是在團隊前期TinyR1工作基礎上進行的進一步探索,沿用了“分合蒸餾”的研究思路,提出了多種改進方法,包括自我合并、多教師交叉蒸餾、輕蒸餾等方法,并在數(shù)據(jù)處理進行了優(yōu)化,模型精度有了顯著提升。
本次工作重點改進了蒸餾數(shù)據(jù)的構建流程,對來源于AI-MO/NuminaMath-1.5(數(shù)學)和open-thoughts/OpenThoughts-114k(代碼)等數(shù)據(jù)集的原始數(shù)據(jù),通過多個“教師模型”生成答案,隨后對問答數(shù)據(jù)進行精心篩選、結構調整與思維鏈優(yōu)化,并進行多階段篩選。篩選過程包括基于答案的正確性驗證(針對數(shù)學數(shù)據(jù)),以及基于長度的篩選(數(shù)學數(shù)據(jù)保留2k-8k tokens范圍,代碼數(shù)據(jù)保留4k-8k tokens范圍),最終構建了更具針對性的約6.6k條數(shù)學數(shù)據(jù)和約3.8k條代碼數(shù)據(jù)用于訓練。
在模型結構方面,研究團隊嘗試訓練兩個領域(數(shù)學和代碼)的專業(yè)模型進行合并,旨在進一步優(yōu)化流程和資源消耗。這兩個專業(yè)模型在一致的訓練參數(shù)下(例如相同的學習率和批次大小)獨立訓練約5個周期后,利用AcreeFusion工具進行了合并。在多個公開基準測試中,F(xiàn)airyR1展現(xiàn)出了在低參數(shù)量下的競爭力表現(xiàn)。以下為FairyR1與DeepSeek-R1-671B及DeepSeek-R1-Distill-Qwen-32B在部分基準上的得分對比:
從測試結果可以看出,F(xiàn)airyR1-32B在AIME 2025和LiveCodeBench基準上得分略高于DeepSeek-R1-671B,在AIME 2024上表現(xiàn)接近。在GPQA-Diamond科學基準上,F(xiàn)airyR1的得分低于DeepSeek-R1-671B。這些結果表明,F(xiàn)airyR1在采用DeepSeek-R1-Distill-Qwen-32B基座并經過特定技術處理后,能夠在約5%參數(shù)量的情況下,在數(shù)理和編程等領域實現(xiàn)與大型模型相當或略優(yōu)的性能水平,但在科學等其他領域可能存在差距。這項工作探索了通過優(yōu)化的數(shù)據(jù)處理和模型融合技術,在保證特定任務性能的前提下,大幅降低模型規(guī)模和潛在推理成本的可能性。
北京大學楊仝教授團隊表示:“FairyR1-32B模型是我們探索高效大型語言模型技術路線的階段性成果。通過對蒸餾和合并方法的改進,我們初步驗證了在有限資源下實現(xiàn)高性能模型的可行性。”
團隊成員:李旺、周俊廷、劉文睿、姚一倫、王融樂、楊仝
- 蔚來新ET5/ET5T/EC6冠軍紀念版上市:運動化調教+專屬套件,價格親民!
- 華為鴻蒙智駕半年行駛里程超16億公里:80萬輛車見證智能出行新篇章
- 領克10 EM-P智能電混亮眼登場:四驅+激光雷達,科技與性能的完美融合
- 蘋果自研云芯大突破:降降亞馬遜云高價,重塑行業(yè)格局
- iPhone新功能遭熱議:制冷模式能否拯救炎炎夏日?
- Lumo AI合規(guī)助手:讓奇富科技告別繁瑣合規(guī)管理,效率提升20倍
- 現(xiàn)代汽車揭幕韓國氫能新篇章:2028投產氫燃料工廠,綠色未來已觸手可及
- 揭秘ChatGPT名稱由來:OpenAI高層道出背后故事,人工智能如何從無到有?
- 格力高管回應董明珠掉出《財富》榜單:影響力不等于財富,傳奇仍在繼續(xù)
- ASML獨家披露:EUV光刻機僅售5臺,Intel悄然轉變,光刻機不再那么重要了
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。