今年以來,大模型如雨后春筍在海內外得到廣泛應用,但直接落地到企業(yè)存在諸多痛點:對業(yè)務場景理解有限,知識產出質量較差;企業(yè)核心知識又難以共享,外部模型的使用存在安全與合規(guī)風險。為解決這些痛點,將大模型與企業(yè)內部知識庫深度融合,可發(fā)揮各自技術優(yōu)勢,實現(xiàn)快速遷移。作為企業(yè)級知識管理系統(tǒng)的領軍企業(yè),深藍海域進行了系列技術探索,有效推動了模型與知識庫的零成本融合。
一、大模型與企業(yè)知識庫融合的技術挑戰(zhàn)
眾所周知,企業(yè)內部構建的知識庫中往往存有大量結構化和非結構化數(shù)據(jù),覆蓋了各類業(yè)務規(guī)則、流程、案例等專業(yè)信息,可以為模型提供海量的優(yōu)質培訓素材。但實現(xiàn)落地應用仍存在諸多技術難題:
1. 專業(yè)知識的理解與適配
大模型對企業(yè)專業(yè)知識的理解有限,而知識庫中的業(yè)務概念復雜多樣,如何使模型快速適配專業(yè)知識,提高輸出質量,是實現(xiàn)高效融合的難點之一。
2.多源異構數(shù)據(jù)的統(tǒng)一管理
企業(yè)的數(shù)據(jù)不僅存在于知識庫中,還分布在公司的多個異構系統(tǒng)和數(shù)據(jù)庫里。如何將這些多源異構的數(shù)據(jù)(不僅限于知識)進行有效地關聯(lián)和挖掘,并最終統(tǒng)一匯總到一個集成的平臺或模型中,實現(xiàn)企業(yè)數(shù)據(jù)和知識的有效連接、管理和應用。
3. 數(shù)據(jù)隔離與安全管控
企業(yè)知識庫中存有大量業(yè)務機密與核心競爭信息,需要確保數(shù)據(jù)安全。而公開大模型的訓練和使用會產生數(shù)據(jù)泄露風險。如何在模型培訓與使用中實現(xiàn)數(shù)據(jù)的隔離與管控,是企業(yè)應用的首要難題。
4. 技術環(huán)境差異與成本高昂
大模型的訓練與部署對算力提出極高要求,與企業(yè)技術環(huán)境存在差異。而部署和遷移大模型需要占用大量計算資源,存在一定成本,因此,如何縮減技術接入成本是一個難點。
5. 用戶交互的連續(xù)性與上下文理解
知識問答與會話式交互對上下文理解和連續(xù)性有更高要求。如何實現(xiàn)深度交互式問答也是一個難點。
總體來說,實現(xiàn)零成本落地,提升質量,保證安全,是大模型與企業(yè)知識庫融合面臨的核心技術挑戰(zhàn)。業(yè)內亟需突破與創(chuàng)新來推動大型模型真正進入應用領域。
二、深藍海域的技術方案的創(chuàng)新實踐
為促進大模型順利落地企業(yè)知識管理,減少甚至消除接入成本,深藍海域進行了一系列技術創(chuàng)新,實現(xiàn)模型與知識庫的深度融合。
1. 搜索引擎技術的應用與創(chuàng)新
傳統(tǒng)搜索依賴關鍵詞匹配存在局限性。深藍海域整合全文搜索、原子化搜索、大模型問答、知識加工等多種搜索模式,實現(xiàn)了大模型生成答案結果的溯源,查閱追蹤其引用、參考的知識來源等,平衡可信與創(chuàng)新。值得一提的是深藍小魚智答系統(tǒng)通過預訓練模型和領域知識微調,實現(xiàn)了對專業(yè)知識的精準表達和建模。
2.向量檢索與知識切分技術
深藍海域利用不同算法對企業(yè)知識進行細粒度切分,使每個知識點簇都可以被獨立向量化表達。這就實現(xiàn)了對非結構化專業(yè)知識的精準表示和建模。同時,不同粒度的知識切分也參與向量空間的統(tǒng)一建構。搜索時,可以準確匹配每個知識碎片的語義信息。這就像拼圖游戲一樣,從細微處出發(fā),最終達成對企業(yè)整體知識圖譜的還原和重構。這樣,就能夠在海量的知識碎片中定位到用戶提問問題相關性最強的片段,從而提供給大模型準確的知識來源,用于解答用戶的問題,減少大模型回答問題的“幻覺”。
3. 系統(tǒng)架構設計的安全與控制保障
深藍海域構建了涵蓋數(shù)據(jù)采集、模型訓練、預測服務的一整套安全系統(tǒng)架構。環(huán)境全部運行于企業(yè)內部網(wǎng)絡,實現(xiàn)了數(shù)據(jù)和模型的嚴密訪問控制。數(shù)據(jù)流動全程加密傳輸,算法模塊采用嚴格的權限控制,核心模型組件甚至可以做到單獨隔離。上述設計確保了從數(shù)據(jù)源到模型輸出的全鏈路安全,極大降低了核心知識泄密風險,使得方案可以安全可控地應用與企業(yè)生產環(huán)境。在使用大模型進行提問時,首先是由知識庫來決定哪些知識和知識原子是當前用戶被授權使用的,只有得到授權的知識和知識原子才可以被大模型調用,用來生成答案。
4.低成本模型遷移技術
深藍海域支持使用低成本的推理計算資源,快速落地體現(xiàn)成果,項目前期投入風險低。支持多種大模型集成對接,允許靈活的部署選擇大模型的尺寸,支持API調用、本地私有化部署,實現(xiàn)快速落地大模型的部署安裝與業(yè)務對接。這使得企業(yè)可以輕松使用先進的對話模型,卻無需付出昂貴的技術與資源成本。
5. 對話增強技術的創(chuàng)新運用
深藍海域提供多輪對話、全庫智答、知識加工等能力,支持上下文理解和連續(xù)性。系統(tǒng)能夠基于單篇知識內容進行詳細的提問和解答,幫助用戶快速定位知識點,使得模型可以連貫理解會話流程,極大提高了復雜問題、連環(huán)問答的正確率,實現(xiàn)了從零開始快速遷移模型至特定業(yè)務場景,避免全量重訓帶來的高昂成本。
數(shù)據(jù)顯示,深藍海域大模型+企業(yè)知識庫技術方案與客戶的企業(yè)知識庫實現(xiàn)了零接入。應用于某大型跨境貿易企業(yè)后,提升了客戶重復問題自助解決率超60%。另一工業(yè)制造企業(yè)在應用員工培訓問答平臺后,日均問答量提升至3000+,整體工作效率顯著改善。
通過搜索引擎、對話增強等核心技術的創(chuàng)新應用,深藍海域實現(xiàn)了模型與知識庫的零成本對接,并解決了效率、質量與安全的關鍵挑戰(zhàn)。此類融合無疑是大模型落地企業(yè)的重要一環(huán)。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )