百分點科技榮獲“2021 CCKS知識圖譜問答大賽”季軍

百分點科技榮獲“2021 CCKS知識圖譜問答大賽”季軍

CCKS知識圖譜問答大賽作為中文知識圖譜領域的最高比賽,在國內知識圖譜問答技術等相關研究中有著重要地位,該項賽事的評測也成為全國知識圖譜與語義計算大會上最受關注環(huán)節(jié)之一。

12月25日-26日,第十五屆全國知識圖譜與語義計算大會(CCKS 2021)正式召開,會上發(fā)布了“2021 CCKS知識圖譜問答大賽”最終結果,百分點認知智能實驗室在“CCKS 2021:生活服務知識圖譜問答評測”任務中榮獲季軍和技術創(chuàng)新獎兩項榮譽。

百分點認知智能實驗室

榮獲大賽季軍及技術創(chuàng)新獎

CCKS由中國中文信息學會語言與知識計算專業(yè)委員會主辦,是國內知識圖譜和計算語義領域的核心學術盛會,聚集了知識表示、自然語言理解、知識獲取、智能問答等相關技術領域的和研究人員的學者和研究人員。

本次大會以“知識圖譜賦能新基建”為主題,致力于為研究者們提供一個測試技術、算法、及系統(tǒng)的平臺,共同探討大數據環(huán)境下語言理解、知識獲取、知識融合、知識推理等方面的關鍵技術,以及在新基建背景下的各種智能應用。

2021 CCKS知識圖譜問答大賽于2021年3月啟動,吸引了2300多支參賽隊伍,其中,在“CCKS 2021:生活服務知識圖譜問答評測”任務中,有430支隊伍、460人參賽,該任務是自然語言處理領域兼具前沿性和綜合性的任務,開發(fā)難度較大。

經過激烈的競爭,最終進入排名的僅16支隊伍,百分點認知智能實驗室“系統(tǒng)之神與我同在”團隊提交的技術方案榮獲季軍,以明顯的優(yōu)勢進入第一梯隊,與第二梯隊拉開較大的差距。

百分點科技榮獲“2021 CCKS知識圖譜問答大賽”季軍

知識圖譜作為承載底層海量知識并支持上層智能應用的重要載體,在智能時代中扮演了極其重要的角色,但由于知識圖譜高度結構化的特點,常常需要構建結構化查詢語句(SPARQL等)來查找相關知識,這為普通用戶使用知識圖譜造成了不便,因此在知識圖譜上進行自然語言問答(KBQA)近年來也成為了前者的熱門應用之一。

本次評測任務是希望參賽者們可以提出創(chuàng)新性的KBQA系統(tǒng),同時處理“專而深”的特定領域和“廣而淺”的開放領域知識圖譜,對用戶提出的復雜多樣的自然語言問題給出準確答案。此外,更希望此次評測可以為KBQA的下一步研究和落地提供一些理論及實踐層面的啟發(fā)。

百分點科技榮獲“2021 CCKS知識圖譜問答大賽”季軍

傳統(tǒng)問題類型

賽題任務的問題分為傳統(tǒng)問題類型和特殊問題類型,特殊問題類型添加了filter、order等函數和http://www.w3.org/2001/XMLSchema#float等RDF標準類型后綴的美團生活服務類問題。

經典問題

問題:

武漢大學出了哪些科學家

查詢語句:

select ?x where {?x<職業(yè)><科學家_(從事科學研究的人群)>.?x<畢業(yè)院校><武漢大學>.}

答案:

"<郭傳杰> <張貽明> <劉西堯> <石正麗> <王小村>"

問題:

凱文·杜蘭特得過哪些獎?

查詢語句:

select ?x where { <凱文·杜蘭特> <主要獎項> ?x . }

答案:

"7次全明星(2010-2016)” “5次NBA最佳陣容一陣(2010-2014)” “NBA得分王(2010-2012;2014)” “NBA全明星賽MVP(2012)” "NBA常規(guī)賽MVP(2014)"

問題:

獲得性免疫缺陷綜合征涉及哪些癥狀?

查詢語句:

select ?x where {<獲得性免疫缺陷綜合征><涉及癥狀>?x.}

答案:

"<淋巴結腫大><脾腫大> <心力衰竭> <腎源性水腫> <抑郁> <心源性呼吸困難> <低蛋白血癥> <不明原因發(fā)熱> <免疫缺陷> <高凝狀態(tài)> <右下腹痛伴嘔吐> "

問題:

詹妮弗·安妮斯頓出演了一部1994年上映的美國情景劇,這部美劇共有多少集?

查詢語句:

select ?y where {?x<主演><詹妮弗·安妮斯頓>.?x<上映時間>""1994"".?x<集數>?y.}

答案:

"236"

本次CCKS評測任務中還添加了排序、過濾條件、聚合函數、limit等問題,例如:

百分點科技榮獲“2021 CCKS知識圖譜問答大賽”季軍

在競賽過程中,百分點認知智能實驗室總結了本次評測任務的四大挑戰(zhàn):

知識圖譜量級巨大,檢索和召回復雜度高;

無效實體數量極多, 定位實體的難度較大;

賽題涉及的子任務多,且周期長,容易造成誤差傳播,且難以定位誤差;

自然語言問法變化多,復雜程度高,機器難以理解中文的博大精深。

百分點科技榮獲“2021 CCKS知識圖譜問答大賽”季軍

對此,百分點認知智能實驗室創(chuàng)造性地提出了信息檢索與語義解析結合的技術方案,通過實體鏈接、路徑生成、路徑排序等方式進行信息檢索和語義解析,形成集成互補,對比信息檢索和語義解析的答案路徑分數,選取分數更高的路徑,并結合NL2SQL算法,將知識圖譜與預訓練模型融合,通過邏輯推理進行復雜問題查詢,讓問答查詢更接近于人的解析能力,更接近強人工智能。

業(yè)務賦能

實現復雜場景問題查詢

本次評測得分及獲獎證明該技術方案性能優(yōu)異,執(zhí)行效率高,具有良好的可擴展性,適用于眾多不同業(yè)務場景的知識圖譜系統(tǒng)中,能夠實現多跳和夾式等包含多種語法現象的復雜問題的查詢。

百分點科技榮獲“2021 CCKS知識圖譜問答大賽”季軍

例如,在“運動員李娜的丈夫的主要獎項有哪些”問題查詢中,首先進行語義解析生成Sparql語句。

第一步:利用句法解析技術,我們將其中與“修飾”關系相關的字詞取出,得到“運動員-李娜&李娜-丈夫&丈夫-獎項&主要-獎。

第二步:利用百分點科技自研的基于知識圖譜的知識預訓練生成模型對問句進行語義解析,按照從序列到樹的形式,先生成問句的意圖,再生成意圖的中間路徑,然后生成問句中實體的約束條件,最終合并得到解析后的Sparql語。

但由于直接生成的Sparql可能與KG中存在的實體關系有差異,例如“李娜”的“丈夫”是用“配偶”存儲的,故不能直接查詢到答案。因此,百分點科技從Sparql中的實體出發(fā)(若不存在該實體,則利用信息檢索中的實體鏈接模塊),生成候選路徑,以Sparql為參考,彌補差異。

知識圖譜、NLP

數據智能技術應用實踐

本次評測任務屬于中文知識圖譜自然語言問答任務,是百分點認知智能實驗室的重點研究方向。

早在2018年,百分點科技就成立了認知智能實驗室,并將自然語言處理技術(NLP)與知識圖譜技術相結合,將非結構化數據集成到知識圖譜產品系統(tǒng)中,通過語音識別、機器視覺和自然語言處理技術(NLP)從多模態(tài)數據中提取語義標簽,并融合知識圖譜技術將其轉化為知識,基于在知識理解、知識問答和知識挖掘方面的優(yōu)勢,幫助客戶進行科學、精準的決策。

實踐中,百分點科技不斷實現創(chuàng)新突破,尤其是對認知層和決策層的智能技術和產品的投入,依托自然語言處理等技術,為客戶提供最前沿、最全面的技術產品支撐。

目前,百分點認知智能實驗室已經打造了業(yè)界領先的AI認知引擎,推出了智能問答機器人、智能翻譯系統(tǒng)和智能審校系統(tǒng)等認知智能產品。

未來,百分點科技將繼續(xù)深耕數據智能領域,充分發(fā)揮大數據全棧技術和NLP、知識圖譜、智能交互等認知智能技術的優(yōu)勢,服務更多政府和企業(yè)進行智能化轉型,助推數字經濟產業(yè)發(fā)展。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )