人工智能和機器學習仍然是全球持續(xù)增長的領域之一,近年來涌現(xiàn)出越來越多本科生或者非人工智能專業(yè)出身的工程師,他們努力學習和使用技術來改進產(chǎn)品,幾乎每天都有新的機器學習技術和框架發(fā)布。這篇文章將討論領英如何規(guī)模化利用技術,幫助更多工程師提升機器學習的效率。近日,領英中國機器學習研發(fā)經(jīng)理李子在IEEE數(shù)據(jù)挖掘國際會議(ICDM)上分享了領英是如何規(guī)模化開展機器學習,介紹領英的核心產(chǎn)品以及如何利用技術幫助更多工程師提升機器學習的效率。
Pro-ML提升機器學習效率
AI技術堆棧開發(fā)各自的產(chǎn)品。,這種做法無法有效實現(xiàn)規(guī)?;驗槊總€團隊使用的技術不同,從邏輯回歸到深度學習,從Pig 、 Hive、Spark到Scalding等等,團隊之間的AI技術堆棧很難共享協(xié)作。所以領英希望在招入新的工程師或是開發(fā)新功能、使用新技術時,盡可能減少大家的負擔。此外,近年來很多人工智能領域的從業(yè)者其實并不是人工智能專業(yè)出身,領英的AI基礎架構對他們來說過于復雜,難以用來構建、迭代模型。
為了高效地促進機器學習規(guī)?;?,領英構建了名為“Productive Machine Learning”(高效機器學習)的項目,簡稱Pro-ML。Pro-ML的目標是將AI工程師的工作效率翻一番,讓他們能更輕松、更高效地構建模型。在過去十年里領英發(fā)現(xiàn),模型性能與模型更新速度直接相關。因此,如果能讓工程師加快模型迭代速度,那么模型性能也會提高。
具體來說Pro-ML采用分層解決方案,目標是提高整個模型開發(fā)周期的效率,從模型探索和構建(Exploring and Authoring),到模型訓練(Training)、模型部署(Deploying)、模型運行(Running),再到持續(xù)監(jiān)控模型狀態(tài)。領英希望把所有常規(guī)工作自動化,這樣算法工程師就能更加聚焦于創(chuàng)新。
Pro-ML中有兩個工具貫穿剛剛提到的所有階段:一個是Feature Marketplace,另一個是Health Assurance Layer。在Feature Marketplace,領英使用先進的技術來生成、共享和管理新特征。AI建模的核心是特征工程(Feature Engineering),領英有數(shù)百名工程師和數(shù)萬種正在研究的特征。提高工程師生成、共享和管理特征的效率,對于提高他們的工作效率至關重要。
而Health Assurance Layer可以在整個開發(fā)周期中持續(xù)監(jiān)控模型狀態(tài)。比如,它確保用于模型訓練的離線特征和用于在線推理的在線特征在統(tǒng)計意義上一致或近似,同時確保在線模型的良好性能。比如在預測分數(shù)的時候,工程師希望在線打的分與離線訓練的分數(shù)精度一致。一旦Health Assurance Layer檢測到異常,會自動提醒工程師,然后工程師可以介入,進行調(diào)試。Health Assurance Layer還提供了很多有用的工具,幫助工程師進一步確認問題所在。是代碼出錯?還是數(shù)據(jù)缺失?還是僅僅因為模型老舊,需要重新訓練?
Pro-ML提升效率的第一步——探索與授權
建模過程實際上始于對問題的探索。目標是什么?目標函數(shù)是什么?有什么特征?數(shù)據(jù)有哪些?對于這些問題,工程師需要做無數(shù)個實驗來探索數(shù)據(jù),進行特征工程,調(diào)整模型和超參數(shù)。為了提高這一階段的工作效率,領英構建了集成了 Pro-ML內(nèi)核的Jupyter Notebook。在Jupyter Notebook的幫助下,工程師可以一步一步地進行數(shù)據(jù)探索、特征選擇和模型繪制,并以交互的方式做實驗。Jupyter Notebook由領英的Spark集群提供計算資源,這樣工程師就可以在線完成工作而不需要把數(shù)據(jù)下載到本地,不僅提高了他們的工作效率,同時也保護了用戶隱私。
多種工具高效協(xié)助模型訓練
眾所周知,一個模型實際上有兩個關鍵組成部分,一個是特征,另一個是算法。首先來看一下特征。如前所述,特征工程是AI建模的核心所在。在領英,為了提高學習效率,領英構建的框架Feature Marketplace可以讓工程師可以有效地生成、發(fā)現(xiàn)、共享和管理特征。工程師可以將特征共享到Feature Marketplace上以便其他人使用,也可以按名稱搜索特征,發(fā)現(xiàn)該特征并獲取關于該特征的所有信息,例如特征的創(chuàng)建者、特征是如何生成的、特征應用在哪些領英的模型中以特征的統(tǒng)計分布等等,所有這些問題都可以在Feature Marketplace找到答案。Feature Marketplace還為工程師提供了諸多切實有用的工具,幫助工程師選擇特征以及持續(xù)監(jiān)控和驗證特征。通過Feature Marketplace,工程師可以快速找到建模所需的特征。
不過,F(xiàn)eature Marketplace也面臨著挑戰(zhàn):如何確保工程師能夠得到他們所需要的么,比如在線和離線特征是一致的。如果做了大量離線實驗,收集好的特征用于建模,那么這個模型可能會表現(xiàn)得很好,但不能保證在線的時候這個特征是穩(wěn)定的,如果不穩(wěn)定,那模型性能可能會下降。事實上,這種事故在過去幾年屢見不鮮。為了解決這個問題,領英構建了一個工具稱為Frame。Frame是一個基于相同配置和相同公共庫離線和在線生成特征的平臺,保證了離線和在線的一致性。領英向工程師提供操作細節(jié),工程師只需要在Quasar模型中指定特征的名稱,就可以保證在線和離線獲取特征的一致性。
特征集齊后就需要算法。領英支持深度學習、決策樹算法、Generalized Linear Mixed Model (GLMix)等多種算法。在深度學習的場景中,領英使用Tensorflow;在決策樹算法的場景中使用XGBoost,兩者都是第三方庫。對于GLMix,領英研發(fā)并開源了一個機器學習庫叫做Photon。GLMix模型大大提高了職位推薦系統(tǒng)的性能,成功使職位申請數(shù)量增加了20%。
根據(jù)特征和算法,領英構建了Photon Connect訓練引擎,把上述所有組件連接起來。Photon Connect用Frame來訪問特征,并將特征與標簽數(shù)據(jù)連接起來,然后將數(shù)據(jù)傳輸至Quasar模型進行特征轉換。在這個階段,Quasar模型的參數(shù)是未知的,領英利用Quasar模型進行特征轉換,然后使用算法來學習這些參數(shù)。學習到的參數(shù)會插入到Quasar模型中。這樣,一個Quasar模型建模就完成了,它可以直接部署到線上服務中。
領英的機器學習與Pro-ML團隊
經(jīng)過十年的快速發(fā)展和實驗后,領英將人工智能團隊與產(chǎn)品團隊緊密地聯(lián)系在一起,使機器學習團隊能夠與致力于解決類似難題的同行專家合作并分享最佳實踐。
類似地,Pro-ML團隊圍繞五個主要支柱構建,每個支柱都支持模型開發(fā)生命周期的一個階段。通常,每個支柱都有一個負責人(通常是一名工程師)、一個技術負責人和幾個工程師。這些工程師也來自各個組織,包括產(chǎn)品工程組織、基礎/工具組織和基礎架構團隊。Pro-ML團隊分布在世界各地,包括班加羅爾、歐洲和美國多個地方。領英還擁有一個領導團隊,幫助制定項目愿景,并且最重要的是致力于消除摩擦,以便每一個支柱能夠獨立存在。
Pro-ML將增加能夠利用人工智能的產(chǎn)品數(shù)量,并擴大能夠培訓和部署模型的團隊數(shù)量。此外,它將減少模型選擇、部署等所需的時間,并使Health Assurance等關鍵領域自動化。領英現(xiàn)在已經(jīng)花了一年多的時間來改造人工智能,使其能保持快速、高效和可操作性,擴展到所有工程領域。它讓工程師有更多的時間去做他們最擅長的事情:利用領英獨特的高度結構化的數(shù)據(jù)集,為棘手的技術問題找到創(chuàng)造性的解決方案。
從 2014 年進入中國開始,領英不斷地探索著中國這片獨具特點的市場,在中國北京和美國硅谷從無到有,構建了一支超過 100人的本土研發(fā)團隊,兩地團隊以“One Team”的形式協(xié)作,利用總部的技術資源優(yōu)勢,希望推動中國市場完成本地化產(chǎn)品與技術創(chuàng)新。未來領英也將進一步依靠 AI 和大數(shù)據(jù)技術升級優(yōu)化用戶體驗。如果你也想加入領英中國這支強大的研發(fā)團隊,歡迎點擊下方鏈接/掃描二維碼,查看并申請職位吧!
- “黑科技”亮相第三屆軟件創(chuàng)新發(fā)展大會 AI+VR駕駛模擬器引關注
- 哈啰Robotaxi破局之戰(zhàn):30億大手筆能否打破行業(yè)僵局?
- 小猿AI智慧教育引領行業(yè)新潮流,下載量飆升榜首,重塑學習新體驗
- 穩(wěn)定幣風波再起,京東嚴正聲明:堅決維護市場秩序
- 知乎直答升級:解鎖訂閱與內(nèi)容分享,探索知識新玩法!
- 百望股份攜手沐曦集成電路,共創(chuàng)智能芯片新紀元
- 螞蟻科技開放香港四大核心技術:助力香港區(qū)塊鏈與人工智能發(fā)展,打造未來科技新生態(tài)
- 福特CEO反思中國電動汽車崛起:中國速度引發(fā)深思,電動汽車發(fā)展如何令人自慚形穢
- 小馬智行第七代Robotaxi落地新加坡:打破自動駕駛落地之困?
- 蘋果將推廉價版MacBook:破繭之作,A18 Pro芯片領銜,輕薄與性能并存
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。