信息流充斥在我們生活中的每一個角落,如同河流一樣哺育著每一個人。我們閱讀的每一條新聞、看的每一段視頻,一切通過信息流出現(xiàn)在我們眼前的東西,多多少少都受到了智能推薦的驅動。
自2016年開始,信息流幾乎進入了所有的頭部App。同時各個平臺間也開始暗自發(fā)力,希望掌握更強大的智能推薦算法。更好的智能推薦體驗,意味著更多流量和優(yōu)質的轉化率。那么智能推薦的技術支點究竟在哪?
主動與被動間的認知鴻溝,智能推薦如何才能了解用戶?
其實智能推薦的行為邏輯很簡單,那就是把適合的內容推薦給適合的用戶。但在簡單的行為邏輯中的,卻是智能推薦的本質:內容和用戶兩方面的雙向深度理解。
首先在對用戶的理解上,很多平臺都會陷入一個誤區(qū),那就是把用戶的被動反應當成了主動索求。
比如很多資訊類推薦平臺冷啟動時,都會讓用戶選擇自己感興趣的話題,這一行為就已經(jīng)把用戶畫像圈定在了平臺自己設置的范圍之內。實際這種理解用戶的方式略有片面,即使不斷挖掘也只能察覺到用戶在閱讀這一個場景中的狀態(tài),無法察覺用戶在閱讀中的喜好、無法察覺用戶當下的需求。
這也就形成了信息流最嚴重的污名——信息繭房,智能推薦只會根據(jù)用戶的興趣愛好推薦內容,久而久之用戶就會被自己關心的事物圍繞,從而失去對外界的整體認知。尤其當?shù)退?、獵奇、軟色情這些刺激眼球的信息出現(xiàn)時,人們難免會因為下意識的好奇進行瀏覽,這一典型的被動反應將相關的標簽加入了用戶畫像中,導致相關內容大量污染用戶的信息流。
其實有時候信息繭房的形成并非內容出產(chǎn)者和平臺故意灌輸帶有刺激性的內容給用戶,而是一些信息流產(chǎn)品缺少獲取用戶主動索取行為的途徑,猶如將用戶放置入一個狹小的環(huán)境中,用戶對環(huán)境產(chǎn)生的一點點反應都會在環(huán)境中形成反復的回聲??晌覀儫o法確定環(huán)境之外用戶的主動行為,從而形成了巨大的認知鴻溝。
了解內容才是在大數(shù)據(jù)外的硬實力
目前很多智能推薦算法了解用戶的方式,是利用數(shù)據(jù)挖掘捕捉用戶的每一次點擊、瀏覽行為,對大數(shù)據(jù)進行匯總、歸納和關聯(lián)。通過協(xié)同過濾算法,尋找用戶與用戶、內容與內容間的相似點,以此為依據(jù)為用戶推薦其他內容。這就涉及到了雙向深度理解的另一端,也就是對技術硬實力要求最高的內容理解。
和電商、音樂等平臺不同,資訊類平臺上的內容數(shù)量巨大,種類多而龐雜,加之內容本身作為消費品,為了換取流量貨幣,內容產(chǎn)出者很容易會使用標題黨甚至違規(guī)內容來吸引點擊。
舉個例子,當有熱門八卦發(fā)生時,會有很多作者在標題上提及熱門事件蹭熱度,內容卻與標題毫無關聯(lián)?;蛘哂凶髡咦约簽樽髌反钌蠚v史、科普等標簽,作品中的圖片、文字卻是軟色情內容。這時如果單純依靠用戶間共同喜好做協(xié)同過濾推薦,很容易造成推薦不準的情況。
可作為信息流產(chǎn)品,每天由大量作者出產(chǎn)大量內容,只利用人工審核分類是不實際的,利用人工智能技術對內容進行批量理解才是最好的選擇。對于圖片內容可以建立深度學習模型,用圖像識別分辨圖片是否涉及違規(guī)。對于文字,可以用自然語言處理技術和知識圖譜技術實現(xiàn)對內容的理解,分辨是否有文不對題的情況。像Facebook就應用深度學習技術分析了大量標題黨標題,建立了專門識別夸張標題的模型來減少標題黨狀況的存在。
很多資訊類平臺都為自己巨大的用戶量感到自豪,認為擁有大量用戶數(shù)據(jù)就可以無所不能,實際就是因為用戶量巨大,所以很難從用戶身上尋找到天然的共同點,需要更強大的技術能力,從用戶和內容兩方面進行挖掘,進而滿足個體用戶的深層需求。
資訊推薦謎題,大企業(yè)真的有天然優(yōu)勢嗎?
如果無法駕馭河流,結果往往是被河水淹沒。由于只依賴大數(shù)據(jù),缺乏足夠的自然語言處理、知識圖譜等雙向深度理解的技術底牌,在某些推薦算法主導的資訊類平臺上體現(xiàn)的最為顯著,出現(xiàn)了難以治理低俗內容、推薦不準確等等多種問題。
一個不得不承認的事實是,相比一些業(yè)務單一的平臺,BAT這類大廠有自身產(chǎn)品群豐富,又有足夠的人力和基本投身于人工智能技術建設,更容易做到智能推薦技術的雙向深度理解。
以在內容行業(yè)扎根很深的百度為例,相比很多內容平臺,百度信息流很少受到內容質量方面的詬病。
首先,百度豐富的產(chǎn)品群使得用戶畫像更加全面,尤其是搜索+信息流雙引擎的存在,使得用戶的行為更加一致和順暢。搜索可以有效矯正推薦算法在用戶需求分析上的偏差。讓用戶自己突破信息繭房。
第二點,則是百度自身的AI能力方面的優(yōu)勢,成為了百度信息流最重要的技術底牌。
百度長期做搜索產(chǎn)品,對知識圖譜、分詞技術有著大量累積,讓百度信息流可以更深入的理解文字內容,不僅能理解每一句話在說什么,還能精準的理解內容的感情傾向并為之加上標簽。利用知識圖譜的深度挖掘和關聯(lián)能力,構建起科普、娛樂、歷史等等細分類別的內容體系,從而實現(xiàn)更精準的內容推薦。
尤其對于圖片、短視頻這類富媒體內容,圖像識別技術就起到了重要作用。當需要對圖片內容進行審核和分類時,應用了卷積神經(jīng)網(wǎng)絡的圖像識別技術可以快速建立各種模型,實現(xiàn)對豐富的圖片內容進行認識和判斷,及時找到違規(guī)內容并進行處理。
借助于人工智能技術,通過對視頻內容的深刻理解和精準分析,百度可以為每一個小視頻提煉一個6~10秒的精彩摘要,便于用戶快速了解視頻內容。基于同樣的技術能力,還可以找出短視頻所對應的愛奇藝中的長視頻。而通過機器學習對視頻內容的特征向量進行提取,則為資訊平臺中每一段短視頻建立了獨一無二的視頻指紋,不僅僅能實現(xiàn)精準的匹配推薦,還可以保證視頻不被盜用,維護了內容創(chuàng)作者的權利。
還有一點,百度有熊掌號、百家號、百度新聞等等多種內容入口,加之百度正在通過“創(chuàng)作大腦”將人工智能技術開放給內容創(chuàng)作者,其中的視頻自動轉化圖文功能、自動識別圖片內容并提供相關信息等功能,都在吸引著更多優(yōu)質內容出產(chǎn)方加入百度內容生態(tài)之中,不光媒介結構更加豐滿,也給了用戶更充實的內容。同時人工編輯的存在也為百度信息流把握著內容價值觀的導向,為創(chuàng)作者驅逐劣幣,讓更多優(yōu)質內容留存下來。
和其他資訊類平臺不同,重金挖角KOL、高額補貼用戶和自媒體作者這些事情很少發(fā)生在百度信息流產(chǎn)品中。不難看出,當百度整體發(fā)展方向扭轉向人工智能時,技術優(yōu)勢讓百度信息流有能力實現(xiàn)用戶和內容雙向的深度理解,這是智能推薦背后真正的支點,也是一張全能的王牌。
當智能推薦的信息流已經(jīng)將我們的生活“包圍”,我們或許需要一些時間去習慣。但我們無需抗拒這一事實,當前的些許不適只是科技發(fā)展帶來的生長痛。
信息流本身就是一種受智能推薦技術驅動的產(chǎn)品,相信各個平臺對雙向深度理解的追逐不會停止,找對了支點就能將水流引向正確的方向。終有一天信息流不再是信息繭房的代言詞,而是如流水一般,哺育著我們對信息的渴求。
免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。