“重復(fù)”內(nèi)容識(shí)別:一場(chǎng)人類與機(jī)器間的智能競(jìng)賽

有時(shí)候,人類與機(jī)器在判斷哪些內(nèi)容屬于“重復(fù)內(nèi)容”時(shí)會(huì)產(chǎn)生某些分歧。

機(jī)器學(xué)習(xí)與基于算法的智能系統(tǒng)雖然擁有令人印象深刻的表現(xiàn),但同時(shí)也缺少人類天然存在的一種能力:常識(shí)。

眾所周知,在多個(gè)頁面上放置相同的內(nèi)容會(huì)產(chǎn)生重復(fù)內(nèi)容。但是,如果我們打算在多個(gè)頁面內(nèi)生成關(guān)于相似事物的內(nèi)容,又會(huì)發(fā)生怎樣的情況?算法會(huì)將其標(biāo)記為“重復(fù)”,但人類則能夠輕松區(qū)分這些頁面:

-電子商務(wù):具有多種變體或關(guān)鍵差異的類似產(chǎn)品。

-旅游:酒店分店、目的地套餐、內(nèi)容相似。

-分類:相同項(xiàng)目的詳盡清單。

-企業(yè):本地分支機(jī)構(gòu)的頁面,在不同地區(qū)提供相同的服務(wù)。

為什么會(huì)出現(xiàn)這些問題?我們?cè)撊绾伟l(fā)現(xiàn)此類問題?又應(yīng)怎樣解決這些問題?

重復(fù)內(nèi)容的風(fēng)險(xiǎn)

在用戶進(jìn)行搜索時(shí),重復(fù)內(nèi)容會(huì)通過以下方式影響您的網(wǎng)站對(duì)用戶的可見性:

-因無意中存在相同關(guān)鍵詞而失去唯一匹配網(wǎng)頁的排名。

-由于谷歌只會(huì)選擇其中一個(gè)網(wǎng)頁作為規(guī)范化,因此無法對(duì)群組中的網(wǎng)頁進(jìn)行排名。

-由于內(nèi)容被嚴(yán)重簡(jiǎn)化,因此失去網(wǎng)站權(quán)威性。

機(jī)器如何識(shí)別重復(fù)內(nèi)容

谷歌公司利用多種算法確定兩個(gè)頁面或者頁面中的多個(gè)部分是否存在內(nèi)容重復(fù),谷歌將根據(jù)相關(guān)結(jié)果將內(nèi)容判定為“明顯相似”。

谷歌公司的相似性檢測(cè)基于其專利Simhash算法。這種算法能夠分析網(wǎng)頁當(dāng)中的內(nèi)容塊,而后將每個(gè)內(nèi)容塊計(jì)算為唯一標(biāo)識(shí)符,最終為各個(gè)頁面生成一個(gè)散列,或者稱為“指紋”。

由于網(wǎng)頁數(shù)量巨大,因此可擴(kuò)展性至關(guān)重要。目前,Simhash是唯一可行的大規(guī)模重復(fù)內(nèi)容查找方法。

Simhash指紋擁有以下特性:

-計(jì)算成本低廉。其以目標(biāo)頁面的單一爬取結(jié)果為生成基礎(chǔ)。

-由于長(zhǎng)度固定,因此不同指紋間易于比較。

-能夠找到具有高重復(fù)可能性的內(nèi)容。與其它多種算法不同,Simhash能夠?qū)㈨撁嫔系奈⑿∽兓w現(xiàn)為散列中的微小變化。

最后一點(diǎn)意味著任何兩個(gè)指紋之間的差異都可以通過算法進(jìn)行衡量,并表示為百分比形式。為了降低每個(gè)頁面的評(píng)估成本,谷歌公司采用了以下技術(shù):

-聚類:將多組具有一定相似度的頁面分于同一群組。由于其它所有不同分類的指紋都已經(jīng)被排除,因此只需要比較該群組內(nèi)的指紋,即可得出相對(duì)正確的結(jié)論。

-評(píng)估:對(duì)于規(guī)模極為龐大的聚類,在計(jì)算一定數(shù)量的指紋之后利用平均相似性進(jìn)行判斷。

比較頁面指紋。圖片來源:用于網(wǎng)絡(luò)爬取的近重復(fù)文檔檢測(cè)(歸谷歌所有)

最后,谷歌方面利用加權(quán)相似率排除具有相同內(nèi)容的特定內(nèi)容塊(樣板:標(biāo)題、導(dǎo)航、側(cè)邊欄、頁腳;免責(zé)聲明等)。其會(huì)考慮到頁面主題,并利用n-gram分析來確定頁面上出現(xiàn)頻率最高的詞語,同時(shí)結(jié)合站點(diǎn)上下文判斷這些詞語的重要性。

利用Simhash分析重復(fù)內(nèi)容

我們將利用Simhash查看被標(biāo)記為相似的內(nèi)容聚類圖。此圖表來自O(shè)nCrawl,其中涵蓋了對(duì)重復(fù)內(nèi)容聚類中重復(fù)內(nèi)容策略的分析過程。

OnCrawl的內(nèi)容分析還包括相似率、內(nèi)容聚類以及n-gram分析。OnCrawl也在開發(fā)一款實(shí)驗(yàn)性熱圖,希望直接覆蓋在網(wǎng)頁之上表示各個(gè)內(nèi)容塊的相似性。

按內(nèi)容相似性進(jìn)行網(wǎng)站繪圖。其中每個(gè)塊代表具有類似內(nèi)容的聚類,不同顏色則表示每個(gè)聚類間規(guī)范化化策略的一致性。資源來源:OnCrawl。

利用規(guī)范化進(jìn)行聚類驗(yàn)證

利用規(guī)范化URL指示一組相似頁面當(dāng)中的主頁面,使得我們能夠主動(dòng)對(duì)大量頁面進(jìn)行聚類。在理想情況下,以規(guī)范化為基礎(chǔ)建立的聚類應(yīng)該與由Simhash建立的聚類完全相同。

規(guī)范化聚類與相似性聚類(綠色部分)間的匹配結(jié)果。結(jié)論:有6頁內(nèi)容為100%相似,這意味著您的規(guī)范化策略與谷歌的Simhash分析以同樣的方式對(duì)其進(jìn)行處理。

如果結(jié)果與上圖不符,則通常意味著您的網(wǎng)站之上不存在規(guī)范化策略:

無規(guī)范化聲明:各個(gè)包含成百上千個(gè)頁面的聚類之間,擁有著99%到100%的平均相似度。谷歌公司可能會(huì)采用規(guī)范URL。您無法控制哪些頁面參與排名,哪些不參與。

或者,由于您的規(guī)范化策略與谷歌在類似內(nèi)容的聚類處理方法之間存在沖突:

規(guī)范化問題:相似性超過80%且各聚類擁有多個(gè)標(biāo)準(zhǔn)URL的大型聚類。谷歌公司會(huì)強(qiáng)制使用自己的標(biāo)準(zhǔn)URL,或者將您希望保留的重復(fù)頁面索引排除在搜索索引之外。

您網(wǎng)站的聚類與以上聚類不同。您已經(jīng)遵循了重復(fù)內(nèi)容的最佳處理實(shí)踐,包含相同內(nèi)容的URL(例如可打?。苿?dòng)版本或CMS生成的備用網(wǎng)址)會(huì)聲明正確的規(guī)范URL。

在規(guī)范化處理后繪制出的相似性聚類。

過濾掉由規(guī)范化策略正確處理的重復(fù)內(nèi)容。其余的非規(guī)范化URL即為您希望進(jìn)行排名的頁面。

以原有映射圖為基礎(chǔ),移除已驗(yàn)證(綠色)聚類以及相似性低于80%的聚類。其余46個(gè)聚類中,大部分只包含2個(gè)頁面。

仍然出現(xiàn)在基于Simhash與語義分析聚類中的URL,即為您與谷歌認(rèn)為存在重復(fù)問題的頁面。

12下一頁>

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2019-03-07
“重復(fù)”內(nèi)容識(shí)別:一場(chǎng)人類與機(jī)器間的智能競(jìng)賽
有時(shí)候,人類與機(jī)器在判斷哪些內(nèi)容屬于“重復(fù)內(nèi)容”時(shí)會(huì)產(chǎn)生某些分歧。機(jī)器學(xué)習(xí)與基于算法的智能系統(tǒng)雖然擁有令人印象深刻的表現(xiàn),但同時(shí)也缺少人類天然存在的一種能力:常識(shí)。

長(zhǎng)按掃碼 閱讀全文