有時(shí)候,人類與機(jī)器在判斷哪些內(nèi)容屬于“重復(fù)內(nèi)容”時(shí)會(huì)產(chǎn)生某些分歧。
機(jī)器學(xué)習(xí)與基于算法的智能系統(tǒng)雖然擁有令人印象深刻的表現(xiàn),但同時(shí)也缺少人類天然存在的一種能力:常識(shí)。
眾所周知,在多個(gè)頁面上放置相同的內(nèi)容會(huì)產(chǎn)生重復(fù)內(nèi)容。但是,如果我們打算在多個(gè)頁面內(nèi)生成關(guān)于相似事物的內(nèi)容,又會(huì)發(fā)生怎樣的情況?算法會(huì)將其標(biāo)記為“重復(fù)”,但人類則能夠輕松區(qū)分這些頁面:
-電子商務(wù):具有多種變體或關(guān)鍵差異的類似產(chǎn)品。
-旅游:酒店分店、目的地套餐、內(nèi)容相似。
-分類:相同項(xiàng)目的詳盡清單。
-企業(yè):本地分支機(jī)構(gòu)的頁面,在不同地區(qū)提供相同的服務(wù)。
為什么會(huì)出現(xiàn)這些問題?我們?cè)撊绾伟l(fā)現(xiàn)此類問題?又應(yīng)怎樣解決這些問題?
重復(fù)內(nèi)容的風(fēng)險(xiǎn)
在用戶進(jìn)行搜索時(shí),重復(fù)內(nèi)容會(huì)通過以下方式影響您的網(wǎng)站對(duì)用戶的可見性:
-因無意中存在相同關(guān)鍵詞而失去唯一匹配網(wǎng)頁的排名。
-由于谷歌只會(huì)選擇其中一個(gè)網(wǎng)頁作為規(guī)范化,因此無法對(duì)群組中的網(wǎng)頁進(jìn)行排名。
-由于內(nèi)容被嚴(yán)重簡(jiǎn)化,因此失去網(wǎng)站權(quán)威性。
機(jī)器如何識(shí)別重復(fù)內(nèi)容
谷歌公司利用多種算法確定兩個(gè)頁面或者頁面中的多個(gè)部分是否存在內(nèi)容重復(fù),谷歌將根據(jù)相關(guān)結(jié)果將內(nèi)容判定為“明顯相似”。
谷歌公司的相似性檢測(cè)基于其專利Simhash算法。這種算法能夠分析網(wǎng)頁當(dāng)中的內(nèi)容塊,而后將每個(gè)內(nèi)容塊計(jì)算為唯一標(biāo)識(shí)符,最終為各個(gè)頁面生成一個(gè)散列,或者稱為“指紋”。
由于網(wǎng)頁數(shù)量巨大,因此可擴(kuò)展性至關(guān)重要。目前,Simhash是唯一可行的大規(guī)模重復(fù)內(nèi)容查找方法。
Simhash指紋擁有以下特性:
-計(jì)算成本低廉。其以目標(biāo)頁面的單一爬取結(jié)果為生成基礎(chǔ)。
-由于長(zhǎng)度固定,因此不同指紋間易于比較。
-能夠找到具有高重復(fù)可能性的內(nèi)容。與其它多種算法不同,Simhash能夠?qū)㈨撁嫔系奈⑿∽兓w現(xiàn)為散列中的微小變化。
最后一點(diǎn)意味著任何兩個(gè)指紋之間的差異都可以通過算法進(jìn)行衡量,并表示為百分比形式。為了降低每個(gè)頁面的評(píng)估成本,谷歌公司采用了以下技術(shù):
-聚類:將多組具有一定相似度的頁面分于同一群組。由于其它所有不同分類的指紋都已經(jīng)被排除,因此只需要比較該群組內(nèi)的指紋,即可得出相對(duì)正確的結(jié)論。
-評(píng)估:對(duì)于規(guī)模極為龐大的聚類,在計(jì)算一定數(shù)量的指紋之后利用平均相似性進(jìn)行判斷。
比較頁面指紋。圖片來源:用于網(wǎng)絡(luò)爬取的近重復(fù)文檔檢測(cè)(歸谷歌所有)
最后,谷歌方面利用加權(quán)相似率排除具有相同內(nèi)容的特定內(nèi)容塊(樣板:標(biāo)題、導(dǎo)航、側(cè)邊欄、頁腳;免責(zé)聲明等)。其會(huì)考慮到頁面主題,并利用n-gram分析來確定頁面上出現(xiàn)頻率最高的詞語,同時(shí)結(jié)合站點(diǎn)上下文判斷這些詞語的重要性。
利用Simhash分析重復(fù)內(nèi)容
我們將利用Simhash查看被標(biāo)記為相似的內(nèi)容聚類圖。此圖表來自O(shè)nCrawl,其中涵蓋了對(duì)重復(fù)內(nèi)容聚類中重復(fù)內(nèi)容策略的分析過程。
OnCrawl的內(nèi)容分析還包括相似率、內(nèi)容聚類以及n-gram分析。OnCrawl也在開發(fā)一款實(shí)驗(yàn)性熱圖,希望直接覆蓋在網(wǎng)頁之上表示各個(gè)內(nèi)容塊的相似性。
按內(nèi)容相似性進(jìn)行網(wǎng)站繪圖。其中每個(gè)塊代表具有類似內(nèi)容的聚類,不同顏色則表示每個(gè)聚類間規(guī)范化化策略的一致性。資源來源:OnCrawl。
利用規(guī)范化進(jìn)行聚類驗(yàn)證
利用規(guī)范化URL指示一組相似頁面當(dāng)中的主頁面,使得我們能夠主動(dòng)對(duì)大量頁面進(jìn)行聚類。在理想情況下,以規(guī)范化為基礎(chǔ)建立的聚類應(yīng)該與由Simhash建立的聚類完全相同。
規(guī)范化聚類與相似性聚類(綠色部分)間的匹配結(jié)果。結(jié)論:有6頁內(nèi)容為100%相似,這意味著您的規(guī)范化策略與谷歌的Simhash分析以同樣的方式對(duì)其進(jìn)行處理。
如果結(jié)果與上圖不符,則通常意味著您的網(wǎng)站之上不存在規(guī)范化策略:
無規(guī)范化聲明:各個(gè)包含成百上千個(gè)頁面的聚類之間,擁有著99%到100%的平均相似度。谷歌公司可能會(huì)采用規(guī)范URL。您無法控制哪些頁面參與排名,哪些不參與。
或者,由于您的規(guī)范化策略與谷歌在類似內(nèi)容的聚類處理方法之間存在沖突:
規(guī)范化問題:相似性超過80%且各聚類擁有多個(gè)標(biāo)準(zhǔn)URL的大型聚類。谷歌公司會(huì)強(qiáng)制使用自己的標(biāo)準(zhǔn)URL,或者將您希望保留的重復(fù)頁面索引排除在搜索索引之外。
您網(wǎng)站的聚類與以上聚類不同。您已經(jīng)遵循了重復(fù)內(nèi)容的最佳處理實(shí)踐,包含相同內(nèi)容的URL(例如可打?。苿?dòng)版本或CMS生成的備用網(wǎng)址)會(huì)聲明正確的規(guī)范URL。
在規(guī)范化處理后繪制出的相似性聚類。
過濾掉由規(guī)范化策略正確處理的重復(fù)內(nèi)容。其余的非規(guī)范化URL即為您希望進(jìn)行排名的頁面。
以原有映射圖為基礎(chǔ),移除已驗(yàn)證(綠色)聚類以及相似性低于80%的聚類。其余46個(gè)聚類中,大部分只包含2個(gè)頁面。
仍然出現(xiàn)在基于Simhash與語義分析聚類中的URL,即為您與谷歌認(rèn)為存在重復(fù)問題的頁面。
12下一頁>(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )