SEO算法解析系列之:搜索引擎對復(fù)制網(wǎng)頁的算法

2023-10-22 未知黑帽SEO 次

我們講述了重復(fù)內(nèi)容即復(fù)制頁面對SEO的影響以及可以采取的應(yīng)付對策，現(xiàn)在我們來談?wù)勊阉饕婢唧w是如何判斷復(fù)制網(wǎng)頁這一基礎(chǔ)算法。以下我主要從SEO的角度來簡單談?wù)勊阉饕媸侨绾闻卸◤?fù)制網(wǎng)頁的，如果想更深入地了解這一基本原理，可以參考《搜索引擎——原理、技術(shù)與系統(tǒng)》（李曉明等著）和《搜索引擎原理、實(shí)踐與應(yīng)用》（盧亮、張博文編著）這兩本書。
首先，搜索引擎對所索引的所有網(wǎng)頁進(jìn)行頁面凈化和內(nèi)部消重。
任何一家搜索引擎在尚未進(jìn)行復(fù)制網(wǎng)頁判斷這一操作之前都定然會有個網(wǎng)頁凈化和內(nèi)部消重的過程。搜索引擎首先要清除噪音內(nèi)容，對網(wǎng)頁內(nèi)部的廣告、版權(quán)信息、共同的頁眉頁腳部分等進(jìn)行凈化，然后提取出該頁面的主題以及和主題相關(guān)的內(nèi)容，用以排名工作，噪音內(nèi)容是不計入排名權(quán)重之中的。消重也差不多是這個意思，搜索引擎對其所收集的網(wǎng)頁集里面主題相同或極端相似的，比如同一模板之中多次出現(xiàn)的共同代碼，將其作為冗余內(nèi)容，進(jìn)行消除。
我們可以這樣理解，最理想的狀態(tài)之下，一篇原創(chuàng)文章，搜索引擎僅將標(biāo)題和內(nèi)容計入排名之中，其他全部都消除。
DocView模型就是一個自動分類和消重的模型，當(dāng)然，不是非常準(zhǔn)確。大家可以簡單了解一下，DocView模型包括網(wǎng)頁表識、網(wǎng)頁類型、內(nèi)容類別、標(biāo)題、關(guān)鍵詞、摘要、正文、相關(guān)鏈接等要素，它通過提取DocView模型要素的方法應(yīng)用在網(wǎng)頁自動分類和網(wǎng)頁消重之中。
通過了解以上內(nèi)容，我們就能大致明白，同一篇文章，為什么放到兩個完全不同模板的站點(diǎn)之上，搜索引擎仍然能夠正確識別出這是一個復(fù)制頁面的原因了吧。
其次，搜索引擎對凈化的頁面進(jìn)行重復(fù)內(nèi)容的判斷。
那么搜索引擎具體是如何判斷復(fù)制頁面的呢？以下內(nèi)容是北大天網(wǎng)搜索引擎的去重算法，大部分來自對《搜索引擎——原理、技術(shù)與系統(tǒng)》相關(guān)知識的整理，大家可以自行參考相關(guān)文檔。
現(xiàn)有方法大致可以分為以下三類：
1、利用內(nèi)容計算相似
2、結(jié)合內(nèi)容和鏈接關(guān)系計算相似
3、結(jié)合內(nèi)容，鏈接關(guān)系以及url文字進(jìn)行相似計算
現(xiàn)有絕大部分方法還是利用文本內(nèi)容進(jìn)行相似識別，其它兩種利用鏈接關(guān)系以及URL文字的方法還不是很成熟，而且從效果看引入其它特征收效并不明顯，所以從實(shí)際出發(fā)還是選擇利用內(nèi)容進(jìn)行相似計算的算法。
搜索引擎判斷復(fù)制網(wǎng)頁一般都基于這么一個思想：為每個網(wǎng)頁計算出一組信息指紋（信息指紋，英文是Fingerprint，就是把網(wǎng)頁里面正文信息，提取一定的信息，可以是關(guān)鍵字、詞、句子或者段落及其在網(wǎng)頁里面的權(quán)重等，對它進(jìn)行加密，如MD5加密，從而形成的一個字符串。信息指紋如同人的指紋，只要內(nèi)容不相同，信息指紋就不一樣。搜索引擎在對爬取的網(wǎng)頁建立索引的時候需要對重復(fù)內(nèi)容的網(wǎng)頁進(jìn)行識別和消重，這就要用到信息指紋），若兩個網(wǎng)頁有一定數(shù)量相同的信息指紋，則認(rèn)為這兩個網(wǎng)頁的內(nèi)容重疊性很高，也就是說兩個網(wǎng)頁是內(nèi)容復(fù)制的。注意一點(diǎn)，算法提取的信息不是針對整張網(wǎng)頁，而是把網(wǎng)站里面共同的部分如導(dǎo)航條、logo、版權(quán)等這些網(wǎng)頁的噪音信息過濾掉后剩下的文本。

很多搜索引擎判斷內(nèi)容復(fù)制的方法都不太一樣，主要是以下兩點(diǎn)的不同：
1、計算信息指紋的算法；
2、判斷信息指紋的相似程度的參數(shù)。
部分算法簡介：
1、分段簽名算法
這種算法是按照一定的規(guī)則把網(wǎng)頁切成N段，對每一段進(jìn)行簽名，形成每一段的信息指紋。如果這N個信息指紋里面有M個相同時（m是系統(tǒng)定義的闕值），則認(rèn)為兩者是復(fù)制網(wǎng)頁。這種算法對于小規(guī)模的判斷復(fù)制網(wǎng)頁是很好的一種算法，但是對于像Google這樣海量的搜索引擎來說，算法的復(fù)雜度相當(dāng)高。
2、基于關(guān)鍵詞的復(fù)制網(wǎng)頁算法
像Google這類搜索引擎，他在抓取網(wǎng)頁的時候都會記下網(wǎng)頁中出現(xiàn)的關(guān)鍵詞（中文分詞技術(shù)）以及每個關(guān)鍵詞的權(quán)重（關(guān)鍵詞密度）以及提取meta descrīption或者每個網(wǎng)頁的512個字節(jié)的有效文字。
假設(shè)我們約定Pi表示第i個網(wǎng)頁；該網(wǎng)頁權(quán)重最高的N個關(guān)鍵詞構(gòu)成集合Ti={t1,t2,...tn}，其對應(yīng)的權(quán)重為Wi={w1,w2,...wi}，摘要信息用Des(Pi)表示，前n個關(guān)鍵詞拼成的字符串用Con(Ti)表示，對這n個關(guān)鍵詞排序后形成的字符串用Sort(Ti)表示。
以上信息指紋都用MD5函數(shù)進(jìn)行加密。
基于關(guān)鍵詞的復(fù)制網(wǎng)頁算法有以下5種：
1、MD5(Des(Pi))=MD5(Des(Pj)),就是說摘要信息完全一樣，i和j兩個網(wǎng)頁就認(rèn)為是復(fù)制網(wǎng)頁；
2、MD5(Con(Ti))=MD5(Con(Tj)),兩個網(wǎng)頁前n個關(guān)鍵詞及其權(quán)重的排序一樣，就認(rèn)為是復(fù)制網(wǎng)頁；
3、MD5(Sort(Ti))=MD5(Sort(Tj)),兩個網(wǎng)頁前n個關(guān)鍵詞一樣，權(quán)重可以不一樣，也認(rèn)為是復(fù)制網(wǎng)頁。
4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個闕值a，則認(rèn)為兩者是復(fù)制網(wǎng)頁。
5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個闕值a，則認(rèn)為兩者是復(fù)制網(wǎng)頁。
關(guān)于第4和第5的那個闕值a,主要是因?yàn)榍耙粋€判斷條件下，還是會有很多網(wǎng)頁被誤傷，搜索引擎開發(fā)根據(jù)權(quán)重的分布比例進(jìn)行調(diào)節(jié)，防止誤傷。
以上5種算法運(yùn)行的時候，算法的效果取決于N，就是關(guān)鍵詞數(shù)目的選取。選的數(shù)量越多，判斷就會越精確，但是計算速度也會越慢。所以必須考慮一個計算速度和去重準(zhǔn)確率的平衡，根據(jù)試驗(yàn)結(jié)果，10個左右關(guān)鍵詞最為恰當(dāng)。
當(dāng)然，以上算法只是給SEO一個思路而已，并非搜索引擎判斷復(fù)制網(wǎng)頁的全部算法。只要在SEO的過程中注意原創(chuàng)和“偽原創(chuàng)”，大可不必太在乎這個算法。

責(zé)任編輯：SEO算法解析系列之:搜索引擎對復(fù)制網(wǎng)頁的算法

上篇：搜索引擎如何識別文本通順原創(chuàng)度？

下篇：大話SALSA算法

Google搜索引擎的核心算法有哪些？	利用TF-IDF算法提高網(wǎng)頁關(guān)鍵詞排名
語義分析在SEO中的運(yùn)用（語義搜索對SEO的影響）	基于詞頻和關(guān)鍵詞位置統(tǒng)計排序SEO算法
bm25算法對SEO的深遠(yuǎn)影響（bm25算法和tf-idf算法的優(yōu)	seo算法:淺析詞頻位置加權(quán)排序算法
聊聊搜索引擎算法的投票機(jī)制	SEO核心算法：依據(jù)余弦相似性找主題相關(guān)文章
SEO核心算法：利用用戶點(diǎn)擊記錄改善搜索結(jié)果	搜索引擎指紋算法匯總，幫助你網(wǎng)站內(nèi)容收錄更
SEO算法深度分析之倒排索引，來解釋SEO排名的問	Direct Hit算法-快速排名算法原理
SEO的貝葉斯算法與偽命題	Shingle網(wǎng)頁去重算法對SEO聚合頁的影響
Hilltop算法學(xué)習(xí)及實(shí)戰(zhàn)感悟	大話SALSA算法
搜索引擎如何識別文本通順原創(chuàng)度？	SEO深度解讀之HITS鏈接分析算法
SEO算法：中文分詞技術(shù)原理與應(yīng)用！	百度內(nèi)部核心算法信任值與推薦度分析！

最近中文字幕完整视频高清1_国产高清免费的视频_女人一级毛片_亚洲一区二区三区首页

SEO算法解析系列之:搜索引擎對復(fù)制網(wǎng)頁的算法

相關(guān)文章