最近中文字幕完整视频高清1_国产高清免费的视频_女人一级毛片_亚洲一区二区三区首页

SEO算法解析系列之:搜索引擎對復(fù)制網(wǎng)頁的算法

2023-10-22 未知 黑帽SEO
SEO算法解析系列之:搜索引擎對復(fù)制網(wǎng)頁的算法

我們講述了重復(fù)內(nèi)容即復(fù)制頁面對SEO的影響以及可以采取的應(yīng)付對策,現(xiàn)在我們來談?wù)勊阉饕婢唧w是如何判斷復(fù)制網(wǎng)頁這一基礎(chǔ)算法。以下我主要從SEO的角度來簡單談?wù)勊阉饕媸侨绾闻卸◤?fù)制網(wǎng)頁的,如果想更深入地了解這一基本原理,可以參考《搜索引擎——原理、技術(shù)與系統(tǒng)》(李曉明等著)和 《搜索引擎原理、實(shí)踐與應(yīng)用》(盧亮、張博文編著)這兩本書。
首先,搜索引擎對所索引的所有網(wǎng)頁進(jìn)行頁面凈化和內(nèi)部消重。
任何一家搜索引擎在尚未進(jìn)行復(fù)制網(wǎng)頁判斷這一操作之前都定然會有個網(wǎng)頁凈化和內(nèi)部消重的過程。搜索引擎首先要清除噪音內(nèi)容,對網(wǎng)頁內(nèi)部的廣告、版權(quán)信息、共同的頁眉頁腳部分等進(jìn)行凈化,然后提取出該頁面的主題以及和主題相關(guān)的內(nèi)容,用以排名工作,噪音內(nèi)容是不計入排名權(quán)重之中的。消重也差不多是這個意思,搜索引擎對其所收集的網(wǎng)頁集里面主題相同或極端相似的,比如同一模板之中多次出現(xiàn)的共同代碼,將其作為冗余內(nèi)容,進(jìn)行消除。
我們可以這樣理解,最理想的狀態(tài)之下,一篇原創(chuàng)文章,搜索引擎僅將標(biāo)題和內(nèi)容計入排名之中,其他全部都消除。
DocView模型就是一個自動分類和消重的模型,當(dāng)然,不是非常準(zhǔn)確。大家可以簡單了解一下,DocView模型包括網(wǎng)頁表識、網(wǎng)頁類型、內(nèi)容類別、標(biāo)題、關(guān)鍵詞、摘要、正文、相關(guān)鏈接等要素,它通過提取DocView模型要素的方法應(yīng)用在網(wǎng)頁自動分類和網(wǎng)頁消重之中。
通過了解以上內(nèi)容,我們就能大致明白,同一篇文章,為什么放到兩個完全不同模板的站點(diǎn)之上,搜索引擎仍然能夠正確識別出這是一個復(fù)制頁面的原因了吧。
其次,搜索引擎對凈化的頁面進(jìn)行重復(fù)內(nèi)容的判斷。
那么搜索引擎具體是如何判斷復(fù)制頁面的呢?以下內(nèi)容是北大天網(wǎng)搜索引擎的去重算法,大部分來自對《搜索引擎——原理、技術(shù)與系統(tǒng)》相關(guān)知識的整理,大家可以自行參考相關(guān)文檔。
現(xiàn)有方法大致可以分為以下三類:
1、利用內(nèi)容計算相似
2、結(jié)合內(nèi)容和鏈接關(guān)系計算相似
3、結(jié)合內(nèi)容,鏈接關(guān)系以及url文字進(jìn)行相似計算
現(xiàn)有絕大部分方法還是利用文本內(nèi)容進(jìn)行相似識別,其它兩種利用鏈接關(guān)系以及URL文字的方法還不是很成熟,而且從效果看引入其它特征收效并不明顯,所以從實(shí)際出發(fā)還是選擇利用內(nèi)容進(jìn)行相似計算的算法。
搜索引擎判斷復(fù)制網(wǎng)頁一般都基于這么一個思想:為每個網(wǎng)頁計算出一組信息指紋(信息指紋,英文是Fingerprint,就是把網(wǎng)頁里面正文信息,提取一定的信息,可以是關(guān)鍵字、詞、句子或者段落及其在網(wǎng)頁里面的權(quán)重等,對它進(jìn)行加密,如MD5加密,從而形成的一個字符串。信息指紋如同人的指紋,只要內(nèi)容不相同,信息指紋就不一樣。搜索引擎在對爬取的網(wǎng)頁建立索引的時候需要對重復(fù)內(nèi)容的網(wǎng)頁進(jìn)行識別和消重,這就要用到信息指紋),若兩個網(wǎng)頁有一定數(shù)量相同的信息指紋,則認(rèn)為這兩個網(wǎng)頁的內(nèi)容重疊性很高,也就是說兩個網(wǎng)頁是內(nèi)容復(fù)制的。注意一點(diǎn),算法提取的信息不是針對整張網(wǎng)頁,而是把網(wǎng)站里面共同的部分如導(dǎo)航條、logo、版權(quán)等這些網(wǎng)頁的噪音信息過濾掉后剩下的文本。

很多搜索引擎判斷內(nèi)容復(fù)制的方法都不太一樣,主要是以下兩點(diǎn)的不同:
1、計算信息指紋的算法;
2、判斷信息指紋的相似程度的參數(shù)。
部分算法簡介:
1、分段簽名算法
這種算法是按照一定的規(guī)則把網(wǎng)頁切成N段,對每一段進(jìn)行簽名,形成每一段的信息指紋。如果這N個信息指紋里面有M個相同時(m是系統(tǒng)定義的闕值),則認(rèn)為兩者是復(fù)制網(wǎng)頁。這種算法對于小規(guī)模的判斷復(fù)制網(wǎng)頁是很好的一種算法,但是對于像Google這樣海量的搜索引擎來說,算法的復(fù)雜度相當(dāng)高。
2、基于關(guān)鍵詞的復(fù)制網(wǎng)頁算法
像Google這類搜索引擎,他在抓取網(wǎng)頁的時候都會記下網(wǎng)頁中出現(xiàn)的關(guān)鍵詞(中文分詞技術(shù))以及每個關(guān)鍵詞的權(quán)重(關(guān)鍵詞密度)以及提取meta descrīption或者每個網(wǎng)頁的512個字節(jié)的有效文字。
假設(shè)我們約定Pi表示第i個網(wǎng)頁;該網(wǎng)頁權(quán)重最高的N個關(guān)鍵詞構(gòu)成集合Ti={t1,t2,...tn},其對應(yīng)的權(quán)重為Wi={w1,w2,...wi},摘要信息用Des(Pi)表示,前n個關(guān)鍵詞拼成的字符串用Con(Ti)表示,對這n個關(guān)鍵詞排序后形成的字符串用Sort(Ti)表示。
以上信息指紋都用MD5函數(shù)進(jìn)行加密。
基于關(guān)鍵詞的復(fù)制網(wǎng)頁算法有以下5種:
1、MD5(Des(Pi))=MD5(Des(Pj)),就是說摘要信息完全一樣,i和j兩個網(wǎng)頁就認(rèn)為是復(fù)制網(wǎng)頁;
2、MD5(Con(Ti))=MD5(Con(Tj)),兩個網(wǎng)頁前n個關(guān)鍵詞及其權(quán)重的排序一樣,就認(rèn)為是復(fù)制網(wǎng)頁;
3、MD5(Sort(Ti))=MD5(Sort(Tj)),兩個網(wǎng)頁前n個關(guān)鍵詞一樣,權(quán)重可以不一樣,也認(rèn)為是復(fù)制網(wǎng)頁。
4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個闕值a,則認(rèn)為兩者是復(fù)制網(wǎng)頁。
5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個闕值a,則認(rèn)為兩者是復(fù)制網(wǎng)頁。
關(guān)于第4和第5的那個闕值a,主要是因?yàn)榍耙粋€判斷條件下,還是會有很多網(wǎng)頁被誤傷,搜索引擎開發(fā)根據(jù)權(quán)重的分布比例進(jìn)行調(diào)節(jié),防止誤傷。
以上5種算法運(yùn)行的時候,算法的效果取決于N,就是關(guān)鍵詞數(shù)目的選取。選的數(shù)量越多,判斷就會越精確,但是計算速度也會越慢。所以必須考慮一個計算速度和去重準(zhǔn)確率的平衡,根據(jù)試驗(yàn)結(jié)果,10個左右關(guān)鍵詞最為恰當(dāng)。
當(dāng)然,以上算法只是給SEO一個思路而已,并非搜索引擎判斷復(fù)制網(wǎng)頁的全部算法。只要在SEO的過程中注意原創(chuàng)和“偽原創(chuàng)”,大可不必太在乎這個算法。

責(zé)任編輯:SEO算法解析系列之:搜索引擎對復(fù)制網(wǎng)頁的算法

相關(guān)文章

樂天SEO培訓(xùn)中心

最近中文字幕完整视频高清1_国产高清免费的视频_女人一级毛片_亚洲一区二区三区首页

      9000px;">

          国产精品久久久久一区二区三区| 国产91精品一区二区麻豆网站| 亚洲精品乱码久久久久久久久| 国产精品理论片在线观看| 激情六月婷婷综合| 国产婷婷色一区二区三区| 亚洲国产综合人成综合网站| 国产成人99久久亚洲综合精品| 色香蕉成人二区免费| 久久久久久久久伊人| 亚洲三级免费观看| 另类中文字幕网| 亚洲精品一区二区三区香蕉| 美女一区二区三区在线观看| 依依成人精品视频| 国产美女精品人人做人人爽| 在线播放/欧美激情| 亚洲成av人片| 日本vs亚洲vs韩国一区三区二区| 日韩va亚洲va欧美va久久| 国产精品一区久久久久| 99re这里只有精品首页| 国产精品素人一区二区| 看国产成人h片视频| 欧美美女黄视频| 亚洲视频中文字幕| 国产成人精品在线看| 欧美午夜不卡在线观看免费| 日韩欧美一区电影| 国产精品一区二区在线播放| 久久综合九色综合欧美亚洲| 老鸭窝一区二区久久精品| 精品国产乱子伦一区| 91免费视频大全| 蜜臀av亚洲一区中文字幕| 日韩精品一区二区三区视频播放 | av电影天堂一区二区在线观看| 国产亚洲女人久久久久毛片| 国产大陆a不卡| 亚洲一二三四久久| 91精品国产全国免费观看| 国产成人一区在线| 亚洲一区二区三区四区的| 91精品国产欧美一区二区18| 高清beeg欧美| 亚洲男人天堂av网| 亚洲欧洲综合另类| 欧美成人高清电影在线| 欧美国产丝袜视频| 91亚洲国产成人精品一区二三| 亚洲一区在线视频| 成人蜜臀av电影| 国产经典欧美精品| 看片的网站亚洲| 亚洲成人综合网站| 欧美一级一区二区| 91香蕉视频mp4| 色狠狠一区二区| 欧美在线视频你懂得| 国产91在线|亚洲| 日韩 欧美一区二区三区| 欧美一卡二卡在线| 日韩黄色免费网站| 欧美一区二区三区免费大片| 欧美性色欧美a在线播放| 国产精品99久| 亚洲欧洲日韩av| 精品国产亚洲一区二区三区在线观看| 欧美三级乱人伦电影| 欧美亚洲丝袜传媒另类| 欧美日韩精品一区二区在线播放| 欧美α欧美αv大片| 欧洲中文字幕精品| av不卡在线播放| 97精品国产97久久久久久久久久久久| 国产91精品久久久久久久网曝门| 蜜桃精品在线观看| 国产一区二区电影| 韩国精品一区二区| 国产一区二区三区av电影| |精品福利一区二区三区| 国产精品成人免费| 亚洲婷婷国产精品电影人久久| 日本一区二区三区在线不卡| 99国产欧美久久久精品| 色www精品视频在线观看| 石原莉奈一区二区三区在线观看| 三级在线观看一区二区| 狂野欧美性猛交blacked| 日韩精品一区第一页| 欧美唯美清纯偷拍| 日本人妖一区二区| 91婷婷韩国欧美一区二区| 91精品办公室少妇高潮对白| 成人精品在线视频观看| 欧美大片一区二区| 久久久久九九视频| 欧美伦理影视网| 中文字幕免费不卡| 激情成人午夜视频| 欧美在线观看18| 国产精品乱码久久久久久| 精品一区二区三区久久久| 欧美日韩亚洲国产综合| 欧美激情在线一区二区三区| 国产精品久久久久久福利一牛影视| 国产高清久久久| 色狠狠综合天天综合综合| 日韩一区二区视频| 亚洲永久精品国产| 午夜av电影一区| 一本大道久久a久久综合| 欧美色精品在线视频| 久久夜色精品一区| 日本欧美在线看| 日韩欧美电影在线| 国产精品沙发午睡系列990531| 中文字幕日韩一区| 国产麻豆精品95视频| 久久精品亚洲精品国产欧美| 国产不卡视频在线播放| 国产精品久久久久久久午夜片 | 亚洲线精品一区二区三区 | 欧美日韩一区 二区 三区 久久精品| 国产亚洲综合av| 欧美日韩亚洲国产综合| 国产一区二区不卡老阿姨| 日韩二区三区在线观看| 91黄色免费网站| 亚洲国产精品视频| 亚洲www啪成人一区二区麻豆| 在线播放91灌醉迷j高跟美女| 亚洲免费在线电影| 亚洲一级二级三级在线免费观看| 日本精品一级二级| 国产精品国产三级国产普通话99| 日韩成人免费在线| 精品国产免费人成电影在线观看四季 | 国产欧美精品一区二区色综合朱莉| 国产精品1区2区3区| 午夜精品福利久久久| 国产精品免费视频观看| 91麻豆蜜桃一区二区三区| 97超碰欧美中文字幕| 日韩精品福利网| 日韩精品每日更新| 久久久影院官网| 日韩一区二区麻豆国产| 国产福利精品导航| 亚洲午夜激情网页| 亚洲视频1区2区| 精品国产不卡一区二区三区| 不卡av免费在线观看| 国产精品一区二区三区网站| 国产精品中文欧美| 日韩专区中文字幕一区二区| 亚洲一区二区黄色| 国产精品网站在线观看| 久久先锋资源网| 国产精品欧美久久久久无广告 | 久久免费电影网| 99这里都是精品| 久久99精品久久久久久国产越南 | 蜜臀av亚洲一区中文字幕| 久久久久久久久97黄色工厂| 天天影视色香欲综合网老头| 欧美电影在哪看比较好| 国模套图日韩精品一区二区 | 亚洲成人av免费| 亚洲高清三级视频| 一区二区视频免费在线观看| 色婷婷亚洲精品| 8v天堂国产在线一区二区| 精品国产乱子伦一区| 国产精品麻豆欧美日韩ww| 成人av网址在线观看| 99国产精品视频免费观看| 日韩女优av电影| 亚洲国产va精品久久久不卡综合| 在线观看亚洲成人| 亚洲国产高清不卡| 秋霞午夜鲁丝一区二区老狼| 国产精品2024| 亚洲精品一线二线三线| 亚洲激情图片一区| 日本乱码高清不卡字幕| 亚洲国产精品成人综合| 免费成人在线影院| 95精品视频在线| 国产精品嫩草99a| 激情综合亚洲精品| 国产精品久久久一本精品| 日本欧美一区二区三区| 欧美精品日韩一本| 欧美国产日韩a欧美在线观看| 成人18视频在线播放| 337p粉嫩大胆噜噜噜噜噜91av| 九九在线精品视频| 日本麻豆一区二区三区视频| 亚洲一区二区在线视频|