Shingle網(wǎng)頁去重算法對(duì)SEO聚合頁的影響

      2023-10-22 未知 黑帽SEO
      Shingle網(wǎng)頁去重算法對(duì)SEO聚合頁的影響

      Shingle算法是搜索引擎去掉相同或相似頁面的其中一種基本算法,做SEO聚合頁面的時(shí)候如何讓頁面之間不重復(fù)?如何處理重復(fù)度的問題?可以反推Shingle算法得到一些啟發(fā)。
      Shingle在英文中表示相互覆蓋的瓦片。先通過一個(gè)例子來說明Shingle算法:
      假設(shè)有A、B兩個(gè)文檔的標(biāo)題,A文檔的標(biāo)題是:明起電話訂火車票可全國(guó)通取取票時(shí)間延12小時(shí);B文檔的標(biāo)題是:火車票電話訂票實(shí)現(xiàn)全國(guó)通取網(wǎng)上預(yù)售期延長(zhǎng)。
      搜索引擎如何知道這兩篇文檔標(biāo)題是否是重復(fù)的?比如我們可以以2個(gè)漢字切為一個(gè)Shingle的方法:

      對(duì)于長(zhǎng)度L的文檔,每隔N個(gè)漢字切一個(gè)Shingle,這樣一共切到L-N+1個(gè)shingle,A文檔標(biāo)題切成了L-N+1=21-2+1=20個(gè)Shingle,B文檔標(biāo)題切成了L-N+1=20-2+1=19個(gè)Shingle。
      A、B兩個(gè)文檔標(biāo)題共同的Shingle有圖上7個(gè)加粗的:電話、話訂、火車、車票、全國(guó)、國(guó)通、通取。
      A、 B兩個(gè)文檔標(biāo)題一共有20+19-7=32個(gè)Shingle。
      然而,A、B兩個(gè)文檔標(biāo)題共同的Shingle,除以,A、B兩個(gè)文檔標(biāo)題一共有的Shingle,就是這兩個(gè)文檔標(biāo)題的Jaccard系數(shù),可以用來判斷A、B兩個(gè)文檔標(biāo)題的相似度。
      A、 B兩個(gè)文檔標(biāo)題的Jaccard系數(shù)=7/(20+19-7)=0.21875
      從兩個(gè)文檔的標(biāo)題,可以延伸到兩個(gè)頁面文檔,再延伸到N個(gè)頁面,通過Jaccard系數(shù)是否達(dá)到相似所需要的標(biāo)準(zhǔn)來判斷頁面與頁面是否相似。
      這就是Shingle算法,兩個(gè)集合的交集除以兩個(gè)集合的并集,得到Jaccard系數(shù),通過判斷Jaccard系數(shù)是否大于某個(gè)數(shù),來判斷兩個(gè)集合是否重復(fù)。

      反推Shingle算法,如果Jaccard系數(shù)小于某個(gè)數(shù),就不重復(fù)了,先給每個(gè)文檔集合拆分成若干個(gè)Shingle,再兩兩計(jì)算Jaccard系數(shù),如果小于某個(gè)數(shù),生成頁面即可。
      我之前做的一個(gè)項(xiàng)目使用的一個(gè)方法,雖然比較笨,也還算實(shí)用,分享一下:
      假設(shè)北京電影品類有100個(gè)團(tuán)購(gòu)單子,現(xiàn)在要為下圖右邊這些詞設(shè)計(jì)聚合頁面,每個(gè)頁面展示10個(gè)單子,假設(shè)jaccard系數(shù)大于0.3判定為頁面重復(fù),怎么生成不重復(fù)頁面?
      如下圖展示單子的標(biāo)題和長(zhǎng)標(biāo)題(假設(shè)seo聚合頁用的長(zhǎng)標(biāo)題,因?yàn)殚L(zhǎng)標(biāo)題文字不單一,文字量也大):

      每個(gè)id是唯一的,每個(gè)id對(duì)應(yīng)的標(biāo)題和長(zhǎng)標(biāo)題可以近似于唯一,那就可以簡(jiǎn)化成允許相同id的單子數(shù)來解決重復(fù)的問題。

      意思是,每個(gè)頁面展示10個(gè)單子,每?jī)蓚€(gè)頁面不能有=3.33個(gè)id是一樣的,即兩兩頁面id比較,所有的id都不同可以頁面,只有1個(gè)id相同可以生成頁面,只有2個(gè)id相同可以生成頁面,只有3個(gè)id相同可以生成頁面,如果有大于等于4個(gè)id相同就不生成頁面。

      責(zé)任編輯:Shingle網(wǎng)頁去重算法對(duì)SEO聚合頁的影響

      相關(guān)文章

      樂天SEO培訓(xùn)中心

      主站蜘蛛池模板: 一区二区高清视频在线观看| 亚洲AV午夜福利精品一区二区| 一区一区三区产品乱码| 欧洲精品码一区二区三区| 精品一区二区三区四区| 精品一区二区三区AV天堂| 一区二区三区视频| 亚洲AV综合色区无码一区爱AV| а天堂中文最新一区二区三区| 国产成人精品亚洲一区 | 色久综合网精品一区二区| 精品视频在线观看一区二区三区| 国产精品一区视频| 亚洲Av高清一区二区三区| 国99精品无码一区二区三区| AV无码精品一区二区三区宅噜噜| 日韩精品一区二区三区影院| 国产乱码精品一区二区三区四川| 国产品无码一区二区三区在线| 毛片无码一区二区三区a片视频| 一区二区三区精品| 亚洲一区在线视频| 在线精品国产一区二区| 精品视频无码一区二区三区| AA区一区二区三无码精片| 在线欧美精品一区二区三区 | 国产微拍精品一区二区| 精品国产日韩亚洲一区91| 日本香蕉一区二区三区| 日韩免费视频一区| 无码av不卡一区二区三区| 精品视频一区二区三区| 精品一区二区三区在线视频| 无码人妻AⅤ一区二区三区| 久久精品国产第一区二区三区| 无码av人妻一区二区三区四区| 国产精品视频免费一区二区| 午夜精品一区二区三区在线观看| 久久久久女教师免费一区| 色窝窝无码一区二区三区成人网站 | 一区二区3区免费视频|