基于PageRank算法對SEO結(jié)果排序影響分析!
果排序影響分析!.jpg)
鏈接分析排序的思想起源于文獻引文索引機制,即誰的論文被引用次數(shù)多、引用它的論文的質(zhì)量高,誰就被認為是權(quán)威,論文就是好論文。這個思路移植到網(wǎng)上就是誰的網(wǎng)頁被鏈接次數(shù)多、鏈接它的網(wǎng)頁質(zhì)量高,那個網(wǎng)頁就被認為是質(zhì)量高、人氣旺,是用戶所需要的。鏈接分析算法大體可以分為3類,基于隨機漫游模型的,比如pagerank,Repution算法;基于Hub和Authority相互增強模型的,如HITS及其變種;基于概率模型的,如SALSA;百度的超鏈分析和谷歌的PageRank都屬于鏈接分析排序技術。在兩者搜索引擎之間,算法都是有異曲同工之妙之處,本文重點講解分析PageRank算法。
PageRank利用了互聯(lián)網(wǎng)獨特的民主特性及其巨大的鏈接結(jié)構(gòu)。實質(zhì)上,當從網(wǎng)頁A鏈接到網(wǎng)頁B時,PageRank就認為“網(wǎng)頁A投了網(wǎng)頁B一票”。可根據(jù)網(wǎng)頁的得票數(shù)評定其重要性。然而,除了考慮網(wǎng)頁得票數(shù)(即鏈接)的純數(shù)量之外,還要分析為其投票的網(wǎng)頁。“重要”網(wǎng)頁所投之票自然份量較重,有助于增強其他網(wǎng)頁的“重要性”。這樣,重要的、高質(zhì)量的網(wǎng)頁可獲得較高的網(wǎng)頁級別,從而在搜索結(jié)果中可獲較高的排位。
PageRank最初的基本算法公式:PR(A)=(1-d)+d(PR(T1)/C(T1))+...+PR(TN)/C(Tn))
公式備注:
R(A):網(wǎng)頁A頁的PageRank值;
PR(Ti):鏈接到A頁的網(wǎng)頁Ti的PageRank值;
C(Ti):網(wǎng)頁Ti的出站鏈接數(shù)量;
d:阻尼系數(shù),O<d<1。
可見,PageRank并不是將整個網(wǎng)站排等級,而是以單個頁面計算的。頁面A的PageRank值取決于那些鏈接到A的頁面的PageRank的遞歸值。PR(Ti)值并不是均等影響頁面PR(A)的。在PageRank的計算公式里,T對于A的影響還受T的出站鏈接數(shù)C(T)的影響。這就是說,T的出站鏈接越多,A受T的這個連接的影響就越少。PR(A)是所有PR(Ti)之和。所以,對于A來說,每多增加一個人站鏈接都會增加PR(A)。
并且所有PR(Ti)之和乘以一個阻尼系數(shù)d,它的值在O到1之間,一般設置為0.85。因此,阻尼系數(shù)的使用,減少了其它頁面對當前頁面A的排序貢獻。事實上,計算某個頁面的PageRank得分需要大量繁復計算。例如若計算A頁的PageRank得分則首先要知道所有鏈至A頁的網(wǎng)頁(導人鏈接)的PageRank得分。要想知道這些外部鏈接頁的PageRank得分,又需要先知道這些頁面的外部鏈接的PageRank得分等等。
A頁的外部鏈接B能夠帶給A的PageRank得分與B的導出鏈接數(shù)量成反比,即隨著B上導出鏈接數(shù)的增加,帶給A的PageRank得分亦隨之降低。這同樣表明了一個網(wǎng)頁的PageRank得分是該網(wǎng)頁對其它頁面投票的一個基本的度量形式。一個網(wǎng)頁可以投票給一個或多個導出鏈接,但其總投票權(quán)一定,并被平均分配給所有的導出鏈接。假設B的PageRank得分是5,且B上只有一條指向A的鏈接,那么A將獲得B全部的PageRank得分(B沒有損失任何東西,而A贏得了B的PageRank得分)。但如果B上有N個鏈接,則A只能得到B的PageRank得分的N分之一。
簡單說來,搜索引擎通過下述幾個步驟來實現(xiàn)網(wǎng)頁在其搜索結(jié)果頁中的排名:
1、找到所有與搜索關鍵詞匹配的網(wǎng)頁。
2、根據(jù)頁面因素如標題,關鍵詞密度等排列等級。
3、計算導人鏈接的錨文本中的關鍵詞。
4、通過PageRank得分調(diào)整網(wǎng)站排名結(jié)果。
事實上,真正的網(wǎng)站排名過程并不是這么簡單,據(jù)百度等搜索引擎介紹,搜索引擎除了用PageRank算法衡量網(wǎng)頁的重要程度以外,還有其它上百種因素來參與排序。其它搜索引擎也是如此,不可能只按照某一種規(guī)則來進行搜索結(jié)果的排序。要想做好SEO排名,了解算法原理本身,通過從本質(zhì)出發(fā),搜索引擎結(jié)果排序其實會越做越簡單。