seo算法:淺析詞頻位置加權排序算法

詞頻位置加權排序算法:是一種通過關鍵詞出現的位置和頻率進行排序的方法,它是搜索引擎最基礎的排序算法之一。當用戶通過關鍵詞進行搜索時,當某一個網頁中該關鍵詞出現的次數越多,位置越重要,則認為該網頁更加符合用戶的需求。早期大量的搜索引擎(如:Infoseek,Nutch,Excite,Lycos等)都基于該算法進行網頁檢索排序,當然在不同的搜索引擎中具體的排序方法有所不同。
詞頻位置排序原理
該算法以一個搜索詞與網頁的相關度大小當作排序標準,而搜索詞在網頁中的相關度則由它在網頁中出現的次數和位置兩方面加權計算得到。在這種算法當中,詞對網頁的關聯(lián)性與詞在該網頁中的權值成正比。
通過詞頻和位置加權,可以得出關鍵詞對網頁的權值。當用戶搜索該關鍵詞,搜索引擎按照檢索詞在不同網頁的相關度排序,這就是詞頻位置加權排序算法。
詞頻加權的方法
詞頻加權的方法有絕對詞頻加權、相對詞頻加權、反詞頻加權、基于詞分辨值加權等等。
對于單一詞搜索引擎、簡單檢索需求,只用單純地計算一個詞在網頁中的出現頻率就可給定權值;而對于具有進行多重邏輯功能的搜索引擎,則必須綜合其它的加權排序方法。因為用多重邏輯檢索式檢索時,檢索結果跟檢索式中的每個搜索詞相關,而每個搜索詞在所有的網頁中出現的總頻率是不一樣的,如果按照總的權值來排序,就會導致結果的不相關。這時候就可以利用相對詞頻加權原理來解決:通過對大量網頁的統(tǒng)計,把越是在所有網頁中出現頻率高的詞給予一個較低的初始值;相對地,在所有網頁中出現頻率低的詞,給一個較高的權值。
位置加權方法
位置加權主要是通過對詞在網頁中不同位置和版式,給予不同的權值,從而根據權值來確定所搜索的結果和搜索詞的相關程度。
詞的位置包括:網頁標題、網頁描述,關鍵字、正文標題、正文內容、文本鏈接、alt標識等。
版式包括:字體、字號、有無加粗強調等。和傳統(tǒng)文獻一樣,一般在較重要的位置如標題、正文的結尾句等出現的詞給較大的權值。在理想狀態(tài)下,這些不同的標簽對應的內容在表達網頁主題的能力上有所差異。通常字符較大、加粗強調的地方,一般也會給予更大的權值。
實現步驟
該排序算法的實現基本步驟是:采集網頁,解析網頁,過濾停用詞,獲取關鍵詞(中文自動切詞),根據關鍵詞的位置和頻次加權得出詞對網頁的相關度,用戶檢索時按照關鍵詞在網頁中的權值大小對該網頁進行排序。
詞頻位置算法評價
優(yōu)點
利用詞頻和位置加權算法是在傳統(tǒng)的文檔檢索理論和技術基礎上發(fā)展而來的,具有簡單、易實現的優(yōu)點,是搜索引擎早期排序的主要思想,技術發(fā)展最成熟。
缺點
詞頻統(tǒng)計比較適用于結構化文檔數據,然而網絡時代的主要文獻是以網頁的形式存在的。算法僅僅根據詞頻和位置信息排序,根本沒有利用網絡中超文本的新特性,可以說是前網絡時代的技術。
現在幾乎每個人都可以隨心所欲地在網上發(fā)表各種內容,詞頻相同的兩個網頁,質量相差可以很遠,很難保證文檔的結構和文檔的質量。
許多SEO網頁內容的制作者絞盡腦汁,在其頁面上堆砌關鍵詞,特別是在重要的位置(特別是<meta>)中放置主題無關的關鍵字。當用戶在瀏覽網頁時完全看不到,而在搜索引擎抓取時,卻能發(fā)現。對此搜索引擎也研究出各種方法來,發(fā)現和懲罰(黑帽SEO)這種作弊行為。
總結:現在的搜索引擎開發(fā)了更加合理的鏈接分析算法,但是如果單純依靠鏈接分析,可能會發(fā)生主題漂移的問題。導致即使網頁的質量再高,再權威,如果搜索詞和網頁的相關度不高,對于用戶來說也是沒有用的。所以需要將鏈接分析與詞頻信息相結合,進行綜合的分析獲得更好地排序效果。目前詞頻位置加權排序算法仍是許多搜索引擎的核心排序技術。