seo算法:淺析詞頻位置加權(quán)排序算法

      2023-10-22 未知 黑帽SEO
      seo算法:淺析詞頻位置加權(quán)排序算法

      詞頻位置加權(quán)排序算法:是一種通過關(guān)鍵詞出現(xiàn)的位置和頻率進(jìn)行排序的方法,它是搜索引擎最基礎(chǔ)的排序算法之一。當(dāng)用戶通過關(guān)鍵詞進(jìn)行搜索時(shí),當(dāng)某一個(gè)網(wǎng)頁中該關(guān)鍵詞出現(xiàn)的次數(shù)越多,位置越重要,則認(rèn)為該網(wǎng)頁更加符合用戶的需求。早期大量的搜索引擎(如:Infoseek,Nutch,Excite,Lycos等)都基于該算法進(jìn)行網(wǎng)頁檢索排序,當(dāng)然在不同的搜索引擎中具體的排序方法有所不同。

      詞頻位置排序原理

      該算法以一個(gè)搜索詞與網(wǎng)頁的相關(guān)度大小當(dāng)作排序標(biāo)準(zhǔn),而搜索詞在網(wǎng)頁中的相關(guān)度則由它在網(wǎng)頁中出現(xiàn)的次數(shù)和位置兩方面加權(quán)計(jì)算得到。在這種算法當(dāng)中,詞對(duì)網(wǎng)頁的關(guān)聯(lián)性與詞在該網(wǎng)頁中的權(quán)值成正比。

      通過詞頻和位置加權(quán),可以得出關(guān)鍵詞對(duì)網(wǎng)頁的權(quán)值。當(dāng)用戶搜索該關(guān)鍵詞,搜索引擎按照檢索詞在不同網(wǎng)頁的相關(guān)度排序,這就是詞頻位置加權(quán)排序算法。

      詞頻加權(quán)的方法

      詞頻加權(quán)的方法有絕對(duì)詞頻加權(quán)、相對(duì)詞頻加權(quán)、反詞頻加權(quán)、基于詞分辨值加權(quán)等等。

      對(duì)于單一詞搜索引擎、簡(jiǎn)單檢索需求,只用單純地計(jì)算一個(gè)詞在網(wǎng)頁中的出現(xiàn)頻率就可給定權(quán)值;而對(duì)于具有進(jìn)行多重邏輯功能的搜索引擎,則必須綜合其它的加權(quán)排序方法。因?yàn)橛枚嘀剡壿嫏z索式檢索時(shí),檢索結(jié)果跟檢索式中的每個(gè)搜索詞相關(guān),而每個(gè)搜索詞在所有的網(wǎng)頁中出現(xiàn)的總頻率是不一樣的,如果按照總的權(quán)值來排序,就會(huì)導(dǎo)致結(jié)果的不相關(guān)。這時(shí)候就可以利用相對(duì)詞頻加權(quán)原理來解決:通過對(duì)大量網(wǎng)頁的統(tǒng)計(jì),把越是在所有網(wǎng)頁中出現(xiàn)頻率高的詞給予一個(gè)較低的初始值;相對(duì)地,在所有網(wǎng)頁中出現(xiàn)頻率低的詞,給一個(gè)較高的權(quán)值。

      位置加權(quán)方法

      位置加權(quán)主要是通過對(duì)詞在網(wǎng)頁中不同位置和版式,給予不同的權(quán)值,從而根據(jù)權(quán)值來確定所搜索的結(jié)果和搜索詞的相關(guān)程度。

      詞的位置包括:網(wǎng)頁標(biāo)題、網(wǎng)頁描述,關(guān)鍵字、正文標(biāo)題、正文內(nèi)容、文本鏈接、alt標(biāo)識(shí)等。

      版式包括:字體、字號(hào)、有無加粗強(qiáng)調(diào)等。和傳統(tǒng)文獻(xiàn)一樣,一般在較重要的位置如標(biāo)題、正文的結(jié)尾句等出現(xiàn)的詞給較大的權(quán)值。在理想狀態(tài)下,這些不同的標(biāo)簽對(duì)應(yīng)的內(nèi)容在表達(dá)網(wǎng)頁主題的能力上有所差異。通常字符較大、加粗強(qiáng)調(diào)的地方,一般也會(huì)給予更大的權(quán)值。

      實(shí)現(xiàn)步驟

      該排序算法的實(shí)現(xiàn)基本步驟是:采集網(wǎng)頁,解析網(wǎng)頁,過濾停用詞,獲取關(guān)鍵詞(中文自動(dòng)切詞),根據(jù)關(guān)鍵詞的位置和頻次加權(quán)得出詞對(duì)網(wǎng)頁的相關(guān)度,用戶檢索時(shí)按照關(guān)鍵詞在網(wǎng)頁中的權(quán)值大小對(duì)該網(wǎng)頁進(jìn)行排序。

      詞頻位置算法評(píng)價(jià)

      優(yōu)點(diǎn)

      利用詞頻和位置加權(quán)算法是在傳統(tǒng)的文檔檢索理論和技術(shù)基礎(chǔ)上發(fā)展而來的,具有簡(jiǎn)單、易實(shí)現(xiàn)的優(yōu)點(diǎn),是搜索引擎早期排序的主要思想,技術(shù)發(fā)展最成熟。

      缺點(diǎn)

      詞頻統(tǒng)計(jì)比較適用于結(jié)構(gòu)化文檔數(shù)據(jù),然而網(wǎng)絡(luò)時(shí)代的主要文獻(xiàn)是以網(wǎng)頁的形式存在的。算法僅僅根據(jù)詞頻和位置信息排序,根本沒有利用網(wǎng)絡(luò)中超文本的新特性,可以說是前網(wǎng)絡(luò)時(shí)代的技術(shù)。

      現(xiàn)在幾乎每個(gè)人都可以隨心所欲地在網(wǎng)上發(fā)表各種內(nèi)容,詞頻相同的兩個(gè)網(wǎng)頁,質(zhì)量相差可以很遠(yuǎn),很難保證文檔的結(jié)構(gòu)和文檔的質(zhì)量。

      許多SEO網(wǎng)頁內(nèi)容的制作者絞盡腦汁,在其頁面上堆砌關(guān)鍵詞,特別是在重要的位置(特別是<meta>)中放置主題無關(guān)的關(guān)鍵字。當(dāng)用戶在瀏覽網(wǎng)頁時(shí)完全看不到,而在搜索引擎抓取時(shí),卻能發(fā)現(xiàn)。對(duì)此搜索引擎也研究出各種方法來,發(fā)現(xiàn)和懲罰(黑帽SEO)這種作弊行為。

      總結(jié):現(xiàn)在的搜索引擎開發(fā)了更加合理的鏈接分析算法,但是如果單純依靠鏈接分析,可能會(huì)發(fā)生主題漂移的問題。導(dǎo)致即使網(wǎng)頁的質(zhì)量再高,再權(quán)威,如果搜索詞和網(wǎng)頁的相關(guān)度不高,對(duì)于用戶來說也是沒有用的。所以需要將鏈接分析與詞頻信息相結(jié)合,進(jìn)行綜合的分析獲得更好地排序效果。目前詞頻位置加權(quán)排序算法仍是許多搜索引擎的核心排序技術(shù)。

      責(zé)任編輯:seo算法:淺析詞頻位置加權(quán)排序算法

      相關(guān)文章

      樂天SEO培訓(xùn)中心

      主站蜘蛛池模板: 一区二区视频传媒有限公司| 国产精品区一区二区三在线播放 | 大香伊人久久精品一区二区| 国产日韩精品一区二区三区在线 | 中文字幕一区二区三区在线播放 | 精品一区二区久久| 国产一区二区三区在线2021| 精品国产日韩亚洲一区| 国产在线观看一区二区三区精品| 免费人人潮人人爽一区二区| 秋霞鲁丝片一区二区三区| 中文字幕在线视频一区| 午夜福利一区二区三区在线观看| 日韩精品一区二区三区中文 | 亚洲AV无码一区二区三区人| 色噜噜狠狠一区二区三区| 在线免费视频一区| 国模无码人体一区二区| 深田咏美AV一区二区三区| 国产亚洲无线码一区二区 | 国产精品第一区第27页| 色妞色视频一区二区三区四区| 精品无码综合一区二区三区| 精品人妻一区二区三区四区在线| 国产自产V一区二区三区C| 日韩一区二区a片免费观看| 精品久久久久中文字幕一区| 中文字幕亚洲综合精品一区| 精品视频一区二区三区在线播放| 国产精品视频一区二区噜噜| 高清一区二区在线观看| 国产精品福利一区二区久久| 亚洲av成人一区二区三区在线观看| 亚洲图片一区二区| 久久精品无码一区二区日韩AV | 日韩AV无码一区二区三区不卡毛片| 亚洲一区二区三区91| 三上悠亚亚洲一区高清| 国产一区二区在线|播放| 亚洲综合激情五月色一区| 亚洲综合一区二区精品导航|