SEO核心算法：依據余弦相似性找主題相關文章

2023-10-22 未知黑帽SEO 次

SEO的核心其實是由一個個算法組成的，無論是最開始的pagerank，還是后來的hits算法、hilltop算法、trustrank算法等都是搜索引擎最底層的算法。而算法問題又是一個個的數學問題，想要深層次的理解SEO算法就要去理解各種數學問題。不過還好，我們都不是SEO研究者，沒必要非要弄懂，我們只要知道這個算法是如何來的如何運用就可以了！今天我們講的是相關性算法的一個底層邏輯：余弦相似性！
有些時候，除了找到關鍵詞，我們還希望找到與原文章相似的其他文章。比如，在文章“linux軟件安裝方法”的正文下方，有很多文章也是與正文相關的文章。

為了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我舉一個例子來說明，什么是"余弦相似性"。
為了簡單起見，我們先從句子著手。
　　句子A：我喜歡看電視，不喜歡看電影。
　　句子B：我不喜歡看電視，也不喜歡看電影。
請問怎樣才能計算上面兩句話的相似程度？
基本思路是：如果這兩句話的用詞越相似，它們的內容就應該越相似。因此，可以從詞頻入手，計算它們的相似程度。
第一步，分詞。
　　句子A：我/喜歡/看/電視，不/喜歡/看/電影。
　　句子B：我/不/喜歡/看/電視，也/不/喜歡/看/電影。
第二步，列出所有的詞。
　　我，喜歡，看，電視，電影，不，也。
第三步，計算詞頻。
　　句子A：我 1，喜歡 2，看 2，電視 1，電影 1，不 1，也 0。
　　句子B：我 1，喜歡 2，看 2，電視 1，電影 1，不 2，也 1。
第四步，寫出詞頻向量。
　　句子A：[1, 2, 2, 1, 1, 1, 0]
　　句子B：[1, 2, 2, 1, 1, 2, 1]
到這里，問題就變成了如何計算這兩個向量的相似程度。
我們可以把它們想象成空間中的兩條線段，都是從原點（[0, 0, ...]）出發，指向不同的方向。兩條線段之間形成一個夾角，如果夾角為0度，意味著方向相同、線段重合；如果夾角為90度，意味著形成直角，方向完全不相似；如果夾角為180度，意味著方向正好相反。因此，我們可以通過夾角的大小，來判斷向量的相似程度。夾角越小，就代表越相似。

以二維空間為例，上圖的a和b是兩個向量，我們要計算它們的夾角θ。余弦定理告訴我們，可以用下面的公式求得：

假定a向量是[x1, y1]，b向量是[x2, y2]，那么可以將余弦定理改寫成下面的形式：

數學家已經證明，余弦的這種計算方法對n維向量也成立。假定A和B是兩個n維向量，A是 [A1, A2, ..., An] ，B是 [B1, B2, ..., Bn] ，則A與B的夾角θ的余弦等于：

使用這個公式，我們就可以得到，句子A與句子B的夾角的余弦。

余弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，這就叫"余弦相似性"。所以，上面的句子A和句子B是很相似的，事實上它們的夾角大約為20.3度。
由此，我們就得到了"找出相似文章"的一種算法：
　　（1）使用TF-IDF算法，找出兩篇文章的關鍵詞；
　　（2）每篇文章各取出若干個關鍵詞（比如20個），合并成一個集合，計算每篇文章對于這個集合中的詞的詞頻（為了避免文章長度的差異，可以使用相對詞頻）；
　　（3）生成兩篇文章各自的詞頻向量；
　　（4）計算兩個向量的余弦相似度，值越大就表示越相似。
"余弦相似度"是一種非常有用的算法，只要是計算兩個向量的相似程度，都可以采用它。
"余弦相似性"在谷歌搜索引擎中應用的特別多，谷歌的搜索引擎優化白皮書中也明確說明了應用余弦相似性原理。雖然百度搜索引擎沒有公布，但百度也肯定應用了這個或者類似的算法。我們理解了余弦相似性原理，就可以更好的找出文章的相關內容，提高搜索相關性，從而提高內頁排名！

責任編輯：SEO核心算法：依據余弦相似性找主題相關文章

上篇：SEO核心算法：利用用戶點擊記錄改善搜索結果

下篇：聊聊搜索引擎算法的投票機制

Google搜索引擎的核心算法有哪些？	利用TF-IDF算法提高網頁關鍵詞排名
語義分析在SEO中的運用（語義搜索對SEO的影響）	基于詞頻和關鍵詞位置統計排序SEO算法
bm25算法對SEO的深遠影響（bm25算法和tf-idf算法的優	seo算法:淺析詞頻位置加權排序算法
聊聊搜索引擎算法的投票機制	SEO核心算法：利用用戶點擊記錄改善搜索結果
搜索引擎指紋算法匯總，幫助你網站內容收錄更	SEO算法深度分析之倒排索引，來解釋SEO排名的問
Direct Hit算法-快速排名算法原理	SEO的貝葉斯算法與偽命題
Shingle網頁去重算法對SEO聚合頁的影響	Hilltop算法學習及實戰感悟
大話SALSA算法	SEO算法解析系列之:搜索引擎對復制網頁的算法
搜索引擎如何識別文本通順原創度？	SEO深度解讀之HITS鏈接分析算法
SEO算法：中文分詞技術原理與應用！	百度內部核心算法信任值與推薦度分析！

最近中文字幕完整视频高清1_国产高清免费的视频_女人一级毛片_亚洲一区二区三区首页

SEO核心算法：依據余弦相似性找主題相關文章

相關文章