SEO算法:TF-IDF算法

      2023-10-21 未知 admin
      SEO算法:TF-IDF算法

      我已經(jīng)在博客說(shuō)了學(xué)seo研究算法是愚蠢的行為,但是很多人仍舊來(lái)問(wèn)se的算法問(wèn)題,其中最多的就是問(wèn)TF-IDF算法,為了能夠讓大家加深對(duì)這個(gè)的問(wèn)題的認(rèn)知,我因此就深度解析下這個(gè)算法的一些問(wèn)題。

      第一點(diǎn),TF-idf是什么?
      TF和IDF是兩個(gè)不同的概念,tf通過(guò)一個(gè)文檔內(nèi)詞項(xiàng)的重復(fù)次數(shù)來(lái)表示這個(gè)詞項(xiàng)在所有詞項(xiàng)中的重要度,而另一個(gè)idf則是一個(gè)詞在所有文檔中出現(xiàn)次數(shù)表示這個(gè)詞項(xiàng)的重要程度,出現(xiàn)的越多也就是常用詞,由于主題性不強(qiáng)重復(fù)越多重要度越低。TF-IDF是一種統(tǒng)計(jì)方法,

      用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量

      或評(píng)級(jí)。

      這個(gè)百科的解釋加上我自己的描述,不知道大家是否很清楚了?總之TF-IDF是通過(guò)一定統(tǒng)計(jì)意義來(lái)表示詞項(xiàng)的重要度的。seo為何很關(guān)注他呢,因?yàn)樗赡苡绊憴z索詞和搜索詞的相關(guān)性,進(jìn)而影響排名。

      第二點(diǎn),TF-IDF算法是解決什么的,能起到多大的作用?

      其實(shí)我們既然研究了這個(gè)算法,就不能不去了解這個(gè)算法是解決什么的,其實(shí)我剛才也說(shuō)了,它主要解決的就是一個(gè)文檔中詞項(xiàng)權(quán)重的問(wèn)題(很多人都知道這個(gè)算法影響排名,卻不知道這個(gè)算法為何能影響排名的)。那么我們可以再問(wèn)下,影響詞項(xiàng)權(quán)重的因素有多少呢?目測(cè)大約也就5、6個(gè)吧(但是我們都知道幾個(gè)呢?),TF-IDF在詞項(xiàng)中占據(jù)什么地位呢?重要度或許可以排在第三位、第四位的樣子(也不是最主要的因素嘛)。而且我一直說(shuō)的,如果你真的要研究算法,就不僅要研究算法是什么,也要考慮下算法的特征和算法特征的處理,因?yàn)樗麄兌加绊懽罱K的結(jié)果,比如這個(gè)TF-IDF的算法。

      第三點(diǎn),TF-IDF的算法特征是什么

      這是人們很少關(guān)注的一點(diǎn),算法的特征和算法特征的處理之所以重要,是因?yàn)榉彩撬惴ǘ紩?huì)控制因素的影響,或者說(shuō)進(jìn)行平滑性處理。這個(gè)也不例外,很多人沒(méi)有注意到這個(gè)影響,或者對(duì)這個(gè)有了過(guò)激的思想,那么就會(huì)對(duì)很多的seo細(xì)節(jié)耿耿于懷,卻不得其解。想學(xué)會(huì)這點(diǎn),我覺(jué)得那個(gè)谷歌的黑板報(bào)很多講算法的時(shí)候都說(shuō)到了,很多實(shí)際應(yīng)用模型和理論模型大多都有一定的差距,這就是現(xiàn)實(shí)。

      第四點(diǎn),TF-IDF算法再向上,問(wèn)題的來(lái)源是什么,處于檢索的什么地位?

      其實(shí),我一直推薦的是跳出算法禁錮,放在更長(zhǎng)遠(yuǎn)的看待這個(gè)問(wèn)題,比如TF-IDF要解決的問(wèn)題的根源是什么,這個(gè)問(wèn)題可以在檢索原理中處于什么樣的一個(gè)地位,會(huì)不會(huì)隨著時(shí)間而改變……。只要你向上思考,慢慢更多的seo浮出來(lái),那個(gè)神馬的TF-IDF也可以慢慢地放棄了。

      第五點(diǎn),算法之外

      TF-IDF是用來(lái)研究詞項(xiàng)權(quán)重的,早期用來(lái)進(jìn)行相關(guān)性判斷,但是也并不一定一成不變的,比如BM25算法在很多方面都比他更加具有優(yōu)勢(shì)。但是隨著檢索技術(shù)的進(jìn)步,比如語(yǔ)義分析等技術(shù)的發(fā)展,這個(gè)算法也會(huì)被漸漸限制了起作用的范圍和影響力。這也不能不說(shuō)研究算法的悲劇。而且,我一直說(shuō)的是,我們完全可以跳出這個(gè)范疇,從問(wèn)題本身出發(fā)去思考問(wèn)題,或者更深層的站在檢索的角度觀察這個(gè)問(wèn)題的意義,觀察解決這個(gè)問(wèn)題可行性,觀察結(jié)果和我們所想的差距……嘎嘎,不能再深入……
      PS:我最近一直四處飄,也在發(fā)力學(xué)些新東西,所以時(shí)間不是很充裕,你所看到的博客我?guī)缀醵际怯兴敕ǖ臅r(shí)候,花費(fèi)了大約30多分鐘一氣呵成的,難免有很多瑕疵,萬(wàn)勿見(jiàn)怪。我會(huì)繼續(xù)更新seo思維進(jìn)化論系列,里面雖然沒(méi)有講技術(shù),但是我覺(jué)得還是有些東西值得seoer去思考下的,下面我也打算寫(xiě)一些seo入門的東西,希望能給一些新人有些幫助。我所做的一切,最主要的目的還是希望大家能冷靜地看待seo,慢慢地回歸正途。

      責(zé)任編輯:SEO算法:TF-IDF算法
      上篇:暫無(wú)

      相關(guān)文章

      樂(lè)天SEO培訓(xùn)中心

      主站蜘蛛池模板: 久久久久国产一区二区| 伊人色综合网一区二区三区| 日韩三级一区二区| 国产一区二区免费| 风流老熟女一区二区三区| 人妻AV中文字幕一区二区三区| 精品视频一区二区三区四区五区| 国产一区二区三区在线免费观看 | 国产乱码精品一区三上 | 国产精品99无码一区二区| 精品欧美一区二区在线观看| 午夜性色一区二区三区免费不卡视频 | 天天爽夜夜爽人人爽一区二区 | 国偷自产一区二区免费视频| AV怡红院一区二区三区| 国产成人高清精品一区二区三区| 大帝AV在线一区二区三区| 午夜AV内射一区二区三区红桃视| 亚欧免费视频一区二区三区| 国产一区在线mmai| 精品亚洲AV无码一区二区三区| 人妻少妇精品视频一区二区三区 | 久久精品国产一区二区| 痴汉中文字幕视频一区| 国产成人片视频一区二区| 久久99国产一区二区三区| 久久国产午夜精品一区二区三区| 熟妇人妻一区二区三区四区| 亚洲乱码日产一区三区| 性色AV一区二区三区| 色国产精品一区在线观看| 国产精品香蕉在线一区| 国产精品无码一区二区三区在 | 中文字幕一区日韩精品| 亚洲欧美日韩中文字幕在线一区| 蜜臀AV无码一区二区三区| 国产一区在线观看免费| 不卡无码人妻一区三区音频| 日韩视频在线观看一区二区 | 动漫精品专区一区二区三区不卡| V一区无码内射国产|