SEO算法:中文分詞技術(shù)原理與應(yīng)用!

      2023-12-20 未知 黑帽SEO
      SEO算法:中文分詞技術(shù)原理與應(yīng)用!

      10個(gè)人有9個(gè)人不知道中文分詞,也這是很多做SEO的硬傷,如果連最基本的搜索引擎中文分詞技術(shù)算法都不知道,只能用一句摸著石頭過(guò)河來(lái)形容了。深度了解百度中文技術(shù)可以讓搜索引擎排名變得簡(jiǎn)單化,清晰化。那么如何理解中文分詞技術(shù)是本文的核心課點(diǎn)。首先在了解百度中文技術(shù)以前要了解一個(gè)語(yǔ)義分析系統(tǒng),搜索引擎不像人的大腦一樣可以很直接的通用意識(shí)行為來(lái)判別一個(gè)網(wǎng)頁(yè)的核心主題。

            比如我們作為一個(gè)用戶看到一篇文章叫做我的父親,對(duì)于用戶而言,你最直觀的感覺(jué)的就是該網(wǎng)頁(yè)文章的核心關(guān)鍵詞就是父親,絕對(duì)不是我或者的,之所以有這種感覺(jué)那是因?yàn)樗^用戶來(lái)思考,父親是一個(gè)名詞,我是代詞,的是助詞。但是對(duì)于搜索引擎本身來(lái)講它是不可能像人的大腦一樣思考這個(gè)意識(shí)來(lái)決定網(wǎng)頁(yè)核心主題的,對(duì)于中國(guó)人來(lái)說(shuō),語(yǔ)義分析和詞性則是搜索引擎利用區(qū)別網(wǎng)頁(yè)核心關(guān)鍵詞的主要方式,比如我們都知道中文有名詞、形容詞、動(dòng)詞、介詞、副詞等等。并且不同的詞性他的含義和作用也完全不一樣,那么搜索引擎如何借助詞性來(lái)判斷關(guān)鍵詞的核心主題呢?

            如果我們從大范圍來(lái)講,一個(gè)網(wǎng)頁(yè)的主題包含的關(guān)鍵詞不少,但是真正有價(jià)值的關(guān)鍵詞其實(shí)就那么幾個(gè),并且這些有價(jià)值的詞我們暫且稱為核心關(guān)鍵詞。從詞性來(lái)看,多數(shù)這些有價(jià)值的詞均為名詞形態(tài),如果不了解該詞到底屬于什么關(guān)鍵詞詞性可以通過(guò)語(yǔ)義分析系統(tǒng)去識(shí)別(網(wǎng)上有很多這類系統(tǒng),直接百度即可),也可以對(duì)照一下自己網(wǎng)站的關(guān)鍵詞,核心詞絕對(duì)是以名詞為主。

            一般來(lái)說(shuō),核心關(guān)鍵詞定位多數(shù)都是名詞+動(dòng)詞,或者名詞+形容詞,比如小明在奔跑,該標(biāo)題對(duì)于用戶來(lái)說(shuō),都知道核心關(guān)鍵詞是小明,沒(méi)了小明奔跑就沒(méi)有任何價(jià)值了。但是對(duì)于搜索引擎來(lái)說(shuō)肯定不理解,從上面我們所講到的分詞原理,可以了解到該詞的核心關(guān)鍵詞也是小明,因?yàn)樾∶魇敲~,奔跑是動(dòng)詞,也叫做名+動(dòng)。當(dāng)然定位核心關(guān)鍵詞的首要條件是必須是詞性的頻次相等的情況下才會(huì)優(yōu)先將名詞定位核心關(guān)鍵詞,比如漂亮_漂亮同義詞_漂亮的含義,雖然該標(biāo)題里面漂亮是形容詞,并且也包含了其他名詞,但是為何核心詞是漂亮而不是其他名詞,因?yàn)轭l次相同才會(huì)將名詞定位核心詞,頻次不相同優(yōu)先將頻次最大的關(guān)鍵詞定位核心關(guān)鍵詞。
       

      百度分詞的4個(gè)原理:

        1、基于理解:傻瓜式匹配,小于等于3個(gè)中文字符百度是不進(jìn)行切詞的,比如搜索“大學(xué)堂”。

        2、基于統(tǒng)計(jì):百度把一個(gè)詞標(biāo)紅的原因:標(biāo)紅的詞一般是一個(gè)關(guān)鍵詞,你搜索“學(xué)”字的時(shí)候,百度它自認(rèn)的把“學(xué)習(xí)”也當(dāng)成了一個(gè)關(guān)鍵詞,所以出現(xiàn)“學(xué)習(xí)”這個(gè)詞標(biāo)紅,這就是百度分詞法:基于統(tǒng)計(jì)分詞。

        3、基于字符串匹配(百度的分詞法:正向最大切詞法)
      最大與最?。ㄗ畲笃ヅ洌阂恢逼ヅ涞?jīng)]詞可配;最小匹配:匹配出詞了就停止匹配,再?gòu)牧硪粋€(gè)詞開(kāi)始匹配)比如:百度搜索“湖南大學(xué)堂屋頂”,百度的一個(gè)分詞算法我們把它當(dāng)成一個(gè)黑盒子,我們通過(guò)一些輸入關(guān)鍵詞,根據(jù)百度的輸出結(jié)果來(lái)判定百度的分詞算法。正向與反向(正向:從前往后配;反向:從后往前配)(湖南大學(xué)堂屋頂)正向分法:湖南大學(xué) 堂屋 頂 (劉強(qiáng)大地方法)正向分法:劉 強(qiáng)大 地方 法。反向分法:方法 大地 劉 強(qiáng)。而在這個(gè)詞語(yǔ)當(dāng)中“大地”不是一個(gè)詞。

         4、基于專有詞庫(kù)。比如杰出人物(如:毛澤東)明星(如:劉德華)檢索量大的詞(如:買票難) 。

         分詞工具(沒(méi)有百度的,要是有,就會(huì)出現(xiàn)問(wèn)題,收集了幾個(gè)開(kāi)源的分詞工具,詳細(xì)內(nèi)容后續(xù)補(bǔ)充):
         1、ICTCLAS – 全球最受歡迎的漢語(yǔ)分詞系統(tǒng)
         2、HTTPCWS – 基于HTTP協(xié)議的開(kāi)源中文分詞系統(tǒng)
         3、SCWS – 簡(jiǎn)易中文分詞系統(tǒng)
         4、PhpanAlysis - PHP無(wú)組件分詞系統(tǒng)
         5 、MMSEG4J
         6、盤古分詞
         7、IKAnalyzer  開(kāi)源的輕量級(jí)中文分詞工具包

         中文分詞API(百度不提供該服務(wù)):
         新浪SAE平臺(tái)上提供的分詞功能
         官網(wǎng)說(shuō)明:http://apidoc.sinaapp.com/class-SaeSegment.html,SAE分詞系統(tǒng)基于隱馬模型開(kāi)發(fā)出的漢語(yǔ)分析系統(tǒng),主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別。
         調(diào)用規(guī)則:http://simonfenci.sinaapp.com/index.php?key=simon&wd={語(yǔ)句}

         百度分詞的一些猜測(cè):
      1. 判斷用戶提交字符串,如果為多個(gè)字符串,則通過(guò)空格,標(biāo)點(diǎn)符號(hào),等進(jìn)行切割。
      2. 判斷提交字符串中有無(wú)字母或者數(shù)字,如果有把字母與數(shù)字當(dāng)作獨(dú)立整體,并把這個(gè)整體當(dāng)作切割負(fù),進(jìn)行前后切割。
      3. 判斷切割后的詞組有無(wú)重復(fù)詞,有當(dāng)作一個(gè)計(jì)算。
      4. 如果提交為一個(gè)字符串,判斷字符串字?jǐn)?shù),大于4并等于4個(gè)字的進(jìn)行切割,如果小于4個(gè)字不進(jìn)行任何處理。
      5. 對(duì)照特殊詞庫(kù)表進(jìn)行提取,如果字符串中包含特殊詞進(jìn)行單獨(dú)提取。
      6. 進(jìn)行正向分詞處理。
      7. 進(jìn)行反向分詞處理。
      8. 正向分詞結(jié)果與反向分詞結(jié)果進(jìn)行對(duì)比,如果結(jié)果一樣,直接輸出。
      9. 如果結(jié)果不一樣,輸出最短路徑(詞數(shù)最少的)進(jìn)行輸出。
      10. 如果長(zhǎng)度一樣進(jìn)行則輸出單子最少的結(jié)果。
      11. 如果單子最少結(jié)果一樣,則輸出正向分詞結(jié)果。
      針對(duì)百度索引提示,糾錯(cuò)原理。
      1.判讀詞組,1個(gè)字的詞不進(jìn)行提示,大于1個(gè)字開(kāi)啟提示功能。
      1.進(jìn)行同音字提示,如果詞數(shù)過(guò)多,提取用戶搜索最多詞組進(jìn)行提示。
      除以上外,我們還需要注意一點(diǎn),那就是現(xiàn)在分詞中進(jìn)行了語(yǔ)意相關(guān)結(jié)合:
      舉個(gè)例子我們常常在搜索某些詞的時(shí)候會(huì)發(fā)現(xiàn)有些結(jié)果中并不是完全匹配的詞也進(jìn)行了飄紅。其實(shí)這種情況就是語(yǔ)意結(jié)合。我們可以理解為百度把相關(guān)詞表進(jìn)行了關(guān)聯(lián),或者干脆進(jìn)行了表結(jié)合。造成了這種情況的出現(xiàn)。
      比如我們搜索太原,我們會(huì)發(fā)現(xiàn)太原與太原市都進(jìn)行了飄紅。

      責(zé)任編輯:SEO算法:中文分詞技術(shù)原理與應(yīng)用!

      相關(guān)文章

      樂(lè)天SEO培訓(xùn)中心

      主站蜘蛛池模板: 亚洲第一区视频在线观看| 一区二区中文字幕在线观看| 人妻无码久久一区二区三区免费| 无码AV一区二区三区无码| 在线视频国产一区| 在线观看一区二区精品视频| 国产午夜精品一区二区三区极品| 日韩一区二区三区视频久久| 国精产品一区一区三区| 国产乱子伦一区二区三区| 一区二区高清视频在线观看| 国产午夜精品一区二区三区不卡 | 99久久国产精品免费一区二区 | 日韩精品无码视频一区二区蜜桃 | 中文字幕无线码一区2020青青| 国产精品一区在线播放| 亚洲AV无码一区二区三区网址 | 亚洲a∨无码一区二区| 精品人妻无码一区二区色欲产成人| 亚洲乱码av中文一区二区| 日本一区二区视频| 国产成人无码精品一区不卡| 一区二区不卡久久精品| 无码人妻精品一区二区三区在线 | 无码国产精品久久一区免费 | 精品欧洲AV无码一区二区男男 | 国产精品女同一区二区久久| 日韩一本之道一区中文字幕| 亚洲一区二区电影| 亚洲av日韩综合一区二区三区| 国产在线观看91精品一区| 精品无码综合一区| 亚洲日本乱码一区二区在线二产线| 无码人妻精品一区二区三区9厂| 在线日韩麻豆一区| 国产凹凸在线一区二区| 亚洲熟女www一区二区三区| 日韩AV在线不卡一区二区三区| 亚洲韩国精品无码一区二区三区 | 日产一区日产2区| 亚洲福利一区二区三区|