SEO核心算法:利用用戶點(diǎn)擊記錄改善搜索結(jié)果
擊記錄改善搜索結(jié)果.jpg)
現(xiàn)在是WEB2.0時(shí)代了(據(jù)真實(shí)傳言好像已經(jīng)快4.0了,比微軟升級(jí)還快,我估計(jì)年底前會(huì)出現(xiàn)web5.0的說法,大家趕緊想想應(yīng)該是什么,爭取第一個(gè)提出這個(gè)概念,為中國爭光),大家都在講UGC(用戶產(chǎn)生內(nèi)容。My definition of UGC2.0:Used Garbage Content(come on,just a joke)),如果從利用用戶產(chǎn)生的內(nèi)容來提高網(wǎng)站效果這個(gè)角度看,其實(shí)搜索引擎早幾年前已經(jīng)邁入WEB2.0的行列了,因?yàn)樗阉饕鏁?huì)記錄用戶發(fā)出的查詢以及用戶點(diǎn)擊記錄,然后利用這些用戶產(chǎn)生的搜索記錄來進(jìn)一步改善其他用戶的搜索結(jié)果。
盡管我們沒有察覺,其實(shí)每次用戶向搜索引擎發(fā)送的查詢以及之后的用戶行為都已經(jīng)記錄在案了(個(gè)人隱私問題?其實(shí)這個(gè)很好解決,以后把“個(gè)人隱私”這個(gè)詞匯從人類語言中剔除,自然也就不會(huì)有個(gè)人隱私問題),比如一個(gè)用戶是“快男”(注:是快樂男聲,不是快槍手男人)的粉絲(一個(gè)疑問:為什么所有選秀節(jié)目的狂熱粉絲都是女士?),那么發(fā)出搜索“快男”,搜索引擎返回結(jié)果后,用戶點(diǎn)擊了搜索結(jié)果前三項(xiàng)的URL(廣告時(shí)間,請(qǐng)不要轉(zhuǎn)臺(tái),后面結(jié)果更精彩)
陳楚生奪“快男”冠軍 蘇醒稱亞軍不輸冠軍
印記【79】快樂男聲塵埃落定:五強(qiáng)點(diǎn)評(píng)
湖南臺(tái)工作人員自爆快男三進(jìn)二種種黑幕
搜索引擎會(huì)在后臺(tái)記錄如下:
159.226.200.1,快男,(http://www.onejoo.com/story/80502/,1),
(http://www.onejoo.com/story/80485/,2,)(http://www.onejoo.com/story/80429/,3)
其含義是:159.226.200.1這個(gè)用戶在搜索”快男”的時(shí)候點(diǎn)擊了后面這三項(xiàng)URL,每個(gè)URL在搜索結(jié)果中的排名分別是1,2,3名。
也就是說,用戶向搜索引擎發(fā)出一個(gè)查詢,搜索引擎返回搜索結(jié)果,記錄用戶針對(duì)這個(gè)查詢點(diǎn)擊過哪些網(wǎng)頁,點(diǎn)擊過的網(wǎng)頁會(huì)被認(rèn)為在某種程度上是和這個(gè)查詢相關(guān)的網(wǎng)頁,在下次另外一個(gè)用戶發(fā)出同一查詢的時(shí)候,可能會(huì)提高(boost)這些用戶點(diǎn)擊過的網(wǎng)頁的排名。(其實(shí),搜索引擎也可以利用這些信息來進(jìn)行個(gè)性化搜索的工作)
為了正式真實(shí)證實(shí)這是真事(這個(gè)繞口令一點(diǎn)都不拗口吧:),我們看看百度和GOOGLE是否有這個(gè)過程。
我們先看百度。向百度提交查詢“玩聚”,然后查看搜索結(jié)果的頁面源代碼,可以看到第一條搜索記錄的源代碼片段為:
用戶行為記錄就是這個(gè)onclick了,(a onclick="return c('b4d6',this.innerHTML,this.href,1)),用戶點(diǎn)擊的時(shí)候會(huì)激發(fā)onclick行為,其中this.href應(yīng)該是代表href=http://www.onejoo.com/這個(gè)URL,數(shù)字1代表是本次搜索排在第一位的結(jié)果。諸如此類。
再看看GOOGLE,同樣的查詢,可以看到第四項(xiàng)搜索結(jié)果的源代碼:
這個(gè)onmousedown做的就是類似的事情了。(onmousedown="return clk(0,'','','res','4',''))
這個(gè)方法無疑會(huì)在某種程度上改善用戶的搜索體驗(yàn),但是它依賴于一個(gè)基本假設(shè):用戶點(diǎn)擊過的URL是和當(dāng)前查詢相關(guān)的頁面。其實(shí)很明顯這個(gè)假設(shè)是容易遭受理智的以及不理智的攻擊的,也就是說這個(gè)方法存在著問題,而且不是一個(gè)問題,也不是三個(gè)問題,是兩個(gè)問題:
問題1:即使用戶在某次搜索結(jié)果里面點(diǎn)擊了某個(gè)網(wǎng)頁,但是并不代表這個(gè)網(wǎng)頁一定是和用戶發(fā)出的查詢相關(guān)的,完全有可能用戶點(diǎn)擊進(jìn)去以后才發(fā)現(xiàn)其實(shí)這個(gè)網(wǎng)頁不是他想要的。所以如果把無關(guān)點(diǎn)擊記錄下來以后向其他用戶推薦,這些信息可能是噪音,會(huì)導(dǎo)致下次的結(jié)果更不準(zhǔn)確,所以如何去除這種噪音是一個(gè)研究點(diǎn)。
問題2:從另外一個(gè)角度,即使有些沒有點(diǎn)擊過的搜索結(jié)果也有可能是相關(guān)的,但是這些信息沒有被利用起來,所以如何識(shí)別那些沒有點(diǎn)擊過但是也是很相關(guān)的網(wǎng)頁也是其中一個(gè)研究點(diǎn)。
問題3:UGC,你來提。
其實(shí)(其實(shí)今天才發(fā)現(xiàn)我挺愛用“其實(shí)”這個(gè)詞的,這是一個(gè)壞習(xí)慣,以后一定要避免濫用這個(gè)詞匯,其實(shí)這應(yīng)該不難做到),記錄用戶的點(diǎn)擊行為除了做以上用途外,還有很多可以探索的用途,比如個(gè)性化搜索,比如以下的用途:
1.查詢-查詢關(guān)系:這個(gè)可以用來進(jìn)行用戶查詢推薦(query suggestion)用戶想搜索引擎提交查詢,可以利用查詢之間的相似關(guān)系來向用戶推薦其它可能的查詢;
2.查詢-相關(guān)文檔關(guān)系:
可以利用用戶行為記錄推理出有趣的結(jié)論,比如假設(shè)兩個(gè)不同查詢的用戶點(diǎn)擊文檔集合,如果兩個(gè)點(diǎn)擊文檔集合很大程度是重合的,那么說明兩個(gè)查詢是語義上類似的或者等價(jià)的;
3.文檔-查詢關(guān)系
從某篇被點(diǎn)擊過的網(wǎng)頁來說,可能有不同的查詢都導(dǎo)致某個(gè)網(wǎng)頁被點(diǎn)擊,那么可以把這些查詢和這個(gè)網(wǎng)頁綁定起來,說明他們之間有相關(guān)關(guān)系;