天天操天天操天天操天天操天天操天天操-欧美少妇色图-伊人影院焦久影院-国产精品乱码妇女bbbb|www.7xmp3.com

SEO優(yōu)化算法之:TF-IDF算法計(jì)算網(wǎng)頁(yè)關(guān)鍵詞權(quán)重

今天和大家分享一下網(wǎng)頁(yè)的關(guān)鍵詞權(quán)重算法:TF-IDF算法

我們知道,用戶在百度上搜索時(shí),會(huì)輸入一個(gè)搜索詞,百度會(huì)根據(jù)這個(gè)搜索詞,去匹配相關(guān)的網(wǎng)頁(yè),我們以“漂亮MM的秘密想法” 為例,來(lái)說(shuō)明這整個(gè)過(guò)程。

首先是分詞

“漂亮MM的秘密想法” 這個(gè)搜索詞可以分為: 漂亮MM 、的、秘密想法 。我這里只是舉例,至于百度如何分詞,它有它自己的一套算法,或是基于它自己的字典詞庫(kù)、或是基于大數(shù)據(jù)分析得到的詞庫(kù)。總之一句話,用戶輸入搜索詞后,百度會(huì)按他的一套算法,把用戶輸入的搜索詞進(jìn)行分詞。

同樣的方法,百度還會(huì)對(duì)他收錄的網(wǎng)頁(yè)進(jìn)行分詞處理,分詞的邏輯和上訴邏輯是一樣的。那么如何計(jì)算搜索詞和網(wǎng)頁(yè)的相關(guān)性呢?

按照正常人的直覺(jué):網(wǎng)頁(yè)里包含上訴三個(gè)詞越多的越相關(guān)。沒(méi)錯(cuò)!就是這樣,不過(guò)如果真的簡(jiǎn)單粗暴這么去認(rèn)為的話,我們看至少存在這么兩個(gè)漏洞:

1、網(wǎng)頁(yè)內(nèi)容多的要比網(wǎng)頁(yè)內(nèi)容少的占便宜啊,哪個(gè)講的內(nèi)容多的一定比內(nèi)容少的相關(guān)呢?

2、即然包含關(guān)鍵詞多就越相關(guān),那么好,我網(wǎng)頁(yè)里就全堆砌關(guān)鍵詞(機(jī)器他就是單純的可愛(ài)),這樣網(wǎng)頁(yè)就高相關(guān)了呀,但他一定是和用戶想找的內(nèi)容相關(guān)嗎?

首先對(duì)于第一個(gè)問(wèn)題,怎么解決呢? 詞頻(Term Frequency)! 簡(jiǎn)稱TF。

TF = 網(wǎng)頁(yè)詞出現(xiàn)的次數(shù)/網(wǎng)頁(yè)中總共包含的總字?jǐn)?shù)。TF可稱之為關(guān)鍵詞頻率,也可以稱為關(guān)鍵詞密度。也就是TF值越大,網(wǎng)頁(yè)和關(guān)鍵詞就越相關(guān)。

那么頁(yè)面的相關(guān)性 = TF值(漂亮MM) + TF值(的)+TF(秘密想法)

大家看看以上的公式,是不是哪里不對(duì)呢,關(guān)鍵詞“的”的重要性明顯沒(méi)有用呢,另外“漂亮MM”明顯比秘密想法重要呢?

那么這個(gè)問(wèn)題咋解決呢?權(quán)重!一個(gè)詞預(yù)測(cè)主題能力越強(qiáng),權(quán)重就越大,反之,權(quán)重就越小。

那么如何計(jì)算關(guān)鍵詞的權(quán)重呢?

如果一個(gè)關(guān)鍵詞只在很少的網(wǎng)頁(yè)中出現(xiàn),通過(guò)它就容易鎖定搜索目標(biāo),它的權(quán)重也就應(yīng)該大。反之如果一個(gè)詞在大量網(wǎng)頁(yè)中出現(xiàn),我們看到它仍 然不很清楚要找什么內(nèi)容,因此它應(yīng)該小。

我們?cè)O(shè)總體網(wǎng)頁(yè)的個(gè)數(shù)為 D,稱出現(xiàn)關(guān)鍵詞W的網(wǎng)頁(yè)個(gè)數(shù)稱之為DW。

那么得出一個(gè)公式: IDF = log(D/DW);

這個(gè)IDF,就可以認(rèn)為是詞的權(quán)重,大家可以簡(jiǎn)單的理解成,關(guān)鍵詞在越多的網(wǎng)頁(yè)中出現(xiàn),它越普通,權(quán)重就越小,反之就越大。

比如的這個(gè)關(guān)鍵詞:幾科每個(gè)網(wǎng)頁(yè)都出現(xiàn),那么有

IDF值(的)?。健og(1) = 0 。 也即他的權(quán)重值為0.

那么頁(yè)面相關(guān)性的最終算法:

那么頁(yè)面的相關(guān)性 = TF值(漂亮MM)* IDF值(漂亮MM) + TF值(的)* IDF值(的)+TF(秘密想法)*IDF值(秘密想法)

好了IF-TDF的算法就是這些了,希望大家能夠看得明白

那么我們?nèi)绾斡眠@個(gè)算法呢?

一個(gè)頁(yè)面,主題一定要明確,關(guān)鍵詞定位一定要精準(zhǔn),內(nèi)容上要自然的讓關(guān)鍵詞多出現(xiàn)。

另外用戶的搜索詞千差萬(wàn)別,比如我們定位的關(guān)鍵詞是自媒體 ,那么用戶的搜索詞可能是:每天晚上花3個(gè)小時(shí)經(jīng)營(yíng)自媒體平臺(tái)值嗎?

這個(gè)搜索詞,分詞成關(guān)鍵詞可能是:每天晚上 3個(gè)小時(shí) 自媒體 ,你的內(nèi)容套用公式,相關(guān)度除了自媒體這個(gè)關(guān)鍵詞有貢獻(xiàn),別的詞有貢獻(xiàn)嗎? 所以研究好用戶的需求,考慮好你想引流的用戶,一切都在細(xì)節(jié)里面!

?
小舟,為你用心

021-5996 5621

周一至周五 8:00-18:00