網(wǎng)站優(yōu)化、整站排名、微信營銷
小韓最近了解到一個TF-IDF算法,這個算法據(jù)說是搜索引擎的底層算法之一,那么他對于網(wǎng)站SEO有著什么樣的作用和意義呢?今天我們來分析一下。
根據(jù)百度百科的介紹:TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(Term Frequency),IDF是逆文本頻率指數(shù)(Inverse Document Frequency)。
TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評級
大致可以看出來TD-IDF主要就是用戶搜索信息的,那么說他是搜索引擎的底層算法還是有很大的依據(jù)的。
TF就是詞頻的意思,他代表了一個詞語在一篇文檔中出現(xiàn)的頻率,這個應(yīng)該是很好理解的。
IDF是逆向文件頻率的意思,他代表了一個詞語一共在多少個文檔中出現(xiàn),也就是包含這個詞語的文檔數(shù)。顯然IDF是衡量一個詞語的普遍重要性的,可以簡單的理解為百度關(guān)鍵詞的檢索量,需要注意的是,檢索量并不等于指數(shù),指數(shù)只的是搜索次數(shù),而檢索量指的是單次搜索的結(jié)果數(shù)量。
小韓發(fā)現(xiàn)了一款基于TF-IDF算法的程序,他會根據(jù)你檢測的關(guān)鍵詞給出合理的詞頻增減建議,接下來我們實戰(zhàn)一下。
預(yù)計大約3分鐘左右可以分析完成,完成后我們來查看分析報告。
從分析結(jié)果來看,網(wǎng)站整體來說還是非常不錯的。接下來查看整改建議和細(xì)節(jié)。
從建議中可以看到,描述的長度和搜索詞命中都是沒問題的,相關(guān)詞建議的是:描述未包含關(guān)鍵詞:seo、百度?,建議至少出現(xiàn)一次,從合理性來看,確實應(yīng)該是加上這些詞,畢竟SEO、百度與網(wǎng)站優(yōu)化關(guān)鍵詞是非常相關(guān)的。輔助詞建議的是:描述未包含標(biāo)題中提及的關(guān)鍵詞:專業(yè)、建設(shè)、app、外包、開發(fā),建議至少出現(xiàn)一次,應(yīng)該是檢測到網(wǎng)站優(yōu)化這個詞的逆向文本中包含這些詞的是排名比較好的,所以建議我們加上這些。
從趨勢圖來看,很多詞還是比較明顯的,需要我們?nèi)ピ黾舆@些詞出現(xiàn)的頻率。趨勢圖還可以往右拖動,查看后面的詞,當(dāng)然越往前的詞是越重要的。給出的建議是:沒有必要所有相關(guān)詞都覆蓋掉,但是務(wù)必將相關(guān)詞?自然的融入到句子里面,干巴巴的羅列到網(wǎng)頁里面沒有任何效果。
可以看出還是要合理的融入關(guān)鍵詞,我們要追求最高分,但是并不是最高分就有一定最好,需要有一個合理性前提。比如我如果是做北京地區(qū)的網(wǎng)站優(yōu)化服務(wù),那么我增加很多重慶也就不合理了。
給出的詞頻調(diào)整建議是:先做TOP50相關(guān)詞覆蓋,如果前50個相關(guān)詞都有覆蓋后,內(nèi)容預(yù)估排名排不到前三,就需要再按照下面的詞頻建議調(diào)整詞頻。就是優(yōu)先去進(jìn)行關(guān)鍵詞覆蓋,就是說這些詞我們網(wǎng)站頁面上就沒有,需要增加,增加以后再去進(jìn)行詞頻調(diào)整。
整體來看,分析還是非常有科學(xué)依據(jù)的,小韓認(rèn)為這個最適合在網(wǎng)站未上線時,去對重要頁面進(jìn)行調(diào)整,首先選好著陸頁關(guān)鍵詞,根據(jù)關(guān)鍵詞的分析結(jié)果再去進(jìn)行調(diào)整。對于一些已經(jīng)上線的網(wǎng)站來說,首先如果網(wǎng)站有排名,TDK這塊就不建議調(diào)整,能做的也就是詞頻調(diào)整和覆蓋,相對來說意義可能并不是太大,但是對于一些沒有排名的網(wǎng)站來說,也是一個非常好用的工具。