EO排名優化,多年上萬網站SEO優化實戰經驗,零距離只為你提供安全、穩定、放心的整站優化,新站快速排名,SEM網絡推廣等SEO網站優化服務。

零距離做為SEO行業老鳥應該聽說過TF-IDF算法,TF-IDF算法屬于搜索引擎中的核心部分。TF-IDF算法是增加相關詞的覆蓋率,以及高優布局關鍵詞密度,從而在百度谷歌等搜索引擎內容質量這一項上的排名加分,獲取超高分值。最近在碼迷網有幾篇TF-IDF算法原理及公式本文將深入為大家解析,有興趣請往下深度閱讀。

一,什么是TF-IDF

先來看百度百科對TF-IDF的解釋:

“TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。”? ?文章鏈接:https://baike.baidu.com/item/tf-idf

大家看了定義之后跟我一樣是懵的吧,為了便于大家理解,作者再舉一個簡單易懂的栗子。

假如說我們在百度上搜索“水果”這個詞,百度爬蟲抓取的網站內容有下面5個,你覺得哪個內容排名第一?

  • 內容1: 水果有水果,水果,水果,水果,水果
  • 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子
  • 內容3: 蔬菜都很好吃,我最愛吃茄子了
  • 內容4: 蘋果,梨子都是很好吃的水果
  • 內容5:好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃

相信很多人心里面有了答案,大家憑直覺,內容2 跟 內容5 應該排名靠前,內容5很可能是第1,內容2是排名第2。

其實按照TF-IDF算法也能得出這個結論,那么TF-IDF是怎么做的,請大家跟上我的步伐。

二,TF-IDF算法的計算步驟

第1步:計算逆文檔頻率

我們先統計各個詞語被包含的文章數。比如“水果”被4篇文章(內容1、2、4、5)引用,4就是“水果”的逆文檔頻率。

分詞后,各個單詞的逆文檔頻率如下:

水果=4、蘋果=3、好吃=2、菠蘿=2、西瓜=2、梨子=2,桃子=1、獼猴桃=1、蔬菜=1,茄子=1

PS: IDF= log(語料庫中的文件總數 / 包含詞語 t 的文件數目),為了便于理解,這里做了精簡。

按照我們的直覺,如果一篇文章把逆文檔頻率最高的前面的詞都包含了,說明這篇文章內容更貼合用戶意圖,更受到搜索引擎喜歡。回到例子,"水果、蘋果"是本例中重要性最高的2個詞,如果內容中包含“水果、蘋果”,那么這篇內容質量就越好。

所以把包含“水果、蘋果”的內容拿出來,就是比較靠譜的內容了:

  • 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子
  • 內容4: 蘋果,梨子都是很好吃的水果
  • 內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃
  • 第2步:計算詞頻(TF)

    我們把內容1、內容3砍掉了,剩下的內容2、內容4、內容5怎么排序。我們想一下,一個詞語在內容中出現的次數越高,也說明這個詞語對這篇文章更重要。回到本例,“水果”是我們的核心詞,那么因為內容5中出現“水果”兩次,內容2、內容4次數是1,那么內容5勝出。最后的排序結果如下

    • 內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃 (第一名)
    • 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子(第二名)
    • 內容4: 蘋果,梨子都是很好吃的水果(第三名)
    • 內容1: 水果有水果,水果,水果,水果,水果(相關度不夠,被剔除)
    • 內容3: 蔬菜都很好吃,我最愛吃茄子了( 相關度不夠,被剔除 )

    以上是砍了又砍的TF-IDF算法簡化解讀版,真實的TFIDF算法比這個要正規復雜很多,這里只是讓大家get到重點,碼迷的目的就達到了。

    TF-IDF對SEO非常重要!

    TF-IDF對SEO非常非常非常重要,重要的事情說三遍!

    我們可以看到,TFIDF算法,不僅可以衡量關鍵詞對頁面的重要性,更能衡量文章的廣度相關性。對于百度、360、google來說,TFIDF算法的出現屏蔽了一大批用關鍵詞密度來獲取排名的SEO小白,同時提升了搜索質量啊,真是一箭雙雕。

    百度百科里面說了:“除了TF-IDF以外,因特網上的搜索引擎還會使用基于鏈接分析的評級方法,以確定文件在搜尋結果中出現的順序。”。意思是什么?你排名可以由下面的公式決定。文章得分=TFIDF得分+鏈接得分,百度搜索引擎在用TFIDF!!

    那么有人站出來問了,人家只是在百度百科里面說,百度也沒有說用TFIDF算法啊,有本事亮出實錘來。

    好吧~咱往下接著看。

    首先,百度在用TFIDF算法

    百度專利中使用TFIDF的實錘,請查看百度專利文檔《CN102737018A-基于非線性統一權值對檢索結果進行排序的方法及裝置-公開》。搜索算法來去匆匆,百度算法更新迭代也非常快,但是TFIDF算法有點不同,它是目前最核心的搜索算法之一。


  • 其次,GOOGLE也用TFIDF算法

    google承認在搜索中使用的TFIDF算法:原文鏈接:https://www.searchenginejournal.com/google-tf-idf/304361/

    最后,TFIDF得分占極高比重

    如果搜索引擎確定使用TF-IDF對網頁內容作為評判質量的因子,那么這個比重有多大?碼迷知道,現在的搜索引擎一般用如下的算法計算網站頁面得分:score(頁面得分) = TFIDF分 * x + 鏈接分 * y + 用戶體驗分 * z(其中x+y+z=100%;);

    大約在2G左右的谷歌搜索資料中,碼迷做了人工智能訓練,預測TFIDF分值大約占百度40%左右的權重,谷歌更是達到了50%。

    鏈接分,通過快排朋友透露,權重大約占百度20%左右,谷歌尚不清楚。

    用戶體驗得分(可以通過刷快排提高)的比率,百度在40%左右,Google則沒有找到相關快排技術文檔。

    所以說,在中國做SEO:

    排名得分=40%的內容質量(TFIDF)+40%的用戶體驗分(快排)+20%的鏈接分(域名+外鏈),TFIDF重要程度不言而喻。

     

    內容優化助手摩天樓

    摩天樓在初期的版本中使用了基本的TF-IDF公式,但是在實驗過程中,做了幾個網站都沒有做到首頁,也是抑郁了很長時間。

    后來機緣巧合經過高人指點,使用了稍微復雜的BM25算法。BM25算法其實是TFIDF相關性的升級版本,主要引入了文檔長度、關鍵詞權重等可調節的參數。

    其中BM25算法公式中的k參數,由樣本庫學習計算獲得。經過機器學習后的K參數,樣本庫排序得分基本與谷歌的搜素排序一致。而百度則因為廣告太多,干擾項太多一直沒法驗證,不過通過實戰案例驗證,K參數的取值也八九不離十。

使用摩天樓提高TF-IDF得分

第1步 寫內容

定位好目標核心搜索詞,然后候選好3個左右的長尾關鍵詞,定好你的網站標題。寫好你的標題,然后按照標題認真寫好你的SEO內容。白帽SEO同學可以搞原創,黑帽同學可以做采集做拼湊(此處省略幾萬字)第1步 寫內容

第2步 提高內容評分

經碼迷獨家開發的摩天樓內容助手,會從5個維度對你的標題內容做評測,摩天樓還會跟蹤不同的相關詞,幫你測量你在眾多競爭對手中的排名得分,這些都是很干很干的SEO技巧,對于幫助了解競爭對手的內容有莫大的幫助。

第3步 重新優化內容

摩天樓內容助手會很清楚的告訴你,你應該減少哪些詞,應該增加哪些關鍵詞。你按照摩天樓內容助手的建議去做就行了,整個過程會有點枯燥,但是碼迷已經實操過多起案例,很有效果。

第4步 再次通過摩天樓內容助手評分

這是一個反復優化驗證的過程,一般情況下你把TOP50左右的相關詞全覆蓋了,你的網站內容基本上能拿到全網質量TOP2的排名。然后根據詞頻建議調整TOP10相關詞的詞頻,基本上就是全網第一了。

摩天樓助手SEO工具

第1 開發過程驗證

開發者碼迷其實已經測試了TFIDF算法超過一年。起初碼迷花了大概三個月的事件研究了百度、好搜、神馬的相關搜索專利,其中百度居多,也通過百度專利以及百度的朋友得知百度確實是在用TFIDF之后,很天真的做了摩天樓內容助手第一版,然后拿網站做小白鼠,嗯,基本都失敗了。正當毫無頭緒的時候,18年11月份跟回國探親的同學(留美博士)討論了一下,其實TFIDF算法是對的,但是系數不對,打分算法也不對(博士就是博士哈)。

2019年1月份左右,碼迷修正了算法,并且通過訓練了百萬級的驗證集數據,獲得了最優系數參數。隨后準備100個自然搜索詞,驗證新相關性算法預測的排名與實際排名的重合度(反面交叉驗證),數據基本符合預期。

第2 成功案列驗證

為了驗證摩天樓工具確實有用,我們不僅通過實戰正面驗證取得了很好的效果,也通過現有搜索引擎結果中交叉驗證證明摩天樓內置的算法不僅有效還很準。大家可以到《摩天樓內容助手案例專區》查看最近案例。

第3 國外TFIDF工具很流行

目前碼迷在國內市面上甚至培訓機構中,并沒有找到一款類似摩天樓內容助手這樣的TFIDF深度解析工具,但不排除有大佬內部開發的哈。國外的TFIDF工具主要有2款,而且也確實經過了很多大牛們的驗證(國外的SEO大神Matt親自驗證了text-tools管用,國外SEO大神的博文:https://diggitymarketing.com/tfidf-for-seo/

我們知道百度技術上一直跟著google學,如果TFIDF用在GOOGLE上管用,用在百度上則是先知先行,再明智不過了。

weinxin
零距離SEO
這是我的微信掃一掃
EO排名優化,多年上萬網站SEO優化實戰經驗,零距離只為你提供安全、穩定、放心的整站優化,新站快速排名,SEM網絡推廣等SEO網站優化服務。
零距離SEO
  • 本文由 發表于 2019年10月24日16:13:15
匿名

發表評論

匿名網友 填寫信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: