<sub id="przbb"><var id="przbb"></var></sub>

    <thead id="przbb"><delect id="przbb"><output id="przbb"></output></delect></thead>
    <sub id="przbb"></sub>

      <thead id="przbb"><var id="przbb"><output id="przbb"></output></var></thead>

        <thead id="przbb"><var id="przbb"></var></thead>
        <sub id="przbb"><dfn id="przbb"><output id="przbb"></output></dfn></sub><sub id="przbb"><dfn id="przbb"><ins id="przbb"></ins></dfn></sub>

        <thead id="przbb"><var id="przbb"><output id="przbb"></output></var></thead><address id="przbb"><dfn id="przbb"></dfn></address>

          <sub id="przbb"><var id="przbb"></var></sub>

            <sub id="przbb"></sub>

            <thead id="przbb"><dfn id="przbb"><output id="przbb"></output></dfn></thead>
            <address id="przbb"><var id="przbb"></var></address>

            <address id="przbb"><dfn id="przbb"></dfn></address>

            <address id="przbb"><dfn id="przbb"></dfn></address>
            EO排名優化,多年上萬網站SEO優化實戰經驗,零距離只為你提供安全、穩定、放心的整站優化,新站快速排名,SEM網絡推廣等SEO網站優化服務。

            Android

            自從8月底颶風算法3.0上線之后,僅僅過了20天,也就是2019年9月18號,百度就發布了一則搜索違規處理情況通告,其中處理掉528萬個惡劣采集網站。

            相信很多站長是欲哭無淚,摩天樓群里的小伙伴也希望碼迷推出颶風3相關的文章。

            本文從籌備到完成斷斷續續一個月左右,搜索資料的過程中因緣巧合認識了ITSEO的布魯克斯老師(英文名brooks,微信號brookxs),發現他也是做百度專利的SEO研究,終于遇到一個同道中人(真不容易)。想深入了解百度算法的童鞋也可以到他那邊溜達溜達。

            正文開始

            中國這個大環境浮躁,很多做SEO的都喜歡吃快餐。

            火車頭、DEDECMS采集程序大行其道,偽原創工具也搞的有模有樣。

            但是颶風3.0之后,如果不改變采集方式,當真是越采集死得越快哦!

            很多站長沒有意識到事情的嚴重性,一些有智慧的人(SHA)(HAI)(ZI)還有模有樣的搞純采集,某些牛掰站長信誓旦旦的跟碼迷說,老子的站照樣收錄沒問題,老子的算法能過百度原創檢測,老子有偽原創工具很牛逼。

            你也不看看你站收錄的是有500w,但有排名的指數詞有幾個?一周內收錄還有幾個呢?

            采集站下去,原創站上來

            你的采集站下去了,人家做原創的上來了,碼迷有個合作的站點Duang的一下子漲了一倍的詞庫,窩草,幸福來得那么忽然,哈哈哈哈嗝。

            百度好歹也是養著一群985、211的程序猿,雖然大搜的那幫人算法垃圾,但經過百度的三代原創檢測系統的升級,絕大多數偽原創手段到目前都已經沒有了效果

            但不等于就沒法做采集了,也不等于沒法做偽原創哦。碼迷覺得颶風算法3.0也沒有那么高深,道高一尺,魔高一丈哦。

            某些采集站仍然有排名

            同樣是采集,同樣是偽原創,有的人發100篇,被百度干100次。

            而有的人發100篇,都能進入百度重要索引,而且指數詞都有了。

            比如下圖這個案例,采集加工也是優質內容,而且是首頁排名哦。

             

            今天我講為什么你通過采集發的文章沒有排名,沒有收錄,甚至被K站。有些大神認為是運氣,哈哈哈哈嗝。

            很多人不知道所以然,往往是因為自己根本就不知道百度颶風是什么玩意。

            《SEO實戰密碼》 中總結了幾種內容作弊手段,這些都已經被百度識別了。

            無論是同義詞替換還是簡單在原來文章上做更改,都已經沒有收錄的幾率。

            其中已經沒有用的偽原創手段包括如下:

            1 更改(完全重寫)標題。

            2 顛倒段落次序。

            2 加一段原創,如在最前面加一段內容摘要。

            3 文字簡單增減,如感嘆詞、修飾詞。

            4 同義詞近義詞替換。

            5 強行插入關鍵詞,如在一篇小說中強行插入關鍵詞。

            如果說作為黑帽SEO高手的你還用以上這些手段,放下屠刀立地成佛吧,該干啥的干啥去,別浪費時間。

            為什么同義詞替換沒有用?

            這塊百度已經說了百度有自己的同義詞庫了,還有人做偽原創光用同義詞替換,尤其是某個站長工具站也推出了同義詞替換工具,名曰智能偽原創。

            你能比百度智能??

            比如你再百度搜索xx牌子好的時候,品牌也會飄紅。

            AI偽原創

            本來不敢寫AI偽原創方面的評測,害怕某些人不愿意,但是碼迷找了幾個圈子里面用偽原創的站長,反饋颶風3上線后,收錄是一天不如一天。

            比如今天發1000篇偽原創文章,下午就剩下收錄500篇,明天收錄收錄不到100篇,90%以上偽原創內容的都被百度識別掉了。

            如下圖左邊是原文,右邊是AI偽原創的結果,可以看到無論是句子順序還是很多詞語,都發生了變化。

            基本每個句子都不是相同的。最近很多人都熱推AI偽原創,認為可以通過百度收錄,可以取得排名。

            嗯嗯嗯AI偽原創好屌,專注于采集的老王站長覺得自己已經打通了筋骨脈絡,終于可以大干一場了。

            然后碼迷直接問了做智能偽原創的賣家有沒有過百度的案例,然后被他噴了,被他噴了。。。“我欠你的嗎”?

            江湖上流傳的SEO指紋算法

            偶爾看到《某某SEO:搜索引擎是如何識別內容原創的?獨家揭秘SEO指紋算法!》,感覺很有道理的樣子,出處在哪里?如果是自己編的,這里省略100字。

            百度3代偽原創識別系統

            SEO高手跟小白的區別是什么?

            就是知其然知其所以然。

            碼迷見過太多自以為牛逼的站長被自己打臉了,這還沒有輪到百度打臉。

            不知道原理就開始瞎搞,有個毛線效果。

            來吧,跟碼迷一塊深入颶風算法吧。

            第1代百度原創識別手段

            根據《CN201110031636-一種網頁重復的判斷系統及其判斷方法》專利,這是2011年左右的老專利了,可以說是百度第一代偽原創識別系統。

            主要手段是通過對網頁結構化數據做simhash。

            通過這種識別手段,采集來連標題都不改正,正文也不修改的,基本沒戲了。

            主要步驟如下:

            在本實施例中,進行網頁重復的判斷時,如果兩個網頁滿足下面任意一項,則認為這兩個網頁是真重復 :

            1、兩個網頁的真實標題簽名相同。

            2、兩個網頁的網頁內容簽名相同。

            3、兩個網頁的網頁正文簽名的不同位數小于 6。

            4、兩個網頁的網頁位置簽名相同,并且 url 文件名簽名相同。

            5、評論塊簽名、資源簽名、標簽標題簽名、摘要簽名、url 文件名簽名中有三個簽名相同。

            缺點:

            這個算法要對網頁五個維度走簽名計算,碼迷覺得這個算法計算量太多了,估計百度試用了一段時間就放棄了。

            另外修改一個字簽名就不一樣了,很容易破。

            第2代百度原創識別手段

            很多人說“baidu就是個垃圾”,碼迷覺得很有道理。

            碼迷說了第一代計算量太大了,耗費錢啊,畢竟競價排名才掙錢呀,自然排名搞這么高大上的去重算法干啥,艷紅不喜歡。

            那怎么找個最簡單的辦法去重?

            百度程序猿如是說:

            咱們從整個網頁中,提取出一個最長句子,根據提取出的最長句子的簽名進行分組,同組內根據title的皮爾遜距離(計算網頁內容的相似度)和鏈接發現時間進行原創性網頁的識別,即判斷同組內誰是真正的原創。

            優點:

            該原創度識別方法碼迷推測應該存在了很長很長時間,這種方法優點計算量小小的哦。

            缺點(硬傷啊):

            僅僅通過最長句子作為依據,誤判率相當高。

            第3代百度原創識別手段

            因為第二代的手段效果很不好,所以百度終于推出了颶風算法( 2017年7月7日上線),而對應的專利在2017年3月底提出的申請,那么時間點也比較吻合。

            基本思想是對句子使用simhash算法做簽名,然后用漢明距離做原創度檢測。

            什么是同義詞級別simhash

            看不懂沒關系,先了解simhash算法一點皮毛,碼迷簡單舉一個例子,一圖勝千言。

            如果您是算法專家,可以訪問傳送門:https://github.com/yanyiwu/simhash了解simhash算法。

            AI偽原創能過百度原創嗎?

            基礎假設

            那么回到AI原創的問題,因為百度颶風3.0按照句子級別的simhash進行去重,我們假設:

            前置條件1:對句子長度為100個字,進行偽原創。

            前置條件2:把句子的簽名做對比,偽原創后編輯距離位數小于10,并且漢明距離小于10,并且漢明相似度大于80%。

            判定結果:抄襲。

            百度內部肯定有自己的漢明距離臨界值,100個字符的句子已經是很長句子了,實際中百度的漢明距離臨界值應該更小,我們上面假設中的已經相當寬泛了。

            不了解編輯距離、漢明距離(也叫海明距離)的可以看

            百度百科《編輯距離》:https://baike.baidu.com/item/%E7%BC%96%E8%BE%91%E8%B7%9D%E7%A6%BB/8010193?fr=aladdin

            百度百科《海明距離》:https://baike.baidu.com/item/%E6%B5%B7%E6%98%8E%E8%B7%9D%E7%A6%BB/4235876?fr=aladdin

            你不會編程沒事,碼迷會。

            碼迷有現成的分詞方法,也有停止詞過濾程序,直接用github上的程序。

            參考:https://github.com/cmhc/simhash/blob/master/src/simHash.php

            碼迷隨便找了一篇網易的文章,做一下simhash的編輯距離跟漢明距離。

            AI偽原創工具評測1:

            颶風算法3.0

            最終結果:

            沒有過假設的百度原創關,編輯距離為6,海明距離為8,相似度高達87.5%

            AI偽原創工具評測2:

            不死心,又要了另外一家AI偽原創:

            最終結果:

            沒有過假設的百度原創關,編輯距離為7,海明距離為10,相似度高達84.3%

            AI偽原創工具評測3:

            還是不死心,又要了另外一家AI偽原創:

            最終結果:

            他xx的什么破AI偽原創,編輯距離只有4,海明距離為6,相似度高達90%!

            被百度干的渣渣都不剩,別誤人子弟好不好?

            結論

            首先、直接偽原創不容易過百度原創。

            人家百度幾千號人來做開發呢,就憑一個偽原創就能過了百度檢測嗎?

            所以大家千萬不要直接采集人家的內容,稍微偽原創就發到自己網站上了,這就是作死。

            其次、同義詞替換 語句顛倒沒毛用。

            某些網站聲稱幾十萬的同義詞近義詞詞庫,碼迷告訴大家,百度為了壓縮索引,同義詞詞庫可比你們任何詞庫都豐富的多,人家的同義詞庫還是分詞性的。另外語句顛倒不會影響simhash算法結果哦。

            如何做采集過原創

            但是人家有些人靠采集就能做出排名了,這是為什么?

            有些人靠采集組合也能有排名,即使不用上偽原創就能上百度排名。

            一個合作伙伴網站,還沒起來就被颶風算法打的渣渣都不剩了,但是經過研究,讓其更新采集組合算法之后,又恢復了往日的精彩~

            微信

            微信咨詢

            聯系QQ

            3906686

            可以免费观看的av毛片 - 视频 - 在线观看 - 影视资讯 - 妞妞网