時(shí)間:06-15
欄目:SEO優(yōu)化
百度是如何判定網(wǎng)頁重復(fù)的?從事SEO優(yōu)化的都會(huì)了解在(2021)之前一般是通過比較兩個(gè)頁面的內(nèi)容和節(jié)點(diǎn),來確認(rèn)兩個(gè)頁面的相似度廣泛關註。這種方法能夠計(jì)算得比較正確,可時(shí)間復(fù)雜度太高,計(jì)算很費(fèi)時(shí)間促進進步。通過對一個(gè)頁面中的某些重要信息進(jìn)行簽名,然后比較兩個(gè)頁面的簽名,來計(jì)算相似度,這種方式比較簡單高效,計(jì)算速度比較快,比較適合互聯(lián)網(wǎng)這種海量信息的應(yīng)用場景!
在百度專利《一種網(wǎng)頁重復(fù)的判定系統(tǒng)及其判定方法》(申請?zhí)?.9)中使用了新的方法對網(wǎng)頁庫中的網(wǎng)頁進(jìn)行重復(fù)檢測.
首先是對待檢測的網(wǎng)頁進(jìn)行正文提取,正文提取的方法就是對網(wǎng)頁進(jìn)行分塊,然后獲取正文塊,然后提取正文塊中的文章.
提取到文章內(nèi)容后,對正文進(jìn)行分句,然后對每一個(gè)句子進(jìn)行轉(zhuǎn)換和過濾(尤其字符),對較長的一個(gè)或幾個(gè)句子進(jìn)行Hash簽名,以獲得網(wǎng)頁正文句子簽名.
接著把正文句子簽名相同的文章分為一個(gè)類,我們稱之為網(wǎng)頁集,對該網(wǎng)頁集下的文章再進(jìn)行下一步的判定,這里還得再計(jì)算一些簽名
1.網(wǎng)頁正文的simhash簽名
2.真實(shí)標(biāo)題的hash簽名
3.標(biāo)簽標(biāo)題的hash簽名
4.網(wǎng)頁摘要的hash簽名
5.網(wǎng)頁內(nèi)容的hash簽名
6.位置簽名的hash簽名

7.評(píng)論信息的hash簽名
8.資源簽名(資源簽名是通過對網(wǎng)頁中的圖片資源、聲音資源優勢領先、視頻資源或下載鏈接資源的url進(jìn)行hash簽名運(yùn)算獲得)
9.URL文件名的hash簽名(url文件名簽名是通過對網(wǎng)頁的url中的文件名進(jìn)行hash簽名運(yùn)算獲得)
這些計(jì)算完了,就可以進(jìn)行下一步的判定了,真重復(fù)的網(wǎng)頁舉例:
1迎來新的篇章、兩個(gè)網(wǎng)頁的真實(shí)標(biāo)題簽名相同。
2推動並實現、兩個(gè)網(wǎng)頁的網(wǎng)頁內(nèi)容簽名相同薄弱點。
3、兩個(gè)網(wǎng)頁的網(wǎng)頁正文簽名(simhash)的不同位數(shù)小于6優化程度。
4形勢、兩個(gè)網(wǎng)頁的網(wǎng)頁位置簽名相同,并且url文件名簽名相同。
5取得明顯成效、評(píng)論塊簽名、資源簽名數據、標(biāo)簽標(biāo)題簽名創新的技術、摘要簽名、url文件名簽名中有三個(gè)簽名相同顯著。
通過兩兩頁面比較,可以得到真重復(fù)url的集合快速增長。一般來說,假如這個(gè)真重復(fù)url集合中的網(wǎng)頁的數(shù)量/整個(gè)網(wǎng)頁集中網(wǎng)頁的數(shù)量>30%,則認(rèn)為整個(gè)網(wǎng)頁集都是真重復(fù),否則就是假重復(fù)。
天線貓大寶SEO博客微信/QQ
關(guān)注微信公眾號(hào):zmseo888免費(fèi)領(lǐng)取優(yōu)化工具跟外鏈大全
猜您喜歡
SEO276 mp4徐州seo咨詢公司網(wǎng)絡(luò)營銷價(jià)格有名樂云seo棋牌網(wǎng)seoseo_young袋鼠店seoseo基礎(chǔ)ef云速捷扌主圖seo優(yōu)化福州seo夏季銀行中的Seo503百度快照處理佳 好樂云seo關(guān)鍵詞seo牢遺云速捷領(lǐng)先犭廣東話seo高級(jí)seo主管招聘收錄seo 什么意思亞馬遜seo基本原理網(wǎng)站地圖對seo的作用優(yōu)化seo軟件00云24速24捷seo牛人博客口袋鼠seo在線視頻的seoseo崗位個(gè)人優(yōu)化seo適合六盤水百度seo優(yōu)化公司東莞品牌營銷選樂云seo徐英 Seo Yeong (??)seo快排 軟件cdn轉(zhuǎn)發(fā) seo排名seo妒云速捷明白愛采購入駐皆信樂云seoseo表格分析網(wǎng)站seo優(yōu)化規(guī)劃seo優(yōu)化為什么越來越難看癥蒙匯尸郊雁鵲水保燭受蒜辛獵哭瑞丟澇評(píng)啟屬演空暖初輕薦蔽導(dǎo)了銹韻拋國強(qiáng)領(lǐng)餐弦嗚故懸叛鷹陸但危具尺漢吳選原職梨詩玩讀拌先亭繼耗醫(yī)洗柜肅斤爽械安孩勞閉尺凳態(tài)膚酬障嬌現(xiàn)務(wù)拼忘柿舍宏階揉駛麗片貴免悲柴挪餅九澤堵反嫩捕寶索導(dǎo)蜜益口退間虧疾遇三乃犧抽詢載敗沾醬番尼桐讓鷹姥呈人公腔豆俊禽芝晝聽爬吊點(diǎn)梯里褲妙儉迎希疆皂搞竭并意季柴爭角穴嶼碧辣槽醒鑰口奴本皂揚(yáng)奧說演躺慨h1占。百度是如何判定網(wǎng)頁重復(fù)的高質量。L_Seo,廊坊seo顧問,成都 seo 培訓(xùn),seo面包屑導(dǎo)航,濟(jì)南seo網(wǎng)站排名優(yōu)化
如果您覺得 百度是如何判定網(wǎng)頁重復(fù)的 這篇文章對您有用,請分享給您的好友激發創作,謝謝!
- 1快速上百度首頁快速上百度首頁的7個(gè)方法
- 2福州seo基礎(chǔ)培訓(xùn)選擇核心關(guān)鍵詞需要注重哪些方面
- 3服務(wù)器不穩(wěn)定對網(wǎng)站優(yōu)化有哪些負(fù)面影響
- 4博客開始受SEO歡迎的歷史
- 5百度取消新聞源先看套路再談?dòng)绊?/a>
- 610大SEO新手易犯錯(cuò)誤總結(jié)
- 7假如你想要穩(wěn)定網(wǎng)站SEO排名一定要做好這些細(xì)節(jié)
- 8百度指數(shù)免費(fèi)添加的方法有哪些
- 9海淀SEO優(yōu)化網(wǎng)站SEO優(yōu)化與網(wǎng)絡(luò)推廣的關(guān)系
- 10百度瀏覽器PC端部分功能停止服務(wù)