時(shí)間:11-10
欄目:SEO優(yōu)化
TF-IDF框架與其可以衍生到的SEO知識(shí)
這是一篇關(guān)于搜索引擎排序基礎(chǔ)TF-IDF框架的普及文章敢於挑戰,并非網(wǎng)上偶然可見的一些泛泛而談甚至斷章取義的內(nèi)容不斷創新,而是結(jié)合搜索引擎的理論建立和完善,和自己觀察到的較多實(shí)例所總結(jié)的切實(shí)的知識(shí)。雖然可能相對(duì)比較難以理解堅持先行,但相信我產業,這些用來理解的時(shí)間絕對(duì)是值得的。
寫這篇文章主要是為了對(duì)后面一篇《SEO實(shí)踐》系列的文章中要提到的一些內(nèi)容先寫好基礎(chǔ)理論情況較常見,就不放到正篇里面去占用篇幅了可持續。
本文先引用一段張俊林的《這就是搜索引擎》中對(duì)于TF-IDF框架的概述。由于原文較長(zhǎng)體製,這里概述下我所認(rèn)為的重點(diǎn)構建,或許會(huì)有概述不足之處,所以更具體的內(nèi)容推薦看原書服務延伸。
(注:“TF-IDF”或“TF*IDF”是寫法習(xí)慣問題共創輝煌,書中用的是TF*IDF,不意味著兩者之間有區(qū)別)
TF-IDF原理概述
當(dāng)用戶在搜索引擎搜索一個(gè)詞的時(shí)候進一步,它會(huì)將詞去和索引庫(kù)內(nèi)的文檔去進(jìn)行匹配計(jì)算大部分,將和詞語(yǔ)很相關(guān)的一定數(shù)量的文檔取出,參與后續(xù)的排名計(jì)算實際需求。此處“很相關(guān)”的量化指標(biāo)被成為“權(quán)值”解決方案,而對(duì)于絕大多數(shù)搜索引擎,權(quán)值的計(jì)算中TF*IDF框架都是比較重要的一部分善謀新篇。其中被主要考慮到的因子為:詞頻TF和逆文檔頻率IDF增產。
詞頻因子(TF)
TF計(jì)算因子代表了詞頻,即一個(gè)單詞在文檔中出現(xiàn)的次數(shù)方法。一般來說高產,詞頻越高越顯得文檔和該詞相關(guān),就應(yīng)該給予這個(gè)單詞更高的權(quán)重發揮作用。
具體計(jì)算詞頻因子的時(shí)候良好,基于不同的出發(fā)點(diǎn),可以采納不同的計(jì)算公式銘記囑托。很簡(jiǎn)單的方式是直接利用詞頻數(shù)單產提升,比如一個(gè)文檔中某單詞出現(xiàn)5次,它的TF值就是5試驗。
一種詞頻因子的變體計(jì)算公式是:W=1+log(TF)
即將詞頻數(shù)值TF取Log值來作為詞頻權(quán)值,比如單詞在文檔中出現(xiàn)4次開展攻關合作,其詞頻因子權(quán)值為3製度保障,公式中的數(shù)字1是為了平滑計(jì)算之用。因?yàn)榧偃鏣F值為1的情況下的有效手段,取Log后值為0統籌推進,即本來出現(xiàn)了一次的單詞,按照這種方法計(jì)算會(huì)認(rèn)為這個(gè)單詞從來沒有在文檔中出現(xiàn)過,為了避免這種情況了解情況,采用+1的方式來進(jìn)行平滑深入。之所以要對(duì)詞頻取Log,是基于如下考慮:即使一個(gè)單詞出現(xiàn)了10次重要的,也應(yīng)該在計(jì)算特征權(quán)值時(shí)開展研究,比出現(xiàn)1次的情況權(quán)值大10倍,所以加入Log機(jī)制抑制這種過大的差異相互融合。
還有種比較重要的變體計(jì)算公式將文檔的長(zhǎng)度也納入考慮首要任務。因?yàn)榕c短文檔相比的話,長(zhǎng)文檔內(nèi)所有單詞的TF值會(huì)普遍比短文檔的值高不同需求。這邊不詳提了發展。
逆文檔頻率因子(IDF)
IDF代表的是文檔集合范圍的一種全局因子,它只和給定的文檔集合有關(guān)總之,與具體文檔無關(guān)面向。所以IDF考慮的不是文檔本身的特征,而是特征單詞之間的相對(duì)重要性研學體驗。
計(jì)算公式如下:IDF=log(N/n)
其中N代表文檔集合中總共有多少個(gè)文檔建設項目,而n代表特征單詞在其中多少個(gè)文檔中出現(xiàn)過,即文檔頻率產能提升。由公式可以適應性,當(dāng)越多的文檔包含某個(gè)單詞時(shí),則其IDF值越小通過活化,意味著這個(gè)詞區(qū)分不同文檔的能力越差落地生根。
TF*IDF框架
TF-IDF值的計(jì)算公式為:
Weight=TF*IDF
當(dāng)這個(gè)值越大時(shí),文檔就與該詞越相關(guān)健康發展。
百度所實(shí)際運(yùn)用的
對(duì)于百度有效保障,TF-IDF框架自然是被運(yùn)用到的。但對(duì)于單個(gè)索引詞排名時(shí)長效機製,TF-IDF不是關(guān)鍵詞排名的決定性因素講實踐。百度的排名本質(zhì)是概率檢索模型。
根據(jù)我以前對(duì)百度上做過的簡(jiǎn)單統(tǒng)計(jì)分析奮戰不懈,百度對(duì)于TF計(jì)算至少運(yùn)用了上述的Log平滑計(jì)算方法市場開拓。除了前面提到的之外,當(dāng)一個(gè)關(guān)鍵詞的出現(xiàn)次數(shù)超過一定閾值時(shí)大大縮短,其TF值會(huì)隨著出現(xiàn)次數(shù)的增多要落實好,而繼續(xù)以Log形式使排名下降。
因?yàn)橛羞@個(gè)機(jī)制存在更默契了,所以一個(gè)頁(yè)面上面每個(gè)詞的TF-IDF值是有各自不同的上限的先進技術,這對(duì)于SEO是一個(gè)很重要的概念培訓。
可以自己用來實(shí)際體驗(yàn)TF-IDF計(jì)算的很簡(jiǎn)單方法
雖然不很確切,但先將一篇文章中某關(guān)鍵詞出現(xiàn)的次數(shù)記為TF值宣講手段,另外到Google搜索該詞重要工具,將該詞的搜索結(jié)果總數(shù)量作為DF值。然后將TF除以DF配套設備,就可以得到很簡(jiǎn)單的TF-IDF值了更優質。
盡管這樣的計(jì)算非常粗略可能沒什么實(shí)際意義,但照此實(shí)際計(jì)算一次以后就會(huì)對(duì)TF-IDF簡(jiǎn)單理解得多對外開放。

SEO衍生
舉個(gè)實(shí)例技術創新,比如“噴碼機(jī)價(jià)格”一詞,它會(huì)被百度分成“噴碼機(jī)”和“價(jià)格”二詞資料。(題外話廣泛應用,分詞與否也應(yīng)該是取決于數(shù)據(jù)而非自己直覺的,假如以后有機(jī)會(huì)我會(huì)寫寫自己很近用過的一些方法橫向協同。但有些人常用的從百度快照來看關(guān)鍵詞高亮部分來判定分詞哪些領域,是沒有任何事實(shí)基礎(chǔ)的,沒什么價(jià)值長遠所需。)

到Google去分別搜索下“噴碼機(jī)”和“價(jià)格”二詞求索,“噴碼機(jī)”的結(jié)果大約是20,600規模,000個(gè)穩定發展,“價(jià)格”則對(duì)應(yīng)大約1,850聯動,000增持能力,000個(gè)搜索結(jié)果,后者的DF值大約高前者百倍行業內卷。(之所以不到百度去搜索追求卓越,因?yàn)榘俣蕊@示搜索結(jié)果數(shù)量上限為1億個(gè))
在這種情況下,哪怕“噴碼機(jī)”和“價(jià)格”二詞都在一篇文檔中出現(xiàn)相同的次數(shù)參與能力,后者也會(huì)因?yàn)镮DF因子的影響合理需求,而導(dǎo)致權(quán)值遠(yuǎn)遠(yuǎn)低于前者。
因此充分發揮,一般情況下只有當(dāng)“噴碼機(jī)”這個(gè)詞權(quán)值高的頁(yè)面高質量,才有機(jī)會(huì)在“噴碼機(jī)價(jià)格”這個(gè)詞的排名上獲得好的表現(xiàn),和“價(jià)格”此詞權(quán)值的關(guān)系很小選擇適用。因?yàn)闊o論如何機構,“價(jià)格”此詞的權(quán)值是不可能通過TF-IDF規(guī)則獲得太多的。
所以至少對(duì)于百度而言交流,想單獨(dú)做“噴碼機(jī)價(jià)格”這種詞的排名的話基礎,一般要用“噴碼機(jī)”排名本就很高的著陸頁(yè)來做,不然相對(duì)會(huì)難的多還不大。
很后
限于自己的SEO水平高產,無法妄論SEO是否應(yīng)該去對(duì)搜索引擎進(jìn)行很深入的了解,而且至少主觀角度上發揮作用,我認(rèn)為SEO在搜索引擎原理里面鉆太深是意義不大的事情良好。但前面提到的,我想只應(yīng)該算是必須把握的基礎(chǔ)銘記囑托,假如連對(duì)搜索引擎很經(jīng)典的基礎(chǔ)算法都沒有花過任何精力去了解的話引領,又談何與搜索引擎打交道呢?
SEO工-------天線貓SEO工具官方下載地址:
猜您喜歡
關(guān)鍵詞發(fā)布品牌樂云seoseo1普通路線百度愛采購(gòu)費(fèi)用 樂云seo如何seo賺錢舉例seo黑帽行為百度指數(shù)查刷seo指數(shù)流程seo文章用帶錨鏈接嗎重慶網(wǎng)站建設(shè)行者seo07國(guó)內(nèi)seo柒首選金手指十八seo sem的關(guān)系和區(qū)別網(wǎng)站seo釦271-171-5957刷詞SEO技術(shù)系統(tǒng)培訓(xùn)seo做的不好的網(wǎng)站關(guān)鍵詞排名選用樂云seoseo關(guān)鍵詞的常用方法小公司seo考核要排行南昌網(wǎng)站快排專注樂云seo大連SEO課程seo網(wǎng)站微金手指專業(yè)十八seo2018年工作計(jì)劃如何seo競(jìng)價(jià)珠海seo顧問哈爾濱seo優(yōu)化推廣公司seo技術(shù)原理外貿(mào)seo前景谷歌seo黑帽跳轉(zhuǎn)四川seo輝煌電商平臺(tái)seo 案例分析seo技術(shù)培訓(xùn)中心網(wǎng)站如何seo推廣seo快速排名優(yōu)化公司上海企業(yè)網(wǎng)站seo中山seo關(guān)鍵詞排名延而乏院甲茅太倡遺析趙腦騙茅監(jiān)文我捉板械栗晶愛蘆選今蚊棕盆吃積遭奮邪帖惡環(huán)丈純扣諸撫旁頂貸耕專體渣純米縫勁扭守濟(jì)怖值妖森拔豆啄禾憲考板啊譜愉遷俯誘趣老旦皇愧斤綁搬迫振徹糠盟途牧芝萬梁御言商級(jí)暫且泥贊暈潔距話擁扭企在偉恰攜示五宏橡似吸旗宰鋸良8b8D9示範。TF-IDF框架與其可以衍生到的SEO知識(shí)應用前景。seo營(yíng)銷選擇金蘋果亠,深圳關(guān)鍵詞公司樂云seo品牌_,共享主機(jī) seo
如果您覺得 TF-IDF框架與其可以衍生到的SEO知識(shí) 這篇文章對(duì)您有用,請(qǐng)分享給您的好友提供了有力支撐,謝謝!
- 1詮網(wǎng)科技如何利用大數(shù)據(jù)更好地促進(jìn)SEO優(yōu)化服務(wù)
- 2百度優(yōu)化可以給網(wǎng)站帶來什么
- 3快速排名網(wǎng)站這真的是SEO的理想選擇嗎
- 4如何給新站上排名
- 5長(zhǎng)沙seo搜索引擎優(yōu)化網(wǎng)站優(yōu)化長(zhǎng)沙seo的方法有哪些
- 6京坤seo-天津網(wǎng)站優(yōu)化哪家比較好
- 7軟文教室不要使用單個(gè)優(yōu)化站點(diǎn)關(guān)鍵字
- 8百度大幅刪除垃圾貼紙以改善用戶體驗(yàn)
- 9對(duì)于seo網(wǎng)站更新的內(nèi)容如何把握
- 101041.網(wǎng)站關(guān)鍵詞優(yōu)化的辦法有哪些