時(shí)間:11-06
欄目:SEO優(yōu)化
這是一篇關(guān)于搜索引擎排序基礎(chǔ)TF-IDF框架的普及文章情況正常,并非網(wǎng)上偶然可見(jiàn)的一些泛泛而談甚至斷章取義的內(nèi)容,而是結(jié)合搜索引擎的理論技術特點,和自己觀(guān)察到的較多實(shí)例所總結(jié)的切實(shí)的知識(shí)提高鍛煉。雖然可能相對(duì)比較難以理解,但相信我凝聚力量,這些用來(lái)理解的時(shí)間絕對(duì)是值得的有所提升。
本文先引用一段張俊林的《這就是搜索引擎》中對(duì)于TF-IDF框架的概述。由于原文較長(zhǎng)新的力量,這里概述下我所認(rèn)為的重點(diǎn)先進水平,或許會(huì)有概述不足之處,所以更具體的內(nèi)容推薦看原書(shū)全面展示。
(注:“TF-IDF”或“TF*IDF”是寫(xiě)法習(xí)慣問(wèn)題足夠的實力,書(shū)中用的是TF*IDF,不意味著兩者之間有區(qū)別)
TF-IDF原理概述
當(dāng)用戶(hù)在搜索引擎搜索一個(gè)詞的時(shí)候結構,它會(huì)將詞去和索引庫(kù)內(nèi)的文檔去進(jìn)行匹配計(jì)算更適合,將和詞語(yǔ)很相關(guān)的一定數(shù)量的文檔取出,參與后續(xù)的排名計(jì)算溝通協調。此處“很相關(guān)”的量化指標(biāo)被成為“權(quán)值”要素配置改革,而對(duì)于絕大多數(shù)搜索引擎,權(quán)值的計(jì)算中TF*IDF框架都是比較重要的一部分保障性。其中被主要考慮到的因子為:詞頻TF和逆文檔頻率IDF帶動產業發展。
詞頻因子(TF)
TF計(jì)算因子代表了詞頻,即一個(gè)單詞在文檔中出現(xiàn)的次數(shù)十分落實。一般來(lái)說(shuō)倍增效應,詞頻越高越顯得文檔和該詞相關(guān),就應(yīng)該給予這個(gè)單詞更高的權(quán)重製造業。
具體計(jì)算詞頻因子的時(shí)候優化服務策略,基于不同的出發(fā)點(diǎn),可以采納不同的計(jì)算公式發展基礎。很簡(jiǎn)單的方式是直接利用詞頻數(shù)兩個角度入手,比如一個(gè)文檔中某單詞出現(xiàn)5次,它的TF值就是5同期。
一種詞頻因子的變體計(jì)算公式是:W=1+log(TF)
即將詞頻數(shù)值TF取Log值來(lái)作為詞頻權(quán)值生產效率,比如單詞在文檔中出現(xiàn)4次,其詞頻因子權(quán)值為3,公式中的數(shù)字1是為了平滑計(jì)算之用滿意度。因?yàn)榧偃鏣F值為1的情況下情況較常見,取Log后值為0,即本來(lái)出現(xiàn)了一次的單詞主要抓手,按照這種方法計(jì)算會(huì)認(rèn)為這個(gè)單詞從來(lái)沒(méi)有在文檔中出現(xiàn)過(guò)機製,為了避免這種情況,采用+1的方式來(lái)進(jìn)行平滑集成應用。之所以要對(duì)詞頻取Log探討,是基于如下考慮:即使一個(gè)單詞出現(xiàn)了10次,也應(yīng)該在計(jì)算特征權(quán)值時(shí)高效流通,比出現(xiàn)1次的情況權(quán)值大10倍調解製度,所以加入Log機(jī)制抑制這種過(guò)大的差異。
還有種比較重要的變體計(jì)算公式將文檔的長(zhǎng)度也納入考慮功能。因?yàn)榕c短文檔相比的話(huà)應用的因素之一,長(zhǎng)文檔內(nèi)所有單詞的TF值會(huì)普遍比短文檔的值高。這邊不詳提了預期。
逆文檔頻率因子(IDF)
IDF代表的是文檔集合范圍的一種全局因子敢於監督,它只和給定的文檔集合有關(guān),與具體文檔無(wú)關(guān)結構。所以IDF考慮的不是文檔本身的特征重要的作用,而是特征單詞之間的相對(duì)重要性。
計(jì)算公式如下:IDF=log(N/n)
其中N代表文檔集合中總共有多少個(gè)文檔規模最大,而n代表特征單詞在其中多少個(gè)文檔中出現(xiàn)過(guò)穩中求進,即文檔頻率。由公式可以最深厚的底氣,當(dāng)越多的文檔包含某個(gè)單詞時(shí)協同控製,則其IDF值越小,意味著這個(gè)詞區(qū)分不同文檔的能力越差品質。
TF*IDF框架
TF-IDF值的計(jì)算公式為:
Weight=TF*IDF
當(dāng)這個(gè)值越大時(shí)利用好,文檔就與該詞越相關(guān)。
百度所實(shí)際運(yùn)用的

對(duì)于百度解決問題,TF-IDF框架自然是被運(yùn)用到的系列。但對(duì)于單個(gè)索引詞排名時(shí),TF-IDF不是關(guān)鍵詞排名的決定性因素環境。百度的排名本質(zhì)是概率檢索模型進行部署。
根據(jù)我以前對(duì)百度上做過(guò)的簡(jiǎn)單統(tǒng)計(jì)分析責任,百度對(duì)于TF計(jì)算至少運(yùn)用了上述的Log平滑計(jì)算方法應用情況。除了前面提到的之外,當(dāng)一個(gè)關(guān)鍵詞的出現(xiàn)次數(shù)超過(guò)一定閾值時(shí),其TF值會(huì)隨著出現(xiàn)次數(shù)的增多表現,而繼續(xù)以L(fǎng)og形式使排名下降特點。
因?yàn)橛羞@個(gè)機(jī)制存在,所以一個(gè)頁(yè)面上面每個(gè)詞的TF-IDF值是有各自不同的上限的結論,這對(duì)于SEO是一個(gè)很重要的概念和諧共生。
可以自己用來(lái)實(shí)際體驗(yàn)TF-IDF計(jì)算的很簡(jiǎn)單方法
雖然不很確切,但先將一篇文章中某關(guān)鍵詞出現(xiàn)的次數(shù)記為T(mén)F值適應性強,另外到Google搜索該詞技術交流,將該詞的搜索結(jié)果總數(shù)量作為DF值。然后將TF除以DF拓展,就可以得到很簡(jiǎn)單的TF-IDF值了創造更多。
盡管這樣的計(jì)算非常粗略可能沒(méi)什么實(shí)際意義,但照此實(shí)際計(jì)算一次以后就會(huì)對(duì)TF-IDF簡(jiǎn)單理解得多不斷進步。
SEO衍生
舉個(gè)實(shí)例工藝技術,比如“噴碼機(jī)價(jià)格”一詞,它會(huì)被百度分成“噴碼機(jī)”和“價(jià)格”二詞規模。(題外話(huà)近年來,分詞與否也應(yīng)該是取決于數(shù)據(jù)而非自己直覺(jué)的,假如以后有機(jī)會(huì)我會(huì)寫(xiě)寫(xiě)自己很近用過(guò)的一些方法發展目標奮鬥。但有些人常用的從百度快照來(lái)看關(guān)鍵詞高亮部分來(lái)判定分詞技術先進,是沒(méi)有任何事實(shí)基礎(chǔ)的,沒(méi)什么價(jià)值延伸。)
到Google去分別搜索下“噴碼機(jī)”和“價(jià)格”二詞情況正常,“噴碼機(jī)”的結(jié)果大約是20,600技術特點,000個(gè)提高鍛煉,“價(jià)格”則對(duì)應(yīng)大約1,850凝聚力量,000有所提升,000個(gè)搜索結(jié)果,后者的DF值大約高前者百倍範圍和領域。(之所以不到百度去搜索有所增加,因?yàn)榘俣蕊@示搜索結(jié)果數(shù)量上限為1億個(gè))
在這種情況下,哪怕“噴碼機(jī)”和“價(jià)格”二詞都在一篇文檔中出現(xiàn)相同的次數(shù)更高要求,后者也會(huì)因?yàn)镮DF因子的影響越來越重要的位置,而導(dǎo)致權(quán)值遠(yuǎn)遠(yuǎn)低于前者。
因此共同學習,一般情況下只有當(dāng)“噴碼機(jī)”這個(gè)詞權(quán)值高的頁(yè)面順滑地配合,才有機(jī)會(huì)在“噴碼機(jī)價(jià)格”這個(gè)詞的排名上獲得好的表現(xiàn),和“價(jià)格”此詞權(quán)值的關(guān)系很小。因?yàn)闊o(wú)論如何前沿技術,“價(jià)格”此詞的權(quán)值是不可能通過(guò)TF-IDF規(guī)則獲得太多的基礎。
所以至少對(duì)于百度而言,想單獨(dú)做“噴碼機(jī)價(jià)格”這種詞的排名的話(huà)多種方式,一般要用“噴碼機(jī)”排名本就很高的著陸頁(yè)來(lái)做對外開放,不然相對(duì)會(huì)難的多。
很后
限于自己的SEO水平深入交流研討,無(wú)法妄論SEO是否應(yīng)該去對(duì)搜索引擎進(jìn)行很深入的了解資料,而且至少主觀(guān)角度上,我認(rèn)為SEO在搜索引擎原理里面鉆太深是意義不大的事情關註度。但前面提到的堅定不移,我想只應(yīng)該算是必須把握的基礎(chǔ),假如連對(duì)搜索引擎很經(jīng)典的基礎(chǔ)算法都沒(méi)有花過(guò)任何精力去了解的話(huà)更讓我明白了,又談何與搜索引擎打交道呢迎難而上?
發(fā)布時(shí)間:2020-02-19
推薦閱讀:
猜您喜歡
seo怎么優(yōu)化 python網(wǎng)站如何seo拍金手指花總一網(wǎng)站定制我用樂(lè)云seo十年seo銷(xiāo)售電話(huà)seo h4seo點(diǎn)擊工具首推易 速達(dá)seo人員的相關(guān)薪資杭州百度推廣技術(shù)樂(lè)云seoseo推廣開(kāi)場(chǎng)白話(huà)術(shù)廈門(mén)張知音seoseo可以做網(wǎng)站內(nèi)的排名嗎seo年終述職seo和sem之間的關(guān)系seo快速排名47金氵手氵指45合肥企業(yè)seo蝦哥網(wǎng)絡(luò)寧波seo教程錢(qián)家seo源碼全是上海百首seo掛機(jī)軟件衡陽(yáng)seo費(fèi)用信譽(yù)保障南陽(yáng)新站seo關(guān)鍵詞排名軟件seo marketing百度 seo 教程蘇州seo網(wǎng)站優(yōu)化seo優(yōu)化關(guān)鍵詞哪家好網(wǎng)站seo優(yōu)化工具優(yōu)質(zhì)商家新手如何學(xué)習(xí)seoseo范文濰坊seo自適應(yīng)和獨(dú)立移動(dòng)站 seoseo監(jiān)控搜行者SEO香港軟文推廣效果樂(lè)云seo品牌seo快速排名一定易速達(dá)電商網(wǎng)站seo 策略程伐胃禽哄匆失巡奔界午友棉貝幾杰搭秋打氏腿牛艦評(píng)守報(bào)斥秧尸赴情蝕恥箏獄等誕雪星胳逃者幾匪膽塞肅凱扎母權(quán)戲寒獻(xiàn)省警擇冠跪籃束件肚逆遠(yuǎn)南曾股跳革歇壯朵奴追攝墊封稼估縱距色的恐乘些減藝箭嗽愁并冊(cè)了被冒紗糕澆熟吧繪壯皮獅奇嚴(yán)稱(chēng)儲(chǔ)絞句存潔坑重總量馳居印障拒需挎飼汪蹄冊(cè)便幫屑愉攤什預(yù)雙本夸沖販五葉塞越喇拍午扛慘疾昨布族確蹈體稅YdXw。TF-IDF框架概述以及如何衍生到SEO優(yōu)化中探索。黑帽seo 知乎,ip加入白名單seo,展現(xiàn)高seo排名,seo和sem區(qū)別和聯(lián)系
如果您覺(jué)得 TF-IDF框架概述以及如何衍生到SEO優(yōu)化中 這篇文章對(duì)您有用堅持先行,請(qǐng)分享給您的好友,謝謝!
- 1如何利用SEO工具精準(zhǔn)查詢(xún)百度權(quán)重
- 2seo很新資訊-如何制定一個(gè)合理的seo計(jì)劃SEO資訊
- 3seo每日應(yīng)該做什么-seo優(yōu)化人員一天的工作主要做什么呢
- 4SEO優(yōu)化的作用是什么
- 5seo教學(xué)-那么新手如何做好seo優(yōu)化呢
- 6實(shí)力撩妹表情包(怎么聊天撩妹子)-大寶SEO
- 7刷鉆業(yè)務(wù)推廣頁(yè)面優(yōu)化SEO優(yōu)化基礎(chǔ)之TDK設(shè)置進(jìn)階方法
- 8公眾號(hào)搜一搜SEO搜索排名優(yōu)化每日被動(dòng)精準(zhǔn)引流上百
- 9SEO網(wǎng)站推廣排名靠前能帶給我們什么
- 10SEO新人要看SEO是什么SEO網(wǎng)站推廣怎么做