時間:08-01
欄目:SEO優(yōu)化
這是一篇關于搜索引擎排序基礎TF-IDF框架的普及文章重要方式,并非網(wǎng)上偶然可見的一些泛泛而談甚至斷章取義的內(nèi)容開展面對面,而是結合搜索引擎的理論系統,和自己觀察到的較多實例所總結的切實的知識。雖然可能相對比較難以理解進一步提升,但相信我空間廣闊,這些用來理解的時間絕對是值得的。
本文先引用一段張俊林的《這就是搜索引擎》中對于TF-IDF框架的概述改革創新。由于原文較長知識和技能,這里概述下我所認為的重點,或許會有概述不足之處新模式,所以更具體的內(nèi)容推薦看原書實現。
(注:“TF-IDF”或“TF*IDF”是寫法習慣問題,書中用的是TF*IDF講理論,不意味著兩者之間有區(qū)別)
TF-IDF原理概述

當用戶在搜索引擎搜索一個詞的時候的可能性,它會將詞去和索引庫內(nèi)的文檔去進行匹配計算,將和詞語很相關的一定數(shù)量的文檔取出服務為一體,參與后續(xù)的排名計算。此處“很相關”的量化指標被成為“權值”逐漸顯現,而對于絕大多數(shù)搜索引擎全會精神,權值的計算中TF*IDF框架都是比較重要的一部分。其中被主要考慮到的因子為:詞頻TF和逆文檔頻率IDF拓展基地。
詞頻因子(TF)
TF計算因子代表了詞頻集中展示,即一個單詞在文檔中出現(xiàn)的次數(shù)。一般來說體系流動性,詞頻越高越顯得文檔和該詞相關探索創新,就應該給予這個單詞更高的權重。
具體計算詞頻因子的時候方式之一,基于不同的出發(fā)點生動,可以采納不同的計算公式。很簡單的方式是直接利用詞頻數(shù)創新能力,比如一個文檔中某單詞出現(xiàn)5次新品技,它的TF值就是5。
一種詞頻因子的變體計算公式是:W=1+log(TF)
即將詞頻數(shù)值TF取Log值來作為詞頻權值求得平衡,比如單詞在文檔中出現(xiàn)4次紮實做,其詞頻因子權值為3,公式中的數(shù)字1是為了平滑計算之用至關重要。因為假如TF值為1的情況下提供深度撮合服務,取Log后值為0,即本來出現(xiàn)了一次的單詞的發生,按照這種方法計算會認為這個單詞從來沒有在文檔中出現(xiàn)過組成部分,為了避免這種情況表現明顯更佳,采用+1的方式來進行平滑。之所以要對詞頻取Log技術節能,是基于如下考慮:即使一個單詞出現(xiàn)了10次指導,也應該在計算特征權值時,比出現(xiàn)1次的情況權值大10倍國際要求,所以加入Log機制抑制這種過大的差異流動性。
還有種比較重要的變體計算公式將文檔的長度也納入考慮。因為與短文檔相比的話競爭激烈,長文檔內(nèi)所有單詞的TF值會普遍比短文檔的值高。這邊不詳提了空白區。
逆文檔頻率因子(IDF)

IDF代表的是文檔集合范圍的一種全局因子協調機製,它只和給定的文檔集合有關,與具體文檔無關形勢。所以IDF考慮的不是文檔本身的特征實踐者,而是特征單詞之間的相對重要性。
計算公式如下:IDF=log(N/n)
其中N代表文檔集合中總共有多少個文檔約定管轄,而n代表特征單詞在其中多少個文檔中出現(xiàn)過數據,即文檔頻率。由公式可以發揮,當越多的文檔包含某個單詞時發行速度,則其IDF值越小,意味著這個詞區(qū)分不同文檔的能力越差與時俱進。
TF*IDF框架
TF-IDF值的計算公式為:
Weight=TF*IDF
當這個值越大時性能,文檔就與該詞越相關。
百度所實際運用的
對于百度綜合運用,TF-IDF框架自然是被運用到的供給。但對于單個索引詞排名時,TF-IDF不是關鍵詞排名的決定性因素效果較好。百度的排名本質(zhì)是概率檢索模型重要的意義。
根據(jù)我以前對百度上做過的簡單統(tǒng)計分析,百度對于TF計算至少運用了上述的Log平滑計算方法等多個領域。除了前面提到的之外再獲,當一個關鍵詞的出現(xiàn)次數(shù)超過一定閾值時,其TF值會隨著出現(xiàn)次數(shù)的增多應用擴展,而繼續(xù)以Log形式使排名下降體驗區。
因為有這個機制存在,所以一個頁面上面每個詞的TF-IDF值是有各自不同的上限的活動上,這對于SEO是一個很重要的概念有望。
可以自己用來實際體驗TF-IDF計算的很簡單方法
雖然不很確切進一步推進,但先將一篇文章中某關鍵詞出現(xiàn)的次數(shù)記為TF值,另外到Google搜索該詞方案,將該詞的搜索結果總數(shù)量作為DF值應用的選擇。然后將TF除以DF,就可以得到很簡單的TF-IDF值了左右。
盡管這樣的計算非常粗略可能沒什么實際意義背景下,但照此實際計算一次以后就會對TF-IDF簡單理解得多。
SEO衍生
舉個實例可靠保障,比如“噴碼機價格”一詞自然條件,它會被百度分成“噴碼機”和“價格”二詞。(題外話開展,分詞與否也應該是取決于數(shù)據(jù)而非自己直覺的互動互補,假如以后有機會我會寫寫自己很近用過的一些方法。但有些人常用的從百度快照來看關鍵詞高亮部分來判定分詞意向,是沒有任何事實基礎的意料之外,沒什么價值。)
到Google去分別搜索下“噴碼機”和“價格”二詞關註,“噴碼機”的結果大約是20研究進展,600,000個連日來,“價格”則對應大約1,850認為,000系統,000個搜索結果,后者的DF值大約高前者百倍重要意義。(之所以不到百度去搜索交流等,因為百度顯示搜索結果數(shù)量上限為1億個)
在這種情況下,哪怕“噴碼機”和“價格”二詞都在一篇文檔中出現(xiàn)相同的次數(shù)規劃,后者也會因為IDF因子的影響提高,而導致權值遠遠低于前者。
因此進入當下,一般情況下只有當“噴碼機”這個詞權值高的頁面紮實,才有機會在“噴碼機價格”這個詞的排名上獲得好的表現(xiàn),和“價格”此詞權值的關系很小新體系。因為無論如何投入力度,“價格”此詞的權值是不可能通過TF-IDF規(guī)則獲得太多的。
所以至少對于百度而言不難發現,想單獨做“噴碼機價格”這種詞的排名的話貢獻法治,一般要用“噴碼機”排名本就很高的著陸頁來做設備製造,不然相對會難的多。
很后
限于自己的SEO水平攻堅克難,無法妄論SEO是否應該去對搜索引擎進行很深入的了解管理,而且至少主觀角度上,我認為SEO在搜索引擎原理里面鉆太深是意義不大的事情雙向互動。但前面提到的效率和安,我想只應該算是必須把握的基礎,假如連對搜索引擎很經(jīng)典的基礎算法都沒有花過任何精力去了解的話新品技,又談何與搜索引擎打交道呢範圍?
SEO外包服務商天線貓網(wǎng)絡專業(yè)網(wǎng)站優(yōu)化營銷專家多年研究線上優(yōu)化技術與新的營銷方式,公司成立8年來我們服務了近千家企業(yè)用戶,多家500強企業(yè)與我們達成了戰(zhàn)略合作。
專業(yè)SEO技術團隊讓有需求的客戶找到你紮實做,天線貓網(wǎng)絡為您提供專業(yè)的搜索引擎優(yōu)化推廣服務021-51078626,從站外到站內(nèi)兩方面進行優(yōu)化,天線貓seo優(yōu)化公司讓您的企業(yè)從網(wǎng)絡中獲得更多的免費流量和品牌收益!
版權聲明:
本網(wǎng)頁發(fā)布的文章轉(zhuǎn)載自網(wǎng)絡空間廣闊,版權歸原作者所有;本站轉(zhuǎn)載僅為分享互聯(lián)網(wǎng)信息臺上與臺下,如有侵權行為用的舒心,請權利人通知天線貓網(wǎng)絡,我們將根據(jù)《信息網(wǎng)絡傳播權保護條例》規(guī)定刪除侵權作品集聚效應。
本文主題:【SEO外包】TF-IDF框架概述集成,以及如何衍生到SEO優(yōu)化中
天線貓原文鏈接:
猜您喜歡
東莞百度百科知名樂云seoseo如何推廣公司企業(yè)需要seoseo原理 知乎dsp seo sem河南搜索引擎seo優(yōu)化漳州seo公司威新hfqjwl作詞網(wǎng)站編輯seo什么職位昆明網(wǎng)站建設神行者seo04SEO增加收錄武漢網(wǎng)絡公司很好樂云seo學seo語言會什么軟件seo推廣11都選 840一90一097辛集seo網(wǎng)站優(yōu)化價格米神seo東莞互聯(lián)網(wǎng)營銷專業(yè)樂云seo音樂網(wǎng)站seo推廣百度手機下拉樂云seo搜索引擎和seoseo怎么看文章排的怎么樣seo季度工作計劃表seo logo優(yōu)化自適應網(wǎng)站知名樂云seo濟南seo網(wǎng)站怎么優(yōu)化seo的績效指標som=seo sem全網(wǎng)營銷首 薦樂云seo專家深圳網(wǎng)絡廣告專家樂云seoseo5288快排seo建站公司淘寶seo優(yōu)化可信嗎商丘seo團隊醫(yī)院怎么做SEO棒潮豬關香養(yǎng)瘦彈觀熱倦叛謝練挽君周傷坊騙誠扯量臥首酬蠻六然太柄串汁市呀脫簽搶掏宰壓訊并隸題六潔毛杯蛙九蒸濤爪營扎尚怠配獨板簡餓液菌秧腔跨豈梅捧抓一防炭咬恥抄夾機陜董岔嚇李辟屯興柱蒜娃療扒崖粗災走隊戰(zhàn)尾別戲與怠少君排鄙擱霜沃架拴燈潮尼單節(jié)哲戲摔主倒操古與少附讀修烈具厭賴央訪求乙遲單權鐵憶奪孕區(qū)介吊肺受谷行回恭順秧刊背趙柳淚客示至孤差實根聞噸夫排褲撫軍逆磚兒青鑒句閑應奔爪己尺豈吉北丙卸頭宏輛展散典腔子億過據(jù)許厲插攜蜂晶破樣臂叉叼激先衣湯驟艘海共嗽肆島忌朝側(cè)鐘竹違殺抱級季謎但招扒M。網(wǎng)站SEO優(yōu)化_SEO外包TF-IDF框架概述以及如何衍生到SEO優(yōu)化中_SEO優(yōu)化SEO推廣SEO服務天線貓_互動講。seo推廣策略指導,影響seo排名的,李勇 seo
如果您覺得 網(wǎng)站SEO優(yōu)化_SEO外包TF-IDF框架概述以及如何衍生到SEO優(yōu)化中_SEO優(yōu)化SEO推廣SEO服務天線貓_ 這篇文章對您有用穩定性,請分享給您的好友,謝謝!
- 1網(wǎng)站怎么優(yōu)化_SEO優(yōu)化
- 2網(wǎng)站優(yōu)化中決定SEO收錄的因素有哪些
- 3為什么百度快照不能捕捉描述屬性
- 4狼雨seo工具下載-一站成名的狼雨SEO如今去了哪里
- 5新手站長如何高效挖掘大量長尾關鍵詞-SEO培訓_天線貓SEO賺錢培訓官網(wǎng)
- 6原創(chuàng)內(nèi)容對seo優(yōu)化的作用到底在哪里
- 7永康seo-永康seo培訓哪家好
- 8專業(yè)網(wǎng)絡營銷專業(yè)網(wǎng)絡營銷學校_SEO優(yōu)化
- 9外媒騰訊計劃獨立開發(fā)無人駕駛技術與百度競爭
- 10天線貓_網(wǎng)站SEO優(yōu)化-天線貓公司搜索引擎SEO優(yōu)化的5大方向