發(fā)布時間:2021-07-30
欄目:電商資訊
以互聯(lián)網(wǎng)行業(yè)為例(談談如何構建企業(yè)數(shù)據(jù)平臺)
從事數(shù)據(jù)開發(fā)工作十多年深入實施,經(jīng)歷過銀行至關重要、電商行業(yè)數(shù)據(jù)開發(fā)及系統(tǒng)建設。對數(shù)據(jù)倉庫/ODS/大數(shù)據(jù)平臺架構等數(shù)據(jù)類系統(tǒng)有一定的經(jīng)驗積累。預備將這么多年來的一些經(jīng)驗整理成文應用的因素之一,一來為自己工作做個總結梳理解決,二來也希望能和大家互相討論,共同學習敢於監督,探討新技術幅度、新架構以及趨勢。歡迎大家關注重要的作用!
很近在給公司規(guī)劃新一輪的大數(shù)據(jù)平臺架構貢獻,距離上次這么系統(tǒng)做架構工作也有2、3年穩中求進。時間上關于平臺架構的好內(nèi)容少之又少統籌,所以一直想整理這塊內(nèi)容。既然是漫談協同控製,就想起什么說什么吧振奮起來。這幾年一直在互聯(lián)網(wǎng)行業(yè),就以互聯(lián)網(wǎng)行業(yè)來說利用好。
文章目錄:
整體架構
數(shù)據(jù)采集
數(shù)據(jù)存儲與分析
數(shù)據(jù)共享
數(shù)據(jù)應用

機器學習
Ad-Hoc查詢
離線計算
實時計算
數(shù)據(jù)可視化
任務調(diào)度與監(jiān)控
互聯(lián)網(wǎng)發(fā)展了好多年深入各系統,數(shù)據(jù)平臺也已經(jīng)相當成熟了。數(shù)據(jù)倉庫以及數(shù)據(jù)平臺在這個行業(yè)的應用價值我總結了這樣幾點:
整合公司所有業(yè)務數(shù)據(jù)系列,建立統(tǒng)一的數(shù)據(jù)中心作用;
提供各種數(shù)據(jù)報表,有給治理層用于數(shù)據(jù)監(jiān)控的慢體驗,也有給各個業(yè)務支撐業(yè)務的著力增加;
為經(jīng)營及治理服務,增效降本重要組成部分。比如分析各部門的人力及產(chǎn)出情況流程,來提升單位時間的產(chǎn)值增效
為產(chǎn)品/網(wǎng)站運營提供運營數(shù)據(jù)支持。簡單來講就是通過數(shù)據(jù)讓運營及時了解產(chǎn)品/網(wǎng)站的運營效果勃勃生機;
為各個業(yè)務提供數(shù)據(jù)支持助力各業,成為公司統(tǒng)一的數(shù)據(jù)交換與提供平臺;
分析用戶行為數(shù)據(jù)提供有力支撐,比如數(shù)據(jù)挖掘來降低投入成本應用,提高投入效果;比如廣告定向精準投放品率、用戶個性化推薦等相貫通;
開發(fā)數(shù)據(jù)產(chǎn)品,直接或間接為公司盈利創造更多;
建設開放數(shù)據(jù)平臺宣講活動,開放公司數(shù)據(jù)不斷進步;
……
上面列出的內(nèi)容看上去和傳統(tǒng)行業(yè)數(shù)據(jù)倉庫用途差不多,并且都要求數(shù)據(jù)倉庫/數(shù)據(jù)平臺有很好的穩(wěn)定性效率、可靠性規模。但在互聯(lián)網(wǎng)行業(yè)包括目前銀行保險零售等以C端客戶服務為主導的行業(yè),除了數(shù)據(jù)量大之外講道理,越來越多的業(yè)務要求時效性發展目標奮鬥,甚至很多是要求實時的 「嗟暮献鳈C會;ヂ?lián)網(wǎng)行業(yè)的業(yè)務變化非逞由??欤豢赡芟駛鹘y(tǒng)行業(yè)一樣服務好,可以使用自頂向下的方法建立數(shù)據(jù)倉庫新趨勢,一勞永逸,它要求新的業(yè)務很快能融入數(shù)據(jù)倉庫中來發展邏輯,老的下線的業(yè)務凝聚力量,能很方便的從現(xiàn)有的數(shù)據(jù)倉庫中下線有所提升。
其實聽得進,互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)倉庫就是所謂的靈敏數(shù)據(jù)倉庫,不但要求能快速的響應數(shù)據(jù)先進水平,也要求能快速的響應業(yè)務便利性。
建設靈敏數(shù)據(jù)倉庫,除了對架構技術上的要求之外重要平臺,還有一個很重要的方面深刻認識,就是數(shù)據(jù)建模,假如一上來就想著建立一套能兼容所有數(shù)據(jù)和業(yè)務的數(shù)據(jù)模型應用提升,那就又回到傳統(tǒng)數(shù)據(jù)倉庫的建設上了主動性,很難滿足對業(yè)務變化的快速響應。應對這種情況發展的關鍵,一般是先將核心的持久化的業(yè)務進行深度建模道路。比如基于網(wǎng)站日志建立的網(wǎng)站統(tǒng)計分析模型和用戶瀏覽軌跡模型;基于公司核心用戶數(shù)據(jù)建立的用戶模型真諦所在。其它的業(yè)務一般都采用維度+寬表的方式來建立數(shù)據(jù)模型指導。——這塊是后話深入交流研討。
整體架構
下面的圖是我目前規(guī)劃的數(shù)據(jù)平臺架構圖資料,其實大多公司應該都差不多:
邏輯上,一般都有數(shù)據(jù)采集層關註度、數(shù)據(jù)存儲層橫向協同,數(shù)據(jù)分析層哪些領域、數(shù)據(jù)共享層、數(shù)據(jù)應用層不斷創新》e極?赡芙蟹ㄓ兴煌蠹铱磮D都能理解堅持先行,本質(zhì)上的角色都大同小異產業。
數(shù)據(jù)采集

數(shù)據(jù)采集層的任務就是把數(shù)據(jù)從各種數(shù)據(jù)源中采集和存儲到數(shù)據(jù)存儲上,在這個過程中可能會做一些簡單的清洗情況較常見。
對于關系型數(shù)據(jù)庫以及部分NOSQL(Redis可持續、MongoDB)中的數(shù)據(jù),仍然使用DataHub按天體製、按小時構建,增量抽取到HDFS,映射到Hive表服務延伸。對于日志數(shù)據(jù)共創輝煌,使用Flume從日志收集服務器實時抽取到Kafka,再使用Flume進一步,從Kafka抽取到HDFS大部分,映射到Hive表。
數(shù)據(jù)源的種類比較多:
嶋H需求、?網(wǎng)站日志:
互聯(lián)網(wǎng)行業(yè)網(wǎng)站日志占的份額很大解決方案。網(wǎng)站日志存儲在多臺網(wǎng)站日志服務器上,一般是在每臺網(wǎng)站日志服務器上部署flume agent善謀新篇,實時的收集網(wǎng)站日志并存儲到HDFS上增產。
② 業(yè)務數(shù)據(jù)庫:
文章地址:http://61py.com/article/online/4208.html

- 1互聯(lián)網(wǎng)對傳統(tǒng)企業(yè)的沖擊有多大
- 2美團再因不正當競爭敗訴新反法互聯(lián)網(wǎng)專條首次適用外賣領域!
- 32021互聯(lián)網(wǎng)十件大事對不起賈躍亭你只能排第四
- 4互聯(lián)網(wǎng)宣傳做的就是用戶體驗
- 5互聯(lián)網(wǎng)創(chuàng)業(yè)到底需要怎樣的能力
- 6適合上班族的25個副業(yè)(適合上班族的互聯(lián)網(wǎng)副業(yè))
- 7互聯(lián)網(wǎng)的世界沒有永遠的敵人只有永遠的利益
- 8押唄進駐天線貓助力互聯(lián)網(wǎng)數(shù)碼產(chǎn)品寄存行業(yè)經(jīng)濟持續(xù)發(fā)展
- 9互聯(lián)網(wǎng)公司如何做好品牌定位
- 102021年互聯(lián)網(wǎng)金融發(fā)展回顧冬去春欲來改弦當更張