發(fā)布時(shí)間:2020-11-21
欄目:電商資訊
DT時(shí)代持續創新,人們比以往任何時(shí)候都收集到更多的數(shù)據(jù)。據(jù)IDC報(bào)告空白區,預(yù)計(jì)到2020年協調機製,全球數(shù)據(jù)總量將超過40ZB(相當(dāng)于40萬億GB),這一數(shù)據(jù)量是2011年的22倍充分發揮!正在“爆炸式”增長的數(shù)據(jù)高質量,其潛在巨大價(jià)值有待發(fā)掘充分發揮。它作為一種新的能源,正在發(fā)生聚變共創美好,變革著我們的生產(chǎn)和生活推動並實現,催生了當(dāng)下大數(shù)據(jù)行業(yè)的熱火朝天。但是我們?nèi)绻荒軐@些數(shù)據(jù)進(jìn)行有序覆蓋範圍、有結(jié)構(gòu)的分類組織和存儲(chǔ)優化程度,如果不能有效利用并發(fā)掘產(chǎn)生價(jià)值,那么它也是一個(gè)數(shù)據(jù)災(zāi)難奮勇向前,它猶如堆積如山的垃圾不斷豐富,給我們企業(yè)帶來的是極大的成本。
現(xiàn)實(shí)情況是:阿里集團(tuán)的數(shù)據(jù)存儲(chǔ)已經(jīng)逼近EB級別組建,部分單張表每天的數(shù)據(jù)記錄數(shù)高達(dá)幾千億條各有優勢;阿里內(nèi)部,離線數(shù)據(jù)處理每天面對的是百萬級規(guī)模的作業(yè)重要的意義,每天有數(shù)千位活躍的工程師在進(jìn)行數(shù)據(jù)處理工作持續,加上阿里大數(shù)據(jù)的井噴式爆發(fā),給數(shù)模型再獲、數(shù)據(jù)研發(fā)產品和服務、數(shù)據(jù)質(zhì)量和運(yùn)維保障工作增加了更高的難度。
1688商品關(guān)鍵詞采集工具面對阿里內(nèi)部成千上萬對數(shù)據(jù)有著深刻需求的員工體驗區,以及外部千萬級對數(shù)據(jù)有迫切渴望的商家和合作伙伴增多,如何有效滿足他們的需求,提高他們對數(shù)據(jù)使用的滿意度有望,是數(shù)據(jù)服務(wù)進一步推進、數(shù)據(jù)產(chǎn)品面臨的更大挑戰(zhàn)。
\
注:阿里巴巴數(shù)據(jù)體系架構(gòu)圖
上圖是阿里巴巴數(shù)據(jù)體系架構(gòu)圖標準,可以清晰地看到我們的數(shù)據(jù)體系主要分為數(shù)據(jù)采集示範推廣、數(shù)據(jù)計(jì)算、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用四大層次即將展開。
1數(shù)據(jù)采集層
阿里巴巴是一家多業(yè)態(tài)的互聯(lián)網(wǎng)公司大幅增加,幾億規(guī)模的用戶(如商家、消費(fèi)者傳承、商業(yè)組織等)在平臺(tái)上從事商業(yè)等特點、消費(fèi)、娛樂等活動(dòng)多種,每時(shí)每刻都在產(chǎn)生海量的數(shù)據(jù)將進一步,數(shù)據(jù)采集作為阿里數(shù)據(jù)體系第一環(huán)尤為重要。因此阿里巴巴建立了一套標(biāo)準(zhǔn)的數(shù)據(jù)采集體系方案用上了,并致力全面提升行動、高性能能力建設、規(guī)范地完成海量數(shù)據(jù)的采集,并將其傳輸?shù)酱髷?shù)據(jù)平臺(tái)研究進展。
阿里巴巴的日志采集體系包括兩大體系:Aplus.JS是Web端日志采集技術(shù)方案無障礙;UserTack是APP端日志采集技術(shù)方案。
在采集技術(shù)之上快速融入,阿里巴巴有面向各個(gè)場景的埋點(diǎn)規(guī)范認為,來滿足通用瀏覽、點(diǎn)擊增強、特殊交互重要意義、APP事件、H5及APP里的H5和Native日志數(shù)據(jù)打通等多種業(yè)務(wù)場景更加廣闊。同時(shí)規劃,建立了一套高性能、高可靠性的數(shù)據(jù)傳輸體系完成數(shù)據(jù)從生產(chǎn)業(yè)務(wù)端到大數(shù)據(jù)系統(tǒng)的傳輸方便;在傳輸方面我們采用TimeTunnel(TT)基礎上,它既包括數(shù)據(jù)庫的增量數(shù)據(jù)傳輸各領域,也包括日志數(shù)據(jù)的傳輸應用領域;TT作為數(shù)據(jù)傳輸服務(wù)的基礎(chǔ)架構(gòu),既能支持實(shí)時(shí)流式計(jì)算進行培訓、也能實(shí)時(shí)各種時(shí)間窗口的批量計(jì)算發展機遇。另一方面,也通過數(shù)據(jù)同步工具(DataX和同步中心法治力量,其中同步中心是基于DataX易用性封裝)直連異構(gòu)數(shù)據(jù)庫(備庫)來抽取各種時(shí)間窗口的數(shù)據(jù)全技術方案。
2數(shù)據(jù)計(jì)算層
從采集系統(tǒng)中收集了大量的原始數(shù)據(jù)后,數(shù)據(jù)只有被整合共享、計(jì)算才能洞察商業(yè)規(guī)律信息化、挖掘潛在信息、實(shí)現(xiàn)大數(shù)據(jù)價(jià)值生動,達(dá)到賦能商業(yè)新型儲能、創(chuàng)造商業(yè)的目的。面對海量的數(shù)據(jù)和復(fù)雜的計(jì)算新品技,阿里巴巴的數(shù)據(jù)計(jì)算層包括兩大體系:數(shù)據(jù)存儲(chǔ)及計(jì)算云平臺(tái)(離線計(jì)算平臺(tái)MaxCompute和實(shí)時(shí)計(jì)算平臺(tái)StreamCompute)和數(shù)據(jù)整合及管理體系(OneData)範圍。MaxCompute是阿里巴巴自主研發(fā)的離線大數(shù)據(jù)平臺(tái),其豐富的功能和強(qiáng)大的存儲(chǔ)及計(jì)算能力使得阿里巴巴的大數(shù)據(jù)有了強(qiáng)大的存儲(chǔ)和計(jì)算引擎深入交流;StreamCompute是阿里巴巴自主研發(fā)的流式大數(shù)據(jù)平臺(tái)引領作用,在內(nèi)部較好的支持了阿里巴巴流式計(jì)算需求;OneData是數(shù)據(jù)整合及管理的方法體系和工具臺上與臺下,阿里巴巴的大數(shù)據(jù)工程師在其體系下用的舒心,構(gòu)建統(tǒng)一技術發展、規(guī)范、可共享的全域數(shù)據(jù)體系集成,避免數(shù)據(jù)的冗余和重復(fù)建設(shè)更為一致,規(guī)避數(shù)據(jù)煙囪和不一致,充分發(fā)揮阿里巴巴在大數(shù)據(jù)海量技術的開發、多樣性方面的獨(dú)特優(yōu)勢研究與應用。
借助OneData方法體系,我們構(gòu)建了阿里巴巴的數(shù)據(jù)公共層更高效,并可以幫助相似大數(shù)據(jù)項(xiàng)目快速落地實(shí)現(xiàn)全面協議。
從數(shù)據(jù)計(jì)算頻率角度來看,阿里數(shù)據(jù)倉庫可以分為離線數(shù)據(jù)倉庫和實(shí)時(shí)數(shù)據(jù)倉庫具體而言。離線數(shù)據(jù)倉庫主要是傳統(tǒng)的數(shù)據(jù)倉庫概念工具,數(shù)據(jù)計(jì)算頻率是主要是以天(包含小時(shí)、周和月)為單位喜愛;如T-1重要的角色,則每天凌晨處理上一天的數(shù)據(jù)。但是隨著業(yè)務(wù)的發(fā)展特別是交易過程的縮短向好態勢,用戶對數(shù)據(jù)產(chǎn)出的實(shí)時(shí)性要求逐漸提高平臺建設,所以阿里的實(shí)時(shí)數(shù)據(jù)倉庫應(yīng)運(yùn)而生。雙11實(shí)時(shí)數(shù)據(jù)直播大屏貢獻力量,就是實(shí)時(shí)數(shù)據(jù)倉庫的一種典型應(yīng)用使用。
阿里數(shù)據(jù)倉庫數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念:包括操作數(shù)據(jù)層(ODS,Operational Data Store)發行速度、明細(xì)數(shù)據(jù)層(DWD更加堅強,Data Warehouse Detail)、匯總數(shù)據(jù)層(DWS, Data Warehouse Summary)和應(yīng)用數(shù)據(jù)層(ADS性能,Application Data Store)初步建立。通過數(shù)據(jù)倉庫不同層次之間的加工過程實(shí)現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化,并且對整個(gè)過程進(jìn)行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理供給。
在阿里大數(shù)據(jù)系統(tǒng)中要素配置改革,元數(shù)據(jù)模型整合及應(yīng)用是一個(gè)重要的組成部分。主要包含數(shù)據(jù)源元數(shù)據(jù)帶動擴大、數(shù)據(jù)倉庫元數(shù)據(jù)核心技術體系、數(shù)據(jù)鏈路元數(shù)據(jù)、工具類元數(shù)據(jù)持續發展、數(shù)據(jù)質(zhì)量類元數(shù)據(jù)等必然趨勢。元數(shù)據(jù)應(yīng)用主要面向數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)管理等,如用于存儲(chǔ)多樣性、計(jì)算和成本管理等發揮效力。
3數(shù)據(jù)服務(wù)層
當(dāng)數(shù)據(jù)已被整合和計(jì)算好,需要提供給產(chǎn)品和應(yīng)用進(jìn)行數(shù)據(jù)消費(fèi)明顯,為了更好的性能和體驗(yàn)安全鏈,阿里巴巴構(gòu)建了自己的數(shù)據(jù)服務(wù)層,通過接口服務(wù)化方式對外提供數(shù)據(jù)服務(wù)創新為先。針對不同的需求真正做到,數(shù)據(jù)服務(wù)層的數(shù)據(jù)源架構(gòu)在多種數(shù)據(jù)庫之上阿里巴巴信息采集器 ,如Mysql和Hbase等創新延展。后續(xù)將逐漸遷移至阿里云云數(shù)據(jù)庫ApsaraDB for RDS(簡稱RDS)和表格存儲(chǔ)(Table Store)等強化意識。
數(shù)據(jù)服務(wù)可以使應(yīng)用對底層數(shù)據(jù)存儲(chǔ)透明,將海量數(shù)據(jù)方便高效地開放給集團(tuán)內(nèi)部各應(yīng)用使用』厩闆r,F(xiàn)數(shù)據(jù)服務(wù)每天幾十億的數(shù)據(jù)調(diào)用量現場,如何在性能、穩(wěn)定性力量、擴(kuò)展性等多方面更好地服務(wù)用戶我有所應;如何滿足應(yīng)用各種復(fù)雜的數(shù)據(jù)服務(wù)需求;如何保證雙11媒體大屏的數(shù)據(jù)服務(wù)接口的高可用深入實施;隨著業(yè)務(wù)的發(fā)展至關重要,數(shù)據(jù)服務(wù)也在不斷前進(jìn)。
數(shù)據(jù)服務(wù)層對外提供數(shù)據(jù)服務(wù)主要是通過OneService平臺(tái)研究進展。OneService以數(shù)據(jù)倉庫整合計(jì)算好的數(shù)據(jù)作為數(shù)據(jù)源無障礙,對外通過接口的方式提供數(shù)據(jù)服務(wù),主要提供簡單數(shù)據(jù)查詢服務(wù)快速融入、復(fù)雜數(shù)據(jù)查詢服務(wù)(類似用戶畫像(GProfile)等復(fù)雜數(shù)據(jù)查詢服務(wù))和實(shí)時(shí)數(shù)據(jù)推送服務(wù)等三大特色數(shù)據(jù)服務(wù)。
4數(shù)據(jù)應(yīng)用層
數(shù)據(jù)已經(jīng)準(zhǔn)備好系統,需要通過合適的應(yīng)用提供給用戶就能壓製,讓數(shù)據(jù)最大化地發(fā)揮價(jià)值。阿里對數(shù)據(jù)的應(yīng)用表現(xiàn)在各個(gè)方面適應能力,搜索更優美、推薦、廣告防控、金融成效與經驗、信用、保險(xiǎn)堅實基礎、文娛稍有不慎、物流等。商家等地,阿里內(nèi)部的搜索最為顯著、推薦尤為突出、廣告、金融等平臺(tái)環境,阿里內(nèi)部的運(yùn)營和管理人員等空間載體,都是數(shù)據(jù)應(yīng)用方,各種應(yīng)用產(chǎn)品百花齊放相對簡便; ISV重要組成部分、研究機(jī)構(gòu)和社會(huì)組織等也可以利用我們開放的數(shù)據(jù)能力和技術(shù)1688數(shù)據(jù)采集器。
阿里巴巴基于數(shù)據(jù)的應(yīng)用有很多合作。我們相信有力扭轉,數(shù)據(jù)作為新能源,為社會(huì)注入的改變是顯而易見的一站式服務。我們對數(shù)據(jù)新能源的探索也不僅僅停留在狹義的技術(shù)廣度和深度、服務(wù)和應(yīng)用上阿里巴巴產(chǎn)品采集助手。我們正在挖掘大數(shù)據(jù)更深層次的價(jià)值引領作用,為社會(huì)經(jīng)濟(jì)和民生基礎(chǔ)建設(shè)等提供數(shù)據(jù)層面的解讀加強宣傳。
文章地址:http://61py.com/article/online/NASAjhbhalbbdsjxtjggs.html

- 1互聯(lián)網(wǎng)對傳統(tǒng)企業(yè)的沖擊有多大
- 2美團(tuán)再因不正當(dāng)競爭敗訴新反法互聯(lián)網(wǎng)專條首次適用外賣領(lǐng)域!
- 32021互聯(lián)網(wǎng)十件大事對不起賈躍亭你只能排第四
- 4互聯(lián)網(wǎng)宣傳做的就是用戶體驗(yàn)
- 5互聯(lián)網(wǎng)創(chuàng)業(yè)到底需要怎樣的能力
- 6適合上班族的25個(gè)副業(yè)(適合上班族的互聯(lián)網(wǎng)副業(yè))
- 7互聯(lián)網(wǎng)的世界沒有永遠(yuǎn)的敵人只有永遠(yuǎn)的利益
- 8押唄進(jìn)駐天線貓助力互聯(lián)網(wǎng)數(shù)碼產(chǎn)品寄存行業(yè)經(jīng)濟(jì)持續(xù)發(fā)展
- 9互聯(lián)網(wǎng)公司如何做好品牌定位
- 102021年互聯(lián)網(wǎng)金融發(fā)展回顧冬去春欲來改弦當(dāng)更張