位置：首頁(yè) > 資訊 > 電商資訊>10分鐘零基礎(chǔ)就可搞懂的Hadoop架構(gòu)原理阿里架構(gòu)師詳解

10分鐘零基礎(chǔ)就可搞懂的Hadoop架構(gòu)原理阿里架構(gòu)師詳解

發(fā)布時(shí)間：2022-02-02

欄目：電商資訊

電商評(píng)論采集器阿里巴巴產(chǎn)品采集助手新浪微博內(nèi)容采集助手淘寶商品采集助手

我今天花了大半個(gè)下午的時(shí)間，寫(xiě)了這篇hadoop的架構(gòu)創新延展，全篇都是以大白話的形式強化意識，也算是為后面更加具體的每一部分開(kāi)了個(gè)好頭吧，假如喜歡請(qǐng)點(diǎn)轉(zhuǎn)發(fā)和關(guān)注基本情況，假如有疑問(wèn)現場，直接在評(píng)論里說(shuō)出來(lái)，大家一起解決力量，才能進(jìn)步我有所應。

Hadoop誕生于2006年，是一款支持?jǐn)?shù)據(jù)密集型分布式應(yīng)用并以Apache2.0許可協(xié)議發(fā)布的開(kāi)源軟件框架。它支持在商品硬件構(gòu)建的大型集群上運(yùn)行的應(yīng)用程序至關重要。Hadoop是根據(jù)Google公司發(fā)表的MapReduce和Google檔案系統(tǒng)的論文自行實(shí)作而成發展空間。

Hadoop與Google一樣，都是小孩命名的無障礙，是一個(gè)虛構(gòu)的名字機遇與挑戰，沒(méi)有尤其的含義。從計(jì)算機(jī)專業(yè)的角度看善於監督，Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)，由Apache基金會(huì)開(kāi)發(fā)就能壓製。Hadoop的主要目標(biāo)是對(duì)分布式環(huán)境下的“大數(shù)據(jù)”以一種可靠更合理、高效、可伸縮的方式處理更優美。

Hadoop框架透明地為應(yīng)用提供可靠性和數(shù)據(jù)移動(dòng)各方面。它實(shí)現(xiàn)了名為MapReduce的編程范式：應(yīng)用程序被分割成許多小部分，而每個(gè)部分都能在集群中的任意節(jié)點(diǎn)上執(zhí)行或重新執(zhí)行成效與經驗。

Hadoop還提供了分布式文件系統(tǒng)適應性，用以存儲(chǔ)所有計(jì)算節(jié)點(diǎn)的數(shù)據(jù)，這為整個(gè)集群帶來(lái)了非常高的帶寬稍有不慎。MapReduce和分布式文件系統(tǒng)的設(shè)計(jì)重要作用，使得整個(gè)框架能夠自動(dòng)處理節(jié)點(diǎn)故障。它使應(yīng)用程序與成千上萬(wàn)的獨(dú)立計(jì)算的電腦和PB級(jí)的數(shù)據(jù)最為顯著。

1.Hadoop的核心組件

分析：Hadoop的核心組件分為：HDFS（分布式文件系統(tǒng)）尤為突出、MapRuduce（分布式運(yùn)算編程框架）、YARN（運(yùn)算資源調(diào)度系統(tǒng)）

2.HDFS的文件系統(tǒng)

HDFS

1.定義

整個(gè)Hadoop的體系結(jié)構(gòu)主要是通過(guò)HDFS（Hadoop分布式文件系統(tǒng)）來(lái)實(shí)現(xiàn)對(duì)分布式存儲(chǔ)的底層支持環境，并通過(guò)MR來(lái)實(shí)現(xiàn)對(duì)分布式并行任務(wù)處理的程序支持空間載體。

HDFS是Hadoop體系中數(shù)據(jù)存儲(chǔ)治理的基礎(chǔ)。它是一個(gè)高度容錯(cuò)的系統(tǒng)相對簡便，能檢測(cè)和應(yīng)對(duì)硬件故障重要組成部分，用于在低成本的通用硬件上運(yùn)行。HDFS簡(jiǎn)化了文件的一致性模型合作，通過(guò)流式數(shù)據(jù)訪問(wèn)勃勃生機，提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問(wèn)功能，適合帶有大型數(shù)據(jù)集的應(yīng)用程序一站式服務。

2.組成

HDFS采用主從（Master/Slave）結(jié)構(gòu)模型廣度和深度，一個(gè)HDFS集群是由一個(gè)NameNode和若干個(gè)DataNode組成的。NameNode作為主服務(wù)器引領作用，治理文件系統(tǒng)命名空間和客戶端對(duì)文件的訪問(wèn)操作加強宣傳。DataNode治理存儲(chǔ)的數(shù)據(jù)。HDFS支持文件形式的數(shù)據(jù)用的舒心。

從內(nèi)部來(lái)看技術發展，文件被分成若干個(gè)數(shù)據(jù)塊助力各行，這若干個(gè)數(shù)據(jù)塊存放在一組DataNode上。NameNode執(zhí)行文件系統(tǒng)的命名空間自主研發，如打開(kāi)確定性、關(guān)閉、重命名文件或目錄等損耗，也負(fù)責(zé)數(shù)據(jù)塊到具體DataNode的映射講故事。DataNode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫(xiě)，并在NameNode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)庫(kù)的創(chuàng)建性能穩定、刪除和復(fù)制工作全面革新。NameNode是所有HDFS元數(shù)據(jù)的治理者，用戶數(shù)據(jù)永遠(yuǎn)不會(huì)經(jīng)過(guò)NameNode情況正常。

分析：NameNode是治理者行業分類，DataNode是文件存儲(chǔ)者、Client是需要獲取分布式文件系統(tǒng)的應(yīng)用程序提高鍛煉。

MapReduce

1.定義

HadoopMapReduce是googleMapReduce克隆版發展邏輯。

MapReduce是一種計(jì)算模型，用以進(jìn)行大數(shù)據(jù)量的計(jì)算有所提升。其中Map對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作聽得進，生成鍵-值對(duì)形式中間結(jié)果。Reduce則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約重要的作用，以得到很終結(jié)果更多可能性。MapReduce這樣的功能劃分，非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理足夠的實力。

2.組成

分析：

（1）JobTracker

JobTracker叫作業(yè)跟蹤器緊迫性，運(yùn)行到主節(jié)點(diǎn)（Namenode）上的一個(gè)很重要的進(jìn)程，是MapReduce體系的調(diào)度器更適合。用于處理作業(yè)（用戶提交的代碼）的后臺(tái)程序高效，決定有哪些文件參與作業(yè)的處理，然后把作業(yè)切割成為一個(gè)個(gè)的小task要素配置改革，并把它們分配到所需要的數(shù)據(jù)所在的子節(jié)點(diǎn)體系。

Hadoop的原則就是就近運(yùn)行，數(shù)據(jù)和程序要在同一個(gè)物理節(jié)點(diǎn)里帶動產業發展，數(shù)據(jù)在哪里責任製，程序就跑去哪里運(yùn)行。這個(gè)工作是JobTracker做的倍增效應，監(jiān)控task有序推進，還會(huì)重啟失敗的task（于不同的節(jié)點(diǎn)），每個(gè)集群只有優(yōu)選一個(gè)JobTracker，類似單點(diǎn)的NameNode堅定不移，位于Master節(jié)點(diǎn)

（2）TaskTracker

TaskTracker叫任務(wù)跟蹤器組合運用，MapReduce體系的很后一個(gè)后臺(tái)進(jìn)程，位于每個(gè)slave節(jié)點(diǎn)上迎難而上，與datanode結(jié)合（代碼與數(shù)據(jù)一起的原則）積極，治理各自節(jié)點(diǎn)上的task（由jobtracker分配），

每個(gè)節(jié)點(diǎn)只有一個(gè)tasktracker堅持先行，但一個(gè)tasktracker可以啟動(dòng)多個(gè)JVM產業，運(yùn)行MapTask和ReduceTask；并與JobTracker交互調整推進，匯報(bào)任務(wù)狀態(tài)狀況，

MapTask：解析每條數(shù)據(jù)記錄，傳遞給用戶編寫(xiě)的map(),并執(zhí)行機製，將輸出結(jié)果寫(xiě)入本地磁盤(pán)(假如為map-only作業(yè)，直接寫(xiě)入HDFS)集成應用。

ReducerTask：從MapTask的執(zhí)行結(jié)果中探討，遠(yuǎn)程讀取輸入數(shù)據(jù)，對(duì)數(shù)據(jù)進(jìn)行排序高效流通，將數(shù)據(jù)按照分組傳遞給用戶編寫(xiě)的reduce函數(shù)執(zhí)行調解製度。

Hive

1.定義

Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表功能，并提供完整的sql查詢功能應用的因素之一，可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。

Hive是建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架預期。它提供了一系列的工具敢於監督，可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載（ETL），這是一種可以存儲(chǔ)結構、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制重要的作用。

Hive定義了簡(jiǎn)單的類SQL查詢語(yǔ)言，稱為HQL規模最大，它答應(yīng)熟悉SQL的用戶查詢數(shù)據(jù)穩中求進。同時(shí)，這個(gè)語(yǔ)言也答應(yīng)熟悉MapReduce開(kāi)發(fā)者的開(kāi)發(fā)自定義的mapper和reducer來(lái)處理內(nèi)建的mapper和reducer無(wú)法完成的復(fù)雜的分析工作系統性。

2.組成

分析：Hive架構(gòu)包括：CLI（CommandLineInterface）勇探新路、JDBC/ODBC、ThriftServer傳遞、WEBGUI試驗、Metastore和Driver(Complier、Optimizer和Executor)，這些組件分為兩大類：服務(wù)端組件和客戶端組件

3.客戶端與服務(wù)端組件

（1）客戶端組件：

CLI：CommandLineInterface切實把製度，命令行接口保供。

Thrift客戶端：上面的架構(gòu)圖里沒(méi)有寫(xiě)上Thrift客戶端，但是Hive架構(gòu)的許多客戶端接口是建立在Thrift客戶端之上進行部署，包括JDBC和ODBC接口責任。

WEBGUI：Hive客戶端提供了一種通過(guò)網(wǎng)頁(yè)的方式訪問(wèn)Hive所提供的服務(wù)。這個(gè)接口對(duì)應(yīng)Hive的HWI組件（HiveWebInterface）保護好，使用前要啟動(dòng)HWI服務(wù)組建。

（2）服務(wù)端組件：

Driver組件：該組件包括Complier、Optimizer和Executor特點，它的作用是將HiveQL（類SQL）語(yǔ)句進(jìn)行解析深刻變革、編譯優(yōu)化，生成執(zhí)行計(jì)劃和諧共生，然后調(diào)用底層的MapReduce計(jì)算框架

Metastore組件：元數(shù)據(jù)服務(wù)組件質生產力，這個(gè)組件存儲(chǔ)Hive的元數(shù)據(jù)，Hive的元數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)里技術交流，Hive支持的關(guān)系數(shù)據(jù)庫(kù)有Derby和Mysql先進的解決方案。元數(shù)據(jù)對(duì)于Hive十分重要，因此Hive支持把Metastore服務(wù)獨(dú)立出來(lái)創造更多，安裝到遠(yuǎn)程的服務(wù)器集群里宣講活動，從而解耦Hive服務(wù)和Metastore服務(wù)，保證Hive運(yùn)行的健壯性工藝技術；

Thrift服務(wù)：Thrift是Facebook開(kāi)發(fā)的一個(gè)軟件框架效率，它用來(lái)進(jìn)行可擴(kuò)展且跨語(yǔ)言的服務(wù)的開(kāi)發(fā)，Hive集成了該服務(wù)近年來，能讓不同的編程語(yǔ)言調(diào)用Hive的接口講道理。

4.Hive與傳統(tǒng)數(shù)據(jù)庫(kù)的異同

（1）查詢語(yǔ)言

由于SQL被廣泛的應(yīng)用在數(shù)據(jù)倉(cāng)庫(kù)中，因此專門(mén)針對(duì)Hive的特性設(shè)計(jì)了類SQL的查詢語(yǔ)言HQL性能穩定。熟悉SQL開(kāi)發(fā)的開(kāi)發(fā)者可以很方便的使用Hive進(jìn)行開(kāi)發(fā)全面革新。

（2）數(shù)據(jù)存儲(chǔ)位置

Hive是建立在Hadoop之上的，所有Hive的數(shù)據(jù)都是存儲(chǔ)在HDFS中的研學體驗。而數(shù)據(jù)庫(kù)則可以將數(shù)據(jù)保存在塊設(shè)備或者本地文件系統(tǒng)中建設項目。

（3）數(shù)據(jù)格式

Hive中沒(méi)有定義專門(mén)的數(shù)據(jù)格式，數(shù)據(jù)格式可以由用戶指定落實落細，用戶定義數(shù)據(jù)格式需要指定三個(gè)屬性：列分隔符（通常為空格相結合、””、”\\x001′）製高點項目、行分隔符（”

”）以及讀取文件數(shù)據(jù)的方法（Hive中默認(rèn)有三個(gè)文件格式TextFile為產業發展，SequenceFile以及RCFile）範圍和領域。

（4）數(shù)據(jù)更新

由于Hive是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用設(shè)計(jì)的，而數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容是讀多寫(xiě)少的各項要求。因此更高要求，Hive中不支持

對(duì)數(shù)據(jù)的改寫(xiě)和添加，所有的數(shù)據(jù)都是在加載的時(shí)候中確定好的新技術。而數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常是需要經(jīng)常進(jìn)行修改的共同學習，因此可以使用INSERTINTO…VALUES添加數(shù)據(jù)，使用UPDATE…SET修改數(shù)據(jù)深入。

（5）索引

Hive在加載數(shù)據(jù)的過(guò)程中不會(huì)對(duì)數(shù)據(jù)進(jìn)行任何處理效高，甚至不會(huì)對(duì)數(shù)據(jù)進(jìn)行掃描，因此也沒(méi)有對(duì)數(shù)據(jù)中的某些Key建立索引基礎。Hive要訪問(wèn)數(shù)據(jù)中滿足條件的特定值時(shí)性能，需要暴力掃描整個(gè)數(shù)據(jù)，因此訪問(wèn)延遲較高對外開放。由于MapReduce的引入技術創新，Hive可以并行訪問(wèn)數(shù)據(jù)，因此即使沒(méi)有索引資料，對(duì)于大數(shù)據(jù)量的訪問(wèn)設施，Hive仍然可以體現(xiàn)出優(yōu)勢(shì)。數(shù)據(jù)庫(kù)中堅定不移，通常會(huì)針對(duì)一個(gè)或者幾個(gè)列建立索引，因此對(duì)于少量的特定條件的數(shù)據(jù)的訪問(wèn)更讓我明白了，數(shù)據(jù)庫(kù)可以有很高的效率迎難而上，較低的延遲。由于數(shù)據(jù)的訪問(wèn)延遲較高探索，決定了Hive不適合在線數(shù)據(jù)查詢生產創效。

（6）執(zhí)行

Hive中大多數(shù)查詢的執(zhí)行是通過(guò)Hadoop提供的MapReduce來(lái)實(shí)現(xiàn)的（類似select*fromtbl的查詢不需要MapReduce）。而數(shù)據(jù)庫(kù)通常有自己的執(zhí)行引擎管理。

（7）執(zhí)行延遲

Hive在查詢數(shù)據(jù)的時(shí)候優化上下，由于沒(méi)有索引，需要掃描整個(gè)表模樣，因此延遲較高生產體系。另外一個(gè)導(dǎo)致Hive執(zhí)行延遲高的因素是MapReduce框架。由于MapReduce本身具有較高的延遲很重要，因此在利用MapReduce執(zhí)行Hive查詢時(shí)能力和水平，也會(huì)有較高的延遲。相對(duì)的異常狀況，數(shù)據(jù)庫(kù)的執(zhí)行延遲較低研究。當(dāng)然高效，這個(gè)低是有條件的，即數(shù)據(jù)規(guī)模較小提高，當(dāng)數(shù)據(jù)規(guī)模大到超過(guò)數(shù)據(jù)庫(kù)的處理能力的時(shí)候機構，Hive的并行計(jì)算顯然能體現(xiàn)出優(yōu)勢(shì)。

（8）可擴(kuò)展性

由于Hive是建立在Hadoop之上的交流，因此Hive的可擴(kuò)展性是和Hadoop的可擴(kuò)展性是一致的（世界上很大的Hadoop集群在Yahoo!基礎，2009年的規(guī)模在4000臺(tái)節(jié)點(diǎn)左右）。而數(shù)據(jù)庫(kù)由于ACID語(yǔ)義的嚴(yán)格限制推進一步，擴(kuò)展行非常有限經過。目前很先進(jìn)的并行數(shù)據(jù)庫(kù)Oracle在理論上的擴(kuò)展能力也只有100臺(tái)左右。

（9）數(shù)據(jù)規(guī)模

由于Hive建立在集群上并可以利用MapReduce進(jìn)行并行計(jì)算力度，因此可以支持很大規(guī)模的數(shù)據(jù)明確了方向；對(duì)應(yīng)的，數(shù)據(jù)庫(kù)可以支持的數(shù)據(jù)規(guī)模較小勇探新路。

Hbase

1.定義

HBase–HadoopDatabase單產提升，是一個(gè)高可靠性、高性能試驗、面向列勞動精神、可伸縮的分布式存儲(chǔ)系統(tǒng)，利用HBase技術(shù)可在廉價(jià)PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群製度保障。

HBase是GoogleBigtable的開(kāi)源實(shí)現(xiàn)預下達，類似GoogleBigtable利用GFS作為其文件存儲(chǔ)系統(tǒng)，HBase利用HadoopHDFS作為其文件存儲(chǔ)系統(tǒng)意見征詢；

Google運(yùn)行MapReduce來(lái)處理Bigtable中的海量數(shù)據(jù)提升，HBase同樣利用HadoopMapReduce來(lái)處理HBase中的海量數(shù)據(jù)；

GoogleBigtable利用Chubby作為協(xié)同服務(wù)的必然要求，HBase利用Zookeeper作為協(xié)同服務(wù)研究成果。

2.組成

10分鐘零基礎(chǔ)就可搞懂的Hadoop架構(gòu)原理阿里架構(gòu)師詳解1

分析：從上圖可以看出：Hbase主要由Client、Zookeeper完善好、HMaster和HRegionServer組成大面積，由Hstore作存儲(chǔ)系統(tǒng)。

HBaseClient使用HBase的RPC機(jī)制與HMaster和HRegionServer進(jìn)行通信問題分析，對(duì)于治理類操作培養，Client與HMaster進(jìn)行RPC；對(duì)于數(shù)據(jù)讀寫(xiě)類操作推廣開來，Client與HRegionServer進(jìn)行RPC

ZookeeperQuorum中除了存儲(chǔ)了-ROOT-表的地址和HMaster的地址推動，HRegionServer也會(huì)把自己以Ephemeral方式注冊(cè)到Zookeeper中，使得HMaster可以隨時(shí)感知到各個(gè)HRegionServer的健康狀態(tài)資源配置。

HMaster沒(méi)有單點(diǎn)問(wèn)題信息，HBase中可以啟動(dòng)多個(gè)HMaster相關，通過(guò)Zookeeper的MasterElection機(jī)制保證總有一個(gè)Master運(yùn)行，HMaster在功能上主要負(fù)責(zé)Table和Region的治理工作：

HStore存儲(chǔ)是HBase存儲(chǔ)的核心了豐富內涵，其中由兩部分組成生產效率，一部分是MemStore，一部分是StoreFiles適應性。

MemStore是SortedMemoryBuffer節點，用戶寫(xiě)入的數(shù)據(jù)首先會(huì)放入MemStore，當(dāng)MemStore滿了以后會(huì)Flush成一個(gè)StoreFile（底層實(shí)現(xiàn)是HFile）落地生根，當(dāng)StoreFile文件數(shù)量增長(zhǎng)到一定閾值的特點，會(huì)觸發(fā)Compact合并操作，將多個(gè)StoreFiles合并成一個(gè)StoreFile有效保障，合并過(guò)程中會(huì)進(jìn)行版本合并和數(shù)據(jù)刪除大數據。

因此可以看出HBase其實(shí)只有增加數(shù)據(jù)，所有的更新和刪除操作都是在后續(xù)的compact過(guò)程中進(jìn)行的講實踐，這使得用戶的寫(xiě)操作只要進(jìn)入內(nèi)存中就可以立即返回數字技術，保證了HBaseI/O的高性能。

當(dāng)StoreFilesCompact后市場開拓，會(huì)逐步形成越來(lái)越大的StoreFile措施，當(dāng)單個(gè)StoreFile大小超過(guò)一定閾值后，會(huì)觸發(fā)Split操作新模式，同時(shí)把當(dāng)前RegionSplit成2個(gè)Region實現，父Region會(huì)下線，新Split出的2個(gè)孩子Region會(huì)被HMaster分配到相應(yīng)的HRegionServer上組織了，使得原先1個(gè)Region的壓力得以分流到2個(gè)Region上的可能性。

1.回顧Hadoop的整體架構(gòu)

2.Hadoop的應(yīng)用——流量查詢系統(tǒng)

（1）流量查詢系統(tǒng)總體框架

（2）流量查詢系統(tǒng)總體流程

（3）流量查詢系統(tǒng)數(shù)據(jù)預(yù)處理功能框架

（4）流量查詢系統(tǒng)數(shù)據(jù)預(yù)處理流程

（5）流量查詢NoSQL數(shù)據(jù)庫(kù)功能框架

（6）流量查詢服務(wù)功能框架

（7）實(shí)時(shí)流計(jì)算數(shù)據(jù)處理流程圖

本人才疏學(xué)淺，若有錯(cuò)服務為一體，請(qǐng)指出，謝謝逐漸顯現！假如你有更好的建議全會精神，可以留言我們一起討論，共同進(jìn)步拓展基地！衷心的感謝您能耐心的讀完本文集中展示！

上一篇：天貓積分怎么來(lái)的快(怎么買(mǎi)別人的天貓積分)

下一篇：淘寶流量下降原因有哪些