了解Hadoop技術(shù)優(yōu)缺點(diǎn) 輕松處理大數(shù)據(jù)
Hadoop基本介紹
hadoop是一個(gè)平臺,是一個(gè)適合大數(shù)據(jù)的分布式存儲和計(jì)算的平臺。什么是分布式存儲?這就是后邊我們要講的hadoop核心之一HDFS(HadoopDistributedFileSystem);什么是分布式計(jì)算?這是我們后邊要講的hadoop另外一個(gè)重要的核心MapReduce。
hadoop的優(yōu)點(diǎn)一:低成本
hadoop本身是運(yùn)行在普通PC服務(wù)器組成的集群中進(jìn)行大數(shù)據(jù)的分發(fā)及處理工作的,這些服務(wù)器集群是可以支持?jǐn)?shù)千個(gè)節(jié)點(diǎn)的。
hadoop優(yōu)點(diǎn)二:性
這也是hadoop的核心競爭優(yōu)勢所在,接受到客戶的數(shù)據(jù)請求后,hadoop可以在數(shù)據(jù)所在的集群節(jié)點(diǎn)上并發(fā)處理。
hadoop優(yōu)點(diǎn)三:可靠性
通過分布式存儲,hadoop可以自動存儲多份副本,當(dāng)數(shù)據(jù)處理請求失敗后,會自動重新部署計(jì)算任務(wù)。
hadoop優(yōu)點(diǎn)四:擴(kuò)展性
hadoop的分布式存儲和分布式計(jì)算是在集群節(jié)點(diǎn)完成的,這也決定了hadoop可以擴(kuò)展至更多的集群節(jié)點(diǎn)。
hadoop安裝方式|hadoop部署方式
hadoop安裝方式只有三種:本地安裝;偽分布安裝;集群安裝。
Hadoop適應(yīng)的場景
1:超大文件
可以是幾百M(fèi),幾百T這個(gè)級別的文件。
2:流式數(shù)據(jù)訪問
Hadoop適用于一次寫入,多次讀取的場景,也就是數(shù)據(jù)復(fù)制進(jìn)去之后,長時(shí)間在這些數(shù)據(jù)上進(jìn)行分析。
3:商業(yè)硬件
也就是說大街上到處都能買到的那種硬件,這樣的硬件故障率較高,所以要有很好的容錯(cuò)機(jī)制。
Hadoop不適用的場景
1:低延遲數(shù)據(jù)訪問
Hadoop設(shè)計(jì)的目的是大吞吐量,所以并沒有針對低延遲數(shù)據(jù)訪問做一些優(yōu)化,如果要求低延遲,可以看看Hbase。
2:大量的小文件
由于NameNode把文件的MetaData存儲在內(nèi)存中,所以大量的小文件會產(chǎn)生大量的MetaData。這樣的話別的文件數(shù)目還是可行的,再多的話就有問題了。
3:多用戶寫入,任意修改
Hadoop現(xiàn)在還不支持多人寫入,任意修改的功能。也就是說每次寫入都會添加在文件末尾。
Hadoop業(yè)務(wù)場景(一)
在大數(shù)據(jù)背景下,ApacheHadoop已經(jīng)逐漸成為一種標(biāo)簽性,業(yè)界對于這一開源分布式技術(shù)的了解也在不斷加深。但誰才是Hadoop的大用戶呢?首先想到的當(dāng)然是它的“發(fā)源地”,像Google這樣的大型互聯(lián)網(wǎng)搜索引擎,以及Yahoo專門的廣告分析系統(tǒng)。也許你會認(rèn)為,Hadoop平臺發(fā)揮作用的領(lǐng)域是互聯(lián)網(wǎng)行業(yè),用來改善分析性能并提高擴(kuò)展性。其實(shí)Hadoop的應(yīng)用場景遠(yuǎn)不止這一點(diǎn),深入挖掘的話你會發(fā)現(xiàn)Hadoop能夠在許多地方發(fā)揮巨大的作用。
美國著名科技博客GigaOM的專欄作家DerrickHarris跟蹤云計(jì)算和Hadoop技術(shù)已有多年時(shí)間,他也在近的一篇文章中總結(jié)了10個(gè)Hadoop的應(yīng)用場景,下面分享給大家:
在線旅游:目前范圍內(nèi)80%的在線旅游網(wǎng)站都是在使用Cloudera公司提供的Hadoop發(fā)行版,其中SearchBI網(wǎng)站曾經(jīng)報(bào)道過的Expedia也在其中。
移動數(shù)據(jù):Cloudera運(yùn)營總監(jiān)稱,美國有70%的智能手機(jī)數(shù)據(jù)服務(wù)背后都是由Hadoop來支撐的,也就是說,包括數(shù)據(jù)的存儲以及無線運(yùn)營商的數(shù)據(jù)處理等,都是在利用Hadoop技術(shù)。
電子商務(wù):這一場景應(yīng)該是非常確定的,eBay就是大的實(shí)踐者之一。國內(nèi)的電商在Hadoop技術(shù)上也是儲備頗為雄厚的。
能源開采:美國Chevron公司是全美第二大石油公司,他們的IT部門主管介紹了Chevron使用Hadoop的經(jīng)驗(yàn),他們利用Hadoop進(jìn)行數(shù)據(jù)的收集和處理,其中這些數(shù)據(jù)是海洋的地震數(shù)據(jù),以便于他們找到油礦的位置。