国产强伦姧在线观看无码,中文字幕99久久亚洲精品,国产精品乱码在线观看,色桃花亚洲天堂视频久久,日韩精品无码观看视频免费

      正在閱讀:解讀:兩大國人認(rèn)知多的開源大數(shù)據(jù)分析系統(tǒng)

      解讀:兩大國人認(rèn)知多的開源大數(shù)據(jù)分析系統(tǒng)

      2016-06-20 09:27:52來源:數(shù)據(jù)分析網(wǎng) 原標(biāo)題:Spark VS Hadoop 兩大大數(shù)據(jù)分析系統(tǒng)深度解讀 關(guān)鍵詞:大數(shù)據(jù)分析SparkHadoop閱讀量:30992

      導(dǎo)讀:在中國,政府控制著80%的數(shù)據(jù),剩下的多由“BAT”這樣的大公司擁有,中小企業(yè)如何構(gòu)建自己的大數(shù)據(jù)系統(tǒng)?其他企業(yè)如何建設(shè)自己的大數(shù)據(jù)系統(tǒng)?
        【中國智能制造網(wǎng) 技術(shù)前沿】大數(shù)據(jù),無論是從產(chǎn)業(yè)上,還是從技術(shù)上來看,都是目前的發(fā)展熱點(diǎn)。在中國,政府控制著80%的數(shù)據(jù),剩下的多由“BAT”這樣的大公司擁有,中小企業(yè)如何構(gòu)建自己的大數(shù)據(jù)系統(tǒng)?其他企業(yè)如何建設(shè)自己的大數(shù)據(jù)系統(tǒng)?

      解讀:兩大國人認(rèn)知多的開源大數(shù)據(jù)分析系統(tǒng)
        
        推薦兩大應(yīng)用廣泛、國人認(rèn)知多的Apache開源大數(shù)據(jù)框架系統(tǒng):SparkHadoop
        
        Spark:速度快、易于使用
        
        Spark以性能見長,但是它也因易用性而小有名氣,原因是它隨帶易于使用的API,支持Scala(原生語言)、Java、Python和SparkSQL。SparkSQL非常類似于SQL92,所以幾乎不需要經(jīng)歷一番學(xué)習(xí),馬上可以上手。
        
        Spark是UC Berkeley AMPlab所開源的類Hadoop Map Reduce的通用的并行計(jì)算框架,Spark基于mapreduce算法實(shí)現(xiàn)的分布式計(jì)算,擁有Hadoop Map Reduce所具有的優(yōu)點(diǎn);但不同于Map Reduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的mapreduce的算法。
        
        Spark還有一種交互模式,那樣開發(fā)人員和用戶都可以獲得查詢和其他操作的即時(shí)反饋。Map Reduce沒有交互模式,不過有了Hive和Pig等附加模塊,采用者使用Map Reduce來得容易一點(diǎn)。
        
        成本上來看:Spark需要大量內(nèi)存,但是可以使用常規(guī)數(shù)量的常規(guī)轉(zhuǎn)速磁盤。一些用戶抱怨會(huì)產(chǎn)生臨時(shí)文件,需要清理。這些臨時(shí)文件通常保存7天,以便加快針對同一數(shù)據(jù)集的任何處理。磁盤空間相對便宜,由于Spark不使用磁盤輸入/輸入用于處理,已使用的磁盤空間可以用于SAN或NAS。
        
        容錯(cuò)上:Spark使用彈性分布式數(shù)據(jù)集(RDD),它們是容錯(cuò)集合,里面的數(shù)據(jù)元素可執(zhí)行并行操作。RDD可以引用外部存儲(chǔ)系統(tǒng)中的數(shù)據(jù)集,比如共享式文件系統(tǒng)、HDFS、HBase,或者提供Hadoop In put Format的任何數(shù)據(jù)源。Spark可以用Hadoop支持的任何存儲(chǔ)源創(chuàng)建RDD,包括本地文件系統(tǒng),或前面所列的其中一種文件系統(tǒng)。
        
        Hadoop:分布式文件系統(tǒng)
        
        Hadoop是Apache.org的一個(gè)項(xiàng)目,其實(shí)是一種軟件庫和框架,以便使用簡單的編程模型,跨計(jì)算器集群對龐大數(shù)據(jù)集(大數(shù)據(jù))進(jìn)行分布式處理。Hadoop可靈活擴(kuò)展,從單一計(jì)算機(jī)系統(tǒng),到提供本地存儲(chǔ)和計(jì)算能力的數(shù)千個(gè)商用系統(tǒng),它都能輕松支持。實(shí)際上,Hadoop就是大數(shù)據(jù)分析領(lǐng)域的重量級大數(shù)據(jù)平臺(tái)。
        
        Hadoop由協(xié)同運(yùn)行、構(gòu)建Hadoop框架的多個(gè)模塊組成。Hadoop框架的主要模塊包括如下:
        
        •HadoopCommon
        
        •Hadoop分布式文件系統(tǒng)(HDFS)
        
        •HadoopYARN
        
        •HadoopMapReduce
        
        雖然上述四個(gè)模塊構(gòu)成了Hadoop的核心,不過還有其他幾個(gè)模塊。這些模塊包括:Ambari、Avro、Cassandra、Hive、Pig、Oozie、Flume和Sqoop,它們進(jìn)一步增強(qiáng)和擴(kuò)展了Hadoop的功能,得以擴(kuò)大到大數(shù)據(jù)應(yīng)用領(lǐng)域,處理龐大數(shù)據(jù)集。
        
        許多使用大數(shù)據(jù)集和分析工具的公司使用Hadoop。它已成為大數(shù)據(jù)應(yīng)用系統(tǒng)中事實(shí)上的標(biāo)準(zhǔn)。設(shè)計(jì)Hadoop的初衷是處理這項(xiàng)任務(wù):搜尋和搜索數(shù)十億個(gè)網(wǎng)頁,將這些信息收集到數(shù)據(jù)庫中。正是由于渴望搜尋和搜索互聯(lián)網(wǎng),才有了Hadoop的HDFS及分布式處理引擎MapReduce。
        
        成本上:MapReduce使用常規(guī)數(shù)量的內(nèi)存,因?yàn)閿?shù)據(jù)處理基于磁盤,所以公司得購買速度更快的磁盤和大量磁盤空間來運(yùn)行MapReduce。MapReduce還需要更多的系統(tǒng),將磁盤輸入/輸出分布到多個(gè)系統(tǒng)上。
        
        容錯(cuò)上:MapReduce使用TaskTracker節(jié)點(diǎn),它為JobTracker節(jié)點(diǎn)提供了心跳(heartbeat)。如果沒有心跳,那么JobTracker節(jié)點(diǎn)重新調(diào)度所有將執(zhí)行的操作和正在進(jìn)行的操作,交給另一個(gè)TaskTracker節(jié)點(diǎn)。這種方法在提供容錯(cuò)性方面很有效,可是會(huì)大大延長某些操作(即便只有一個(gè)故障)的完成時(shí)間。
        
        總結(jié):Spark與MapReduce是一種相互共生的關(guān)系。Hadoop提供了Spark所沒有的功能特性,比如分布式文件系統(tǒng),而Spark為需要它的那些數(shù)據(jù)集提供了實(shí)時(shí)內(nèi)存處理。的大數(shù)據(jù)場景正是設(shè)計(jì)人員當(dāng)初預(yù)想的那樣:讓Hadoop和Spark在同一個(gè)團(tuán)隊(duì)里面協(xié)同運(yùn)行。
      我要評論
      版權(quán)與免責(zé)聲明:

      凡本站注明“來源:智能制造網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:智能制造網(wǎng)”。違反上述聲明者,本站將追究其相關(guān)法律責(zé)任。

      本站轉(zhuǎn)載并注明自其它來源(非智能制造網(wǎng))的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn)或和對其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺(tái)或個(gè)人從本站轉(zhuǎn)載時(shí),必須保留本站注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來源:智能制造網(wǎng)”,本站將依法追究責(zé)任。

      鑒于本站稿件來源廣泛、數(shù)量較多,如涉及作品內(nèi)容、版權(quán)等問題,請與本站聯(lián)系并提供相關(guān)證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。

      不想錯(cuò)過行業(yè)資訊?

      訂閱 智能制造網(wǎng)APP

      一鍵篩選來訂閱

      信息更豐富

      推薦產(chǎn)品/PRODUCT 更多
      智造商城:

      PLC工控機(jī)嵌入式系統(tǒng)工業(yè)以太網(wǎng)工業(yè)軟件金屬加工機(jī)械包裝機(jī)械工程機(jī)械倉儲(chǔ)物流環(huán)保設(shè)備化工設(shè)備分析儀器工業(yè)機(jī)器人3D打印設(shè)備生物識(shí)別傳感器電機(jī)電線電纜輸配電設(shè)備電子元器件更多

      我要投稿
      • 投稿請發(fā)送郵件至:(郵件標(biāo)題請備注“投稿”)1271141964.qq.com
      • 聯(lián)系電話0571-89719789
      工業(yè)4.0時(shí)代智能制造領(lǐng)域“互聯(lián)網(wǎng)+”服務(wù)平臺(tái)
      智能制造網(wǎng)APP

      功能豐富 實(shí)時(shí)交流

      智能制造網(wǎng)小程序

      訂閱獲取更多服務(wù)

      微信公眾號

      關(guān)注我們

      抖音

      智能制造網(wǎng)

      抖音號:gkzhan

      打開抖音 搜索頁掃一掃

      視頻號

      智能制造網(wǎng)

      公眾號:智能制造網(wǎng)

      打開微信掃碼關(guān)注視頻號

      快手

      智能制造網(wǎng)

      快手ID:gkzhan2006

      打開快手 掃一掃關(guān)注
      意見反饋
      我要投稿
      我知道了