HDFS是大數(shù)據(jù)分析的軟肋原因究竟有幾何？

2016-07-05 10:37:39來源：it168網(wǎng)站?原標(biāo)題：為何HDFS是大數(shù)據(jù)分析的軟肋關(guān)鍵詞：云計(jì)算大數(shù)據(jù)系統(tǒng)閱讀量：31543

導(dǎo)讀：分布式文件系統(tǒng)是大型分析非常重要的一環(huán)。即使你是在使用Spark，你仍然需要將大量的數(shù)據(jù)快速的存入內(nèi)存，所以文件系統(tǒng)一定要可以是高速率的。

　　【中國智能制造網(wǎng) 智造快訊】分布式文件系統(tǒng)是大型分析非常重要的一環(huán)。即使你是在使用Spark，你仍然需要將大量的數(shù)據(jù)快速的存入內(nèi)存，所以文件系統(tǒng)一定要可以是高速率的。但是，HDFS并不像它標(biāo)榜的那樣好，它是大數(shù)據(jù)分析的薄弱環(huán)節(jié)。

　　什么是分布式文件系統(tǒng)?普通的文件系統(tǒng)是基于塊來存儲(chǔ)文件的。查找文件時(shí)，要去磁盤中匹配每一個(gè)塊。一般是有文件分配表或多種FAT的。但是，分布式文件系統(tǒng)的物理存儲(chǔ)資源是不一定直接連接在本地節(jié)點(diǎn)上的，而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。另外，像RAID或SAN系統(tǒng)，塊是會(huì)復(fù)制的，因此，網(wǎng)絡(luò)節(jié)點(diǎn)丟失并不會(huì)造成數(shù)據(jù)丟失。
　　
　　HDFS存在的缺陷
　　
　　HDFS中的文件分配表的核心是NameNode?？蛻舳酥饕ㄟ^NameNode執(zhí)行數(shù)據(jù)操作，DataNode會(huì)與其他DataNode進(jìn)行通信并復(fù)制數(shù)據(jù)塊以實(shí)現(xiàn)冗余，這樣單一的DataNode損壞不會(huì)導(dǎo)致集群的數(shù)據(jù)丟失。但是NameNode一旦發(fā)生故障，后果會(huì)非常嚴(yán)重。雖然NameNode可以故障轉(zhuǎn)移，但是需要花費(fèi)大量的時(shí)間。這也意味著序列中會(huì)有更多的等待時(shí)間。HDFS的垃圾回收，尤其是Java垃圾回收是需要占用大量的內(nèi)存，一般是本機(jī)有效內(nèi)存的10倍。
　　
　　因?yàn)镠DFS的設(shè)計(jì)更多的是建立在響應(yīng)"一次寫入、多次讀寫"任務(wù)的基礎(chǔ)上。在多數(shù)情況下，分析任務(wù)都會(huì)涉及數(shù)據(jù)集中的大部分?jǐn)?shù)據(jù)，也就是說，對(duì)HDFS來說，請(qǐng)求讀取整個(gè)數(shù)據(jù)集要比讀取一條記錄更加。所以HDFS在語言選擇方面更偏向于基礎(chǔ)語言，而不是語言。
　　
　　傳統(tǒng)的操作可以用更短的時(shí)間來開發(fā)部署，維護(hù)成本更低、安全性更好。業(yè)內(nèi)有這樣一種說法，大多數(shù)操作系統(tǒng)支持C語言、匯編和Java的原因是，文件系統(tǒng)處于一個(gè)較低的水平。
　　
　　HDFS的工具和其他文件系統(tǒng)的工具相較是有差距的。比起你曾經(jīng)處理的任何文件系統(tǒng)或分布式存儲(chǔ)HDFS周圍的工具是一種較差?；贘ava的文件系統(tǒng)只能搭上IT人員喜愛的POSIX工具的末班車。你嘗試過NFS掛載HDFS嗎?其它的HDFS工具的安裝也是非常復(fù)雜的。相反的，如果你使用RESTbridgeTool和客戶端命令行就會(huì)非常容易。
　　
　　HDFS支持原生代碼擴(kuò)展，提高了運(yùn)行效率。另外，社區(qū)也為NameNode的發(fā)展做出了很多貢獻(xiàn)。如果你想要打造一個(gè)的系統(tǒng)，那么必須打破監(jiān)測(cè)和診斷工具中的NameNode瓶頸?？傊诓僮飨到y(tǒng)上使用基于C或C 的較為成熟的分布式文件系統(tǒng)往往是一個(gè)更好的選擇。
　　
　　Spark和云計(jì)算需求的變化
　　
　　早期的Hadoop企業(yè)部署基本上是在本地完成的，隨著Spark和云部署的崛起，使用AmazonS3作為數(shù)據(jù)源的情況漸漸多了起來。
　　
　　Hadoop供應(yīng)商都期望能夠出現(xiàn)更為統(tǒng)一的Hadoop平臺(tái)，期望HDFS能夠與安全組件集成。Spark本身就因文件系統(tǒng)的多樣性而存在很多矛盾，所以，想要和文件系統(tǒng)緊密集成幾乎是不可能的。
　　
　　MAPRFS文件系統(tǒng)漸漸引起了企業(yè)的興趣。MAPRFS沒有NameNode，而是采用了更標(biāo)準(zhǔn)和熟悉的集群方案方案。MAPR的分區(qū)設(shè)計(jì)也很好的避免了瓶頸。
　　
　　除了上述的分布式文件系統(tǒng)，還有很多的分布式文件系統(tǒng)可以供選擇，例如Ceph、Gluster。Gluster是一種更為標(biāo)準(zhǔn)的分布式文件系統(tǒng)，擅長I/O操作。目前，大多數(shù)人選擇使用Spark來存儲(chǔ)文件是因?yàn)樗麄儗?duì)于Spark更加熟悉，而并非是因?yàn)樗阅芎?、速度快?br />　　
　　大型HDFS安裝的遷移是不可能一蹴而就的，但是隨著時(shí)間的遷移，未來我們?cè)赟park和云項(xiàng)目中會(huì)越來越少的看到HDFS。也許，HDFS會(huì)脫離YARN，單獨(dú)成為Hadoop的一部分。

上一篇：連結(jié)智慧LED燈與物聯(lián)網(wǎng) 打造可定位室內(nèi)裝置

下一篇：金屬3D打印機(jī)有多厲害？幾個(gè)小時(shí)完成定制首飾

我要評(píng)論

2025年云計(jì)算：各行業(yè)如何借助云技術(shù)實(shí)現(xiàn)突破？
云計(jì)算的新興趨勢(shì)預(yù)示著它將變得更加智能、多樣化、強(qiáng)大和環(huán)保。到2025年，預(yù)計(jì)超過85%的企業(yè)應(yīng)用程序?qū)⑹腔谠频?，從根本上改變商業(yè)模式和戰(zhàn)略。
云計(jì)算
2025-05-06 11:40:46
物流智能轉(zhuǎn)型新引擎：DeepSeek+物流
DeepSeek 物流不僅是技術(shù)的革新，更是城市發(fā)展的重要推動(dòng)力。它通過智能化手段提升物流效率、優(yōu)化資源利用、減少環(huán)境影響，并為智慧城市建設(shè)提供支撐。未來，隨著AI技術(shù)的不斷進(jìn)步，物流行業(yè)將迎來更深刻的變革。
物流大數(shù)據(jù)服務(wù)平臺(tái)
2025-04-30 10:11:15
2025年4月1日開始施行的重要新規(guī)一覽
四月，一系列新規(guī)定即將實(shí)施，包括《公共安全視頻圖像信息系統(tǒng)管理?xiàng)l例》、《車聯(lián)網(wǎng)網(wǎng)絡(luò)安全異常行為檢測(cè)機(jī)制》等。
大數(shù)據(jù)服務(wù)平臺(tái)
2025-04-02 09:31:36
鐵塔大數(shù)據(jù)災(zāi)害分析平臺(tái)：提升自然災(zāi)害智能化預(yù)警水平
目前，我國災(zāi)害預(yù)防面臨著監(jiān)測(cè)預(yù)警網(wǎng)絡(luò)不健全、實(shí)效性不高、精準(zhǔn)性不強(qiáng)，“三斷”（斷路、斷網(wǎng)、斷電）無法及時(shí)發(fā)現(xiàn)等問題，亟需建立防災(zāi)減災(zāi)預(yù)警網(wǎng)絡(luò)，實(shí)現(xiàn)“災(zāi)后救助”向“災(zāi)前預(yù)防”轉(zhuǎn)變的目標(biāo)。
大數(shù)據(jù)災(zāi)害分析平臺(tái)
2025-03-19 10:47:45
淄博市召開大數(shù)據(jù)系統(tǒng)工作會(huì)議暨“三拼三比”動(dòng)員部署會(huì)
會(huì)議指出，2024年是新一輪機(jī)構(gòu)改革后全市大數(shù)據(jù)系統(tǒng)全面履職的第一年，全市大數(shù)據(jù)系統(tǒng)在市委市政府的堅(jiān)強(qiáng)領(lǐng)導(dǎo)和省大數(shù)據(jù)局的有力指導(dǎo)下，數(shù)據(jù)要素價(jià)值加速釋放、數(shù)字經(jīng)濟(jì)發(fā)展步伐加快、數(shù)字政府建設(shè)深入推進(jìn)、數(shù)字支撐底座更為夯實(shí)，數(shù)字淄博建設(shè)取得明顯成效。
大數(shù)據(jù)服務(wù)平臺(tái)
2025-03-18 10:07:30
公司重要?jiǎng)討B(tài)速覽｜海康威視、新華三、宇樹科技......
近期，智慧城市領(lǐng)域的企業(yè)有哪些動(dòng)態(tài)呢？小編整理了一下，一起來回顧。海康威視發(fā)布視覺大模型周界攝像機(jī)；宇樹科技入駐阿里速賣通AliExpress出海......
大數(shù)據(jù)服務(wù)平臺(tái)
2025-03-16 14:10:47

版權(quán)與免責(zé)聲明：

凡本站注明“來源：智能制造網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品，未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：智能制造網(wǎng)”。違反上述聲明者，本站將追究其相關(guān)法律責(zé)任。

本站轉(zhuǎn)載并注明自其它來源（非智能制造網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé)，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺(tái)或個(gè)人從本站轉(zhuǎn)載時(shí)，必須保留本站注明的作品第一來源，并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來源：智能制造網(wǎng)”，本站將依法追究責(zé)任。

鑒于本站稿件來源廣泛、數(shù)量較多，如涉及作品內(nèi)容、版權(quán)等問題，請(qǐng)與本站聯(lián)系并提供相關(guān)證明材料：聯(lián)系電話：0571-89719789；郵箱：1271141964@qq.com。

不想錯(cuò)過行業(yè)資訊？

訂閱 智能制造網(wǎng)APP

一鍵篩選來訂閱

信息更豐富

今日焦點(diǎn)/FOCUS 更多

熱門話題/TOPICS更多

人形機(jī)器人奏響“狂歡曲”

高難度！深圳眾擎實(shí)現(xiàn)全球首例人形機(jī)器人前空翻

宇樹科技王興興：預(yù)計(jì)年底H1機(jī)器人跑速達(dá)10米/秒超博爾特

“智能經(jīng)濟(jì)”駛?cè)氚l(fā)展“快車道”

AI智能體Manus橫空出世！中國AI實(shí)現(xiàn)自主執(zhí)行能力跨越式突破

數(shù)轉(zhuǎn)智改，安全先行！“以模制?！弊o(hù)航企業(yè)數(shù)智升級(jí)

精彩直播/VIDEO更多

回放

數(shù)字孿生賦能新型工業(yè)化分論壇

: 數(shù)字孿生賦能低空經(jīng)濟(jì)分論壇

: 數(shù)字孿生賦能城市全域數(shù)字化轉(zhuǎn)型分論壇

推薦產(chǎn)品/PRODUCT 更多

金華工廠工業(yè)制冷空調(diào)
工廠制冷空調(diào),工業(yè)制冷空調(diào),蒸發(fā)冷空調(diào),車間省電空調(diào),廠房降溫空調(diào)
品牌
爽風(fēng)
st-5fb風(fēng)機(jī)振動(dòng)探頭24V
振動(dòng)傳感器,振動(dòng)變送器,電機(jī)振動(dòng)探頭,振動(dòng)速度傳感器,軸振動(dòng)傳感器
品牌
其他品牌
GE通用電氣IC200系列PLC模塊
IO模塊
品牌
GE
交流電流變送器儀表
交流電流變送器,CPZGW
品牌
其他品牌
全自動(dòng)凱氏定氮儀庫存庫號(hào)：D142570
帶20孔曲線升溫,石墨消化爐
品牌
其他品牌
穿孔測(cè)量型電流互感器
電流互感器,工礦企業(yè)內(nèi)部測(cè)量,測(cè)量型,安科瑞
品牌
安科瑞

国产强伦姧在线观看无码,中文字幕99久久亚洲精品,国产精品乱码在线观看,色桃花亚洲天堂视频久久,日韩精品无码观看视频免费

HDFS是大數(shù)據(jù)分析的軟肋 原因究竟有幾何？

HDFS是大數(shù)據(jù)分析的軟肋原因究竟有幾何？