五、Hadoop2-HDFS

HDFS
原文來源:http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm
Hadoop Distributed File System (HDFS) 將分散的儲存資源整合成一個具容錯能力、高效率且超大容量的儲存環境,在Hadoop系統中大量的資料和運算時產生的暫存檔案,都是存放在這個分散式的檔案系統上。
HDFS是master/slave架構,由兩種角色組成,Name node及data nodes,Name node負責檔案系統中各個檔案屬性權限等資訊 (metadata, namespace) 的管理及儲存;而data node通常由數以百計的節點擔任,一個資料檔會被切割成數個較小的區塊 (block) 儲存在不同的data node上,每一個區塊還會有數份副本 (replica) 存放在不同節點,這樣當其中一個節點損壞時,檔案系統中的資料還能保存無缺,因此name node還需要紀錄每一份檔案存放的位置,當有存取檔案的需求時,協調data node負責回應;而有節點損壞時,name node也會自動進行資料的搬遷和複製。
HDFS雖然沒有整合進Linux kernel,只能透過Hadoop的dfs shell進行檔案操作,或使用FUSE成為User space下的檔案系統,但Hadoop下的系統都與HDFS整合,做為資料儲存備份及分享的媒介。如前面提到的MapReduce在系統分配運算工作時,會將運算工作分配到存放有運算資料的節點上進行,減少大量資料透過網路傳輸的時間。



















格式化與啟動 HDFS 
$ cluster-start
$ ssh adm100
bigred@adm100's password: bigred
$ formathdfs
Are you sure ? (YES/NO) YES
............
2019-02-26 14:33:16,507 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
2019-02-26 14:33:16,513 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at nna/172.30.0.10
************************************************************/
$ starthdfs
nna: Name Node started
nna: Secondary Name Node started
wka01: Data Node started
wka02: Data Node started

留言