五、Hadoop2-HDFS

HDFS
原文來源:http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm
Hadoop Distributed File System (HDFS) 將分散的儲存資源整合成一個具容錯能力、高效率且超大容量的儲存環境，在Hadoop系統中大量的資料和運算時產生的暫存檔案，都是存放在這個分散式的檔案系統上。
HDFS是master/slave架構，由兩種角色組成，Name node及data nodes，Name node負責檔案系統中各個檔案屬性權限等資訊 (metadata, namespace) 的管理及儲存；而data node通常由數以百計的節點擔任，一個資料檔會被切割成數個較小的區塊 (block) 儲存在不同的data node上，每一個區塊還會有數份副本 (replica) 存放在不同節點，這樣當其中一個節點損壞時，檔案系統中的資料還能保存無缺，因此name node還需要紀錄每一份檔案存放的位置，當有存取檔案的需求時，協調data node負責回應；而有節點損壞時，name node也會自動進行資料的搬遷和複製。
HDFS雖然沒有整合進Linux kernel，只能透過Hadoop的dfs shell進行檔案操作，或使用FUSE成為User space下的檔案系統，但Hadoop下的系統都與HDFS整合，做為資料儲存備份及分享的媒介。如前面提到的MapReduce在系統分配運算工作時，會將運算工作分配到存放有運算資料的節點上進行，減少大量資料透過網路傳輸的時間。