六、Spark1-RDD Instruction and operation

原文網址:http://yjhyjhyjh0.pixnet.net/blog/post/411468760-spark-rdd-%28resilient-distributed-datasets%29-%E8%A9%B3%E7%B4%B0%E5%9C%96%E6%96%87%E4%BB%8B

RDD(Resilient Distributed Datasets)

MapReduce 成功的在大資料(Big Data)的分散式環境下分析運算資料
然而在某些運算或演算法執行下 MapReduce 就顯得不夠力

舉凡最著名的兩個場景
1.迭代式運算(Iterative Jobs) : 如:機器學習演算法, 分類演算法
(這類演算法要不斷執行同個步驟且每個步驟以上個結果為輸入)

2.交互式分析(Iterative Analyst) : 如:馬克霍夫矩陣
(求長遠時間之後的平衡狀態為何)

為什麼MapReduce不適合執行上述之場景呢?由下圖解釋

上圖敘述一般預設的狀態下 MapReduce 執行過程中，必須將工作的結果存回HDFS中，
但是在需要不斷運算的場景下 (像是要重複算上萬次得到結果)，這一來一往的I/O將十分龐大
原因其實是 MapReduce一開始就不是為了這些場景而去設計的，自然會有這些問題，其實是我們的需求增加而產生這樣的問題。

上述問題讓我發現MapReduce缺少一個重要的要素
有效的資料共享(efficient data sharing)
而Spark即提出一個能解決的問題的效果
In-Memory Data Processing and Sharing

若是能將中間運算結果直間存於Memory 中，那自然就會快速許多
而要如何設計一個高容錯(tolerant) 高效能(efficient)的結構?
這是RDD的設計概念由來Resilient Distribute Datasets

---------------------------------------RDD介紹----------------------------------------------------

首先先看一下RDD長什麼樣子

Partition是資料分片可能會在不同的機器上
而RDD則是指一個資料分片的集合大多數情況都存於Memory中 (即一個RDD裡會有多個在不同機器上的partition)
RDD可以容錯也是因為他把資料分成許多片段，存在不同的機器上面。

Spark的核心數據模型是RDD，Spark將常用的大數據操作都轉化成為RDD的子類。
○輸入： ◉ 在Spark程序運行中，數據從外部數據空間（如分佈式存儲：textFile讀取HDFS等，parallelize方法輸入Scala集合或數據）輸入Spark，數據進入Spark運行時數據空間，轉化為Spark中的數據塊，通過 BlockManager進行管理。

○運行： ◉ 在Spark數據輸入形成RDD後便可以通過變運算子，如filter等，對數據進行Transformation並將RDD轉化為新的RDD，通過Action，觸發 Spark提交作業。如果數據需要復用，可以通過Cache算子，將數據緩存到內存。

○輸出： ◉ 程序運行結束數據會輸出Spark運行時空間，存儲到分佈式存儲中（如 saveAsTextFile輸出到HDFS），或Scala數據或集合中（collect輸出到 Scala集合，count返回Scala int型數據）。

RDD是不可變性(immutable)
○當資料轉換成RDD物件後，那個RDD物件基本就處於被封裝的狀態，如果要進行filter或map的動作，會在使用另外一個RDD來封裝改變後的資料。

照官方文件說法實際上一個RDD會有以上五樣東西

1.每個partition位置
2.與父RDD的依賴關西
3.父RDD經過何種運算得到此RDD的 (function)
這裡是RDD的產生過程，如果RDD遺失了，可以從父RDD再把RDD生回來。

以上三樣在RDD概念裡主要是為了實現血統關係(lineage) 主要是為了容錯而設計的在稍後的RDD容錯機制會詳細敘述，先來看看RDD是如何被使用來運算的

RDD有兩種運算方式
1.Transformations: 懶惰(lazy)運算會製造出新的RDD
2.Action: 執行一個運算並return結果或是存到Storage裡
Transformations和Action超級重要

圖片來源:　https://www.jianshu.com/p/dfb4007b9b7f

以上列了相關運算是怎麼分的

以上是一個詳細的圖解運算過程中其實會不斷的產生新的RDD 最後在生成結果

所以整個RDD執行不外乎此圖

-----------------------------RDD容錯機制---------------------------------------------

清楚了RDD運算過程後

必須提到他是如何容錯的

場景如下

當有RDD遺失時

會根據前面提到的血統關係(lineage)來重新計算所需RDD

所以實際上Spark是沒有replication機制

但明顯的要是失去的RDD剛好是要計算出結果的1萬次運算的9999次怎麼辦?

那不是等於要重算嗎?

所以Spark還提供一個客製化的機制CheckPoint

由使用者自己設計儲存點在這點的RDD會存於Storage 以免遺失

所以實際上Spark經由lineage 與 CheckPoint來執行容錯

-------------------------------------------結論-------------------------------------------

Spark的核心技術是RDD

所以要了解Spark 要先理解RDD是如何設計的跟優勢為何

整個Spark的工作流程如下

官方網站：　http://spark.apache.org/docs/latest/index.html
參考資料　：https://blog.51cto.com/36006798/1854802
https://bitnine.net/blog-computing/understanding-of-spark-part-2/
https://www.jianshu.com/p/4ff6afbbafe4
https://ithelp.ithome.com.tw/articles/10186282
https://medium.com/pyradise/%E4%B8%8A%E5%82%B3%E6%AA%94%E6%A1%88%E5%88%B0google-colab-dd5369a0bbfd

SYmm 微筆記

搜尋此網誌

六、Spark1-RDD Instruction and operation

留言

張貼留言