首頁技術文章正文

實時計算Spark Streaming工作原理是什么?

更新時間:2020-12-28 來源:黑馬程序員 瀏覽量:

1577370495235_學IT就到黑馬程序員.gif

  Spark Streaming支持從多種數(shù)據源獲取數(shù)據,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP Sockets數(shù)據源。當Spark Streaming從數(shù)據源獲取數(shù)據之后,則可以使用諸如map、reduce、join和window等高級函數(shù)進行復雜的計算處理,最后將處理的結果存儲到分布式文件系統(tǒng)、數(shù)據庫中,最終利用實時Web儀表板進行展示。Spark Streaming支持的輸入、輸出源如圖1所示。

圖1 Spark Streaming支持的輸入、輸出數(shù)據源

  為了可以深入的理解Spark Streaming,接下來,通過一張圖對Spark Streaming的內部工作原理進行詳細講解,如圖2所示。

圖2 Spark Streaming工作原理

  在圖2中,Spark Streaming先接收實時輸入的數(shù)據流,并且將數(shù)據按照一定的時間間隔分成一批批的數(shù)據,每一段數(shù)據都轉變成Spark中的RDD,接著交由Spark引擎進行處理,最后將處理結果數(shù)據輸出到外部儲存系統(tǒng)。

猜你喜歡

Spark RDD是什么?RDD特征介紹

HBase數(shù)據庫物理存儲的存儲方式介紹

Spark Streaming是什么?有什么特點?

黑馬程序員大數(shù)據培訓課程 

分享到:
在線咨詢 我要報名
和我們在線交談!