RDD處理過程中的“轉(zhuǎn)換”操作主要用于根據(jù)已有RDD創(chuàng)建新的RDD,每一次通過Transformation算子計(jì)算后都會返回一個新RDD,供給下一個轉(zhuǎn)換算子使用。面,我們通過結(jié)合具體的示例對這些轉(zhuǎn)換算子API進(jìn)行詳細(xì)講解。查看全文>>
使用Scala語言開發(fā)單詞計(jì)數(shù)Spark程序,現(xiàn)有文本文件words.txt(讀者需要在本地創(chuàng)建文件并上傳至指定目錄)在HDFS中的/spark/test路徑下如果使用Spark Shell來讀取HDFS中的/spark/test/ words.txt文件,具體步驟如下:查看全文>>
在Scala中,控制結(jié)構(gòu)語句包括條件分支語句和循環(huán)語句。其中,條件分支語句有if語句、if...else語句、if...else if...else語句以及if...else嵌套語句;循環(huán)語句有for循環(huán),while循環(huán)和do...while循環(huán)。條件分支語句和循環(huán)語句的語法格式具體如下。查看全文>>
Spark作業(yè)與MapReduce作業(yè)同樣可以先在本地開發(fā)測試,本地執(zhí)行模式與集群提交模式,代碼的業(yè)務(wù)功能相同,因此本書大多數(shù)采用本地開發(fā)模式。下面講解使用IDEA工具開發(fā)WordCount單詞計(jì)數(shù)程序的相關(guān)步驟。查看全文>>
Scala有兩種類型的變量,一種是使用關(guān)鍵字var聲明的變量,值是可變的;另一種是使用關(guān)鍵字val聲明的變量,也叫常量,值是不可變的。這里需要說明的是,雖然聲明值和變量的方式比較簡單,但是有以下幾個事項(xiàng)需要注意:查看全文>>
MapReduce是一種編程模型,用于處理大規(guī)模數(shù)據(jù)集的并行運(yùn)算。使用MapReduce執(zhí)行計(jì)算任務(wù)的時候,每個任務(wù)的執(zhí)行過程都會被分為兩個階段,分別是Map和Reduce,其中Map階段用于對原始數(shù)據(jù)進(jìn)行處理,Reduce階段用于對Map階段的結(jié)果進(jìn)行匯總,得到最終結(jié)果,這兩個階段的模型如圖1所示。查看全文>>