現(xiàn)在的社會是一個高速發(fā)展的社會,科技發(fā)達,信息流通,人們之間的交流也越來越密切,生活也越來越便捷,大數(shù)據(jù)就是這個高科技時代的產(chǎn)物。阿里巴巴創(chuàng)辦人馬云曾經(jīng)說過,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology,數(shù)據(jù)科技,這顯示出大數(shù)據(jù)對于阿里巴巴集團來說是舉足輕重的。查看全文>>
一般認為,大數(shù)據(jù)主要具有以下4個方面的典型特征,即大量(Volume)、多樣(Variety)、高速(Velocity)和價值(Value),即所謂的4V,接下來,通過一張圖來具休描述。查看全文>>
大數(shù)據(jù)是什么意思呢?如果從字面意思來看,大數(shù)據(jù)指的是巨量數(shù)據(jù)。那么可能有人會問,多大量級的數(shù)據(jù)才叫大數(shù)據(jù)?不同的機構(gòu)或?qū)W者有不同的理解,難以有一個非常定量的定義,只能說,大數(shù)據(jù)的計量單位已經(jīng)越過TB級別發(fā)展到PB、EB、ZB、YB甚至BB級別。查看全文>>
RDD的分區(qū)原則是分區(qū)的個數(shù)盡量等于集群中的CPU核心(Core)數(shù)目。對于不同的Spark部署模式而言,都可以通過設(shè)置spark.default.prallien這個參數(shù)值來配置默認的分區(qū)數(shù)目。一般而言,各種模式下的默認分區(qū)數(shù)目如下。查看全文>>
分層抽樣法也叫類型抽樣法,它是先將總體樣本按照某種特征分為若干次級(層),然后再從每一一層內(nèi)進行獨立取樣,組成一個樣本的統(tǒng)計學(xué)計算方法,接下來,通過Spark-Shell演示分層抽樣方法,具體代碼如下查看全文>>
當(dāng)MySQL表中的數(shù)據(jù)發(fā)生了新增或修改變化,需要更新HDFS上對應(yīng)的數(shù)據(jù)時,就可以使用Sqoop的增量導(dǎo)入功能。Sqoop目前支持兩種增量導(dǎo)入模式:append模式和lastmodified模式。其中,append模式主要針對INSERT新增數(shù)據(jù)的增量導(dǎo)入;lastmodified模式主要針對UPDATE修改數(shù)據(jù)的增量導(dǎo)入。查看全文>>