首頁技術(shù)文章正文

什么是數(shù)據(jù)清洗?數(shù)據(jù)清洗的原理是什么?

更新時間:2022-05-13 來源:黑馬程序員 瀏覽量:

IT培訓班

數(shù)據(jù)清洗技術(shù)是提高數(shù)據(jù)質(zhì)量的有效方法。這項技術(shù)是一個較新的研究領域,對大數(shù)據(jù)集的清洗工作需要花費很長的時間。由于不同的應用領域?qū)?shù)據(jù)清洗有不同的解釋,因此數(shù)據(jù)清洗直到現(xiàn)在都沒有一個公認、統(tǒng)一的定義。數(shù)據(jù)清洗主要應用于3個領域,即數(shù)據(jù)倉庫領域、數(shù)據(jù)挖掘領域以及數(shù)據(jù)質(zhì)量管理領域。

在數(shù)據(jù)倉庫領域中,當多個數(shù)據(jù)庫合并時或多個數(shù)據(jù)源進行集成時,都需要進行數(shù)據(jù)清洗。例如,當同一個實體的記錄在不同數(shù)據(jù)源中以不同的表示格式或錯誤表示的情況下,合并后的數(shù)據(jù)倉庫中就會出現(xiàn)重復的記錄,數(shù)據(jù)清洗的程序就需要識別出重復的記錄并消除重復的記錄,也就是所謂的數(shù)據(jù)合并或清除(Merge/Purge)問題。在數(shù)據(jù)倉庫環(huán)境中,數(shù)據(jù)清洗主要包括數(shù)據(jù)的清洗和結(jié)構(gòu)的轉(zhuǎn)換兩個過程。

在數(shù)據(jù)挖掘領域中,數(shù)據(jù)清洗是數(shù)據(jù)進行預處理過程的第一個步驟。在數(shù)據(jù)預處理應用中,數(shù)據(jù)清洗的主要任務是提高數(shù)據(jù)的可用性,即去除噪聲、無關(guān)數(shù)據(jù)以及空值等,并考慮數(shù)據(jù)的動態(tài)變化。在字符分類問題中,通過使用機器學習的技術(shù)進行數(shù)據(jù)清洗,即使用特定算法檢測數(shù)據(jù)庫對缺失和錯誤的數(shù)據(jù)予以修改。

在數(shù)據(jù)質(zhì)量管理領域中,數(shù)據(jù)質(zhì)量管理是一個學術(shù)界和商業(yè)界都感興趣的領域。數(shù)據(jù)質(zhì)量管理主要用于解決信息系統(tǒng)中的數(shù)據(jù)質(zhì)量及集成問題。在該領域中,數(shù)據(jù)清洗從數(shù)據(jù)質(zhì)量的角度出發(fā),把數(shù)據(jù)清洗過程和數(shù)據(jù)生命周期集成在一起,對數(shù)據(jù)的正確性進行檢查并提高數(shù)據(jù)質(zhì)量。

數(shù)據(jù)清洗是利用相關(guān)技術(shù)將“臟”數(shù)據(jù)轉(zhuǎn)換為滿足質(zhì)量要求的數(shù)據(jù)。下面通過一張圖描述數(shù)據(jù)清洗的原理。

1668409045973_同一屬性的不同表示.png

從圖中可以看出,同一值的不同表示、拼寫錯誤、不同的命名習慣、不合法的值以及空值都會導致“臟”數(shù)據(jù)出現(xiàn),通過定義好的數(shù)據(jù)清洗策略和清洗規(guī)則(即數(shù)理統(tǒng)計技術(shù)、數(shù)據(jù)挖掘技術(shù)等清洗策略)對“臟”數(shù)據(jù)進行清洗,得到滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。需要注意的是,數(shù)據(jù)清洗的目的是解決“臟”數(shù)據(jù)問題,即不是將“臟”數(shù)據(jù)洗掉,而是將“臟”數(shù)據(jù)洗干凈。干凈的數(shù)據(jù)指的是滿足質(zhì)量要求的數(shù)據(jù)。


分享到:
在線咨詢 我要報名
和我們在線交談!