數據清洗 | 如何做好生意 - 2024年11月

數據清洗

作者:黑馬程式師
出版社:清華大學
出版日期:2020年04月01日
ISBN:9787302550877
語言:繁體中文
售價:260元

資料清洗是大資料預處理的關鍵環節。面對錯綜複雜的資料,傳統的清洗“髒”資料工作單調且異常辛苦,如果能利用正確的工具和方法,可以讓資料清洗工作變得事半功倍。
 
該書講解資料清洗的理論知識和實際應用,全書共8章:第1章主要帶領大家簡單認識資料清洗;第2章主要講解ETL技術相關的知識;第3章講解Kettle工具的基本使用;第4章主要講解資料清洗的第一步——資料抽取;第5章主要講解資料清洗與檢驗;第6章主要講解資料轉換相關的知識;第7章主要講解資料載入相關的知識;第8章利用前面章節所學的知識構建一個DVD租賃商店資料倉庫,目的是實現定期從來源資料庫sakila中抽取增量資料,轉換成符合DVD租賃業務的資料,最後載入到DVD租賃商店資料倉庫中,便於後續線上DVD租賃商店的決策者對資料進行分析得出商業決策。該書附有配套視頻、原始程式碼、習題、教學設計、教學課件等資源。同時,為了幫助初學者更好地學習該書中的內容,還提供了線上答疑,歡迎讀者關注。
  
《資料清洗/大資料技術與應用叢書》可作為高等院校本專科電腦、資訊管理等相關專業的大資料課程教材,也可供相關技術人員參考,是一本適合廣大電腦程式設計愛好者的優秀讀物。


江蘇傳智播客教育科技股份有限公司(簡稱傳智播客)是一家致力於培養高素質軟體發展人才的科技公司,“黑馬程式師”是傳智播客旗下高端IT教育品牌。


第1章 數據清洗概述
1.1 數據清洗的背景
1.1.1 資料品質概述
1.1.2 資料品質的評價指標
1.1.3 資料品質的問題分類
1.2 資料清洗的定義
1.3 資料清洗的原理
1.4 資料清洗的基本流程
1.5 數據清洗的策略
1.6 常見的資料清洗方法
1.7 本章小結
1.8 本章習題

第2章 初識ETL
2.1 基於ETL的資料清洗
2.1.1 ETL的概念
2.1.2 ETL的體系結構
2.2 ETL關鍵技術
2.2.1 數據的抽取
2.2.2 資料的清洗轉換
2.2.3 數據的載入
2.3 ETL常見工具介紹
2.4 本章小結
2.5 本章習題

第3章 Kettle工具的基本使用
3.1 Kettle簡介
3.1.1 Kettle概述
3.1.2 Kettle的設計原則203.2 Kettle的下載安裝
3.3 Kettle的基本概念
3.3.1 轉換
3.3.2 作業
3.4 Kettle的基本功能
3.4.1 轉換管理
3.4.2 作業管理
3.4.3 資料庫連接
3.5 本章小結
3.6 本章習題

第4章 數據抽取
4.1 抽取文本資料
4.1.1 TSV文件的抽取
4.1.2 CSV文件的抽取
4.2 抽取Web數據
4.2.1 HTML網頁的數據抽取
4.2.2 XML檔的資料抽取
4.2.3 JSON檔的資料抽取
4.3 抽取資料庫資料
4.3.1 抽取關係型數據庫的數據
4.3.2 抽取非關係型數據庫的數據
4.4 本章小結
4.5 本章習題

第5章 資料的清洗與檢驗
5.1 數據去重
5.1.1 完全去重
5.1.2 不完全去重
5.2 缺失值處理
5.2.1 缺失值清洗策略
5.2.2 去除缺失值
5.2.3 填充缺失值
5.3 異常值
5.3.1 出現異常值的原因
5.3.2 檢測異常值
5.3.3 刪除包含異常值的記錄
……
第6章 資料轉換
第7章 數據載入
第8章 綜合案例——構建DVD租賃商店資料倉庫


相關書籍