企業大數據系統構建實戰:技術、架構、實施與應用 | 如何做好生意 - 2024年11月

企業大數據系統構建實戰:技術、架構、實施與應用

作者:呂兆星等
出版社:機械工業
出版日期:2017年05月01日
ISBN:9787111568766
語言:繁體中文

本書分13章,分別從企業大數據戰略定位、企業大數據落地實施和價值評估,以及大數據的變革與挑戰這三大方面進行撰寫,宏觀上涵蓋了企業戰略決策和定位,微觀上涵蓋了大數據職能、思路、方法、流程、開發、應用、評估的整個環節。企業大數據的知識完整性也是本書的特色之一。鄭傳峰(Peter Zheng),Hive Cloud首席戰略官,知名品牌大數據方向戰略規划,包含數據產品、數據應用、數據價值變現等方向,軟通動力數據科技公司資深數據應用專家。在CRM系統、DMP數據平台、精准營銷系統、RTB、DSP、SSP和ADX方向擁有多年的操盤經驗,包含大數據上層應用服務產品設計、咨詢和實施。參與多個大型企業大數據戰略規划和實施,其中用戶畫像、精准營銷體系、個性化推薦體系成功應用於電商和運營商行業,企業案例包括國美電器、中國移動、中國聯通和中國電信等。呂兆星(Ethan Lv),軟通動力數據科技公司總架構師,Hive Cloud創始人兼CTO,蘿卜網CTO,大數據技術領域資深專家,精通基於大數據的分布式數據挖掘、存儲與計算技術生態體系架構,精通垂直搜索技術及機器學習、文本情感傾向性挖掘開發、網絡爬蟲、全文索引體系架構。曾任國美在線大數據中心高級架構師,大數據平台負責人,軍犬軟件開網絡輿情監測產品開發負責人。知名品牌研發的大數據和輿情產品包括:軍犬輿情系列、淘商情系列、蜂棱系列、Covers系列。成功應用到電商、電信、金融、政府、食品、鋼鐵、醫療保健等行業,超過500個政府和企業用戶。《上海世博會輿情技術大賽》第三名,《基於機器學習的數據挖掘模型》獲得重量技術創新基金,蘿卜客堂特邀高級講師。宋天龍(Tony Song),軟通動力數據科技公司資深數據專家,Hive Cloud數據總監,Webtrekk中國區技術和咨詢負責人(Webtrekk,德國最大程度的網站數據分析服務提供商),數據研究與商業應用博主。擁有豐富的數據項目工作經驗,參與過企業級項目包括企業數據體系規划、數據產品搭建、流量數據倉庫建設、網站流量系統建設、企業BI等大型數據工作項目。參與實施客戶案例包括Webpower、德國OTTO集團電子商務(中國),Esprit中國、豬八戒網、樂視商城、泰康人壽、合眾人壽、酒仙網,迪信通等。合作培訓的項目包括數盟、互聯網分析沙龍、Netconcepts、truemetrics、中商聯數據分析委等。蘿卜課堂特邀講師,百度文庫認證作家、36大數據、站長之家、互聯網分析沙龍專欄作家。着有《網站數據挖掘與分析:系統方法與商業實踐》一書。楊曉鵬(KelvinYang),軟通動力數據科技公司高級架構師,HiveCloud總架構師,知名品牌大數據存儲平台、計算平台和應用服務平台的設計與研發。曾任居然之家O2O數據一體化總負責人。曾參與企業級項目包括大型電商網站的BI系統、數據倉庫、大數據系統等設計和研發項目,金融銀行類企業風險及異常交易分析項目。實施大中型企業數據項目包括居然之家、中國銀聯、華農保險、中國電信等超過50家客戶案例。精通大數據Hadoop,Hive,HBase,Impala等組件架構與實施,精通數學模型,自主開發實現分治/覆蓋的C4.5決策樹、馬爾科夫預測、KMeans、Apriori等模型算法程序,成功應用到電商、金融等行業。

前言 第1章企業大數據戰略定位 1 1.1宏觀 1 1.2微觀 4 1.2.1資源協同 5 1.2.2戰略定位 6 1.2.3啟動契機 7 1.2.4大數據歷程 9 1.3本章小結 12 第2章企業大數據職能規划 13 2.1大數據組織架構體系 13 2.1.1大數據部門在企業中的角色 13 2.1.2常見的大數據職能及職責 17 2.2大數據職位構建體系 24 2.2.1基礎平台類 24 2.2.2數據管理類 26 2.2.3技術研發類 27 2.2.4產品設計類 30 2.2.5數據挖掘類 32 2.2.6數據分析類 33 2.3大數據制度和流程規范 35 2.3.1制度和流程規范意義 35 2.3.2制度和流程規范內容 35 2.3.3制度和流程規范模板 42 2.4本章小結 44 第3章企業大數據解決方案 45 3.1企業大數據解決方案實現方式 45 3.1.1獨立研發 45 3.1.2第三方解決方案 46 3.1.3聯合開發 57 3.2如何選擇解決方案 58 3.2.1外部環境分析 58 3.2.2內部環境分析 59 3.2.3需求規划分析 62 3.2.4解決方案特性分析 63 3.2.5解決方案費用評估 67 3.3本章小結 70 第4章企業大數據自主實施思路 71 4.1制定規划原則 71 4.1.1價值性 71 4.1.2實時性 72 4.1.3高效性 72 4.1.4安全性 72 4.1.5延展性 73 4.1.6全局性 74 4.2制定目標藍圖 75 4.3制定建設目標 76 4.4明確組織規划 78 4.4.1組織結構設計的作用 79 4.4.2組織結構設立的導向 79 4.4.3組織結構的最終設立 81 4.5設計技術方案 85 4.5.1大數據系統建設方案 85 4.5.2大數據系統與傳統BI的融合方案 91 4.6制定人才規划 94 4.6.1指導思想 94 4.6.2規划原則 94 4.6.3核心內容 95 4.7投入產出評估 97 4.7.1數據投入與產出的內涵 97 4.7.2數據投入與產出的特征 98 4.7.3數據投入與產出的管理 99 4.8數據風險管理 105 4.8.1數據風險管理的概念 105 4.8.2數據風險管理的類型 106 4.8.3數據風險管理的原則 109 4.8.4數據風險管理與控制 110 4.9本章小結 114 第5章大數據技術介紹 115 5.1核心技術 115 5.1.1Hadoop生態 115 5.1.2NoSQL 142 5.1.3實時計算 150 5.1.4全文檢索 160 5.2相關技術 204 5.2.1數據可視化 204 5.2.2數據緩存 220 5.2.3中間件 227 5.2.4關系型數據庫 236 5.2.5數據ETL 245 5.3大數據算法庫 250 5.4本章小結 276 第6章大數據架構設計 277 6.1大數據架構設計原則 277 6.2大數據核心架構要素 279 6.3大數據架構設計模式 284 6.4本章小結 289 第7章大數據技術開發 290 7.1數據采集 290 7.1.1批量采集 291 7.1.2增量采集 292 7.2數據存儲 293 7.2.1HDFS文件存儲引擎 294 7.2.2Hive數據存儲引擎 295 7.2.3HBase列式存儲引擎 295 7.2.4MySQL關系型數據存儲引擎 296 7.3多維計算 296 7.4功能服務 299 7.5平台管理 301 7.5.1監控管理 301 7.5.2調度管理 302 7.5.3權限管理 304 7.6應用域 307 7.7本章小結 308 第8章大數據工作流 309 8.1數據源 310 8.1.1日志/文件 310 8.1.2數據庫 310 8.1.3網絡爬蟲 311 8.1.4第三方API/合作 311 8.2數據處理 312 8.2.1數據質量校驗 312 8.2.2清洗轉換 316 8.2.3質量提升 320 8.2.4數據脫敏 321 8.2.5集成整合 323 8.3數據存儲 324 8.3.1關系型數據庫 324 8.3.2分布式文件系統 325 8.4數據計算 325 8.4.1三種數據計算時效性 325 8.4.2結構化數據計算 327 8.4.3半/非結構化數據計算 333 8.4.4深度挖掘學習 360 8.5數據應用 376 8.5.1輔助決策 376 8.5.2數據驅動 377 8.6數據質量管理 379 8.6.1數據質量建設的內涵 379 8.6.2影響數據質量的常見因素 380 8.6.3數據質量建設的框架 381 8.7本章小結 392 第9章企業大數據業務應用 393 9.1大數據應用場景概述 393 9.1.1場景商業目的分析 394 9.1.2場景數據來源分析 394 9.1.3場景數據難易分析 397 9.1.4場景應用舉例 397 9.2用戶畫像 407 9.2.1業務應用背景 407 9.2.2主要實現過程 408 9.2.3關鍵應用場景 414 9.2.4應用價值提煉 415 9.2.5場景總結回顧 417 9.3個性化營銷 419 9.3.1業務應用背景 419 9.3.2主要實現過程 421 9.3.3關鍵應用場景 424 9.3.4應用價值提煉 425 9.3.5場景總結回顧 426 9.4精准廣告 427 9.4.1業務應用背景 427 9.4.2主要實現過程 429 9.4.3關鍵應用場景 438 9.4.4應用價值提煉 439 9.4.5場景總結回顧 440 9.5征信 441 9.5.1應用場景背景 441 9.5.2主要實現過程 442 9.5.3主要應用場景 447 9.5.4應用價值提煉 449 9.5.5場景總結回顧 449 9.6本章小結 450 第10章 企業大數據價值評估 451 10.1 資產價值 451 10.1.1 數據規模 451 10.1.2 數據價值度 452 10.1.3 數據鮮活性 454 10.1.4 數據關聯維度 454 10.1.5 數據粒度 455 10.2 業務價值 455 10.2.1 用戶體驗提升 455 10.2.2 運營優化 457 10.2.3 銷售貢獻 460 10.2.4 供應鏈優化 461 10.3 本章小結 462 第11章 大數據的社會價值 463 11.1 民生價值 463 11.2 政務價值 465 11.3 產業價值 468 11.4 本章小結 470 第12章 大數據當前問題及挑戰 471 12.1 數據挑戰 471 12.2 安全挑戰 472 12.3 價值挑戰 474 12.4 認知挑戰 475 12.5 技術挑戰 478 12.6 人才挑戰 480 12.7 本章小結 481 第13章 大數據未來趨勢 482 13.1 價值資產化 482 13.2 產業生態化 487 13.3 主體社會化 490 13.4 應用智能化 491 13.5 本章小結 492


相關書籍