大數(shù)據(jù)技術基礎及應用教程(Linux+Hadoop+Spark)課件(附習題答案)
|
資料類別
|
計算機課件 |
|
課程(專業(yè))
|
大數(shù)據(jù)技術基礎 |
關鍵詞
|
大數(shù)據(jù)技術基礎|分布式集群 |
適用年級
|
大學 |
身份要求
|
普通會員 |
金 幣
|
30 。金幣如何獲得?) |
文件格式
|
ppt+word |
文件大小
|
16246K |
發(fā)布時間
|
2022-08-03 07:31:00 |
預覽文件
|
0734892.png(只能預覽部分內(nèi)容) |
下載次數(shù)
|
1 |
發(fā)布人 |
kj008 |
內(nèi)容簡介:
大數(shù)據(jù)技術基礎及應用教程(Linux+Hadoop+Spark)課件
第一篇 技術基礎篇
第1章 大數(shù)據(jù)技術概述2
1.1 大數(shù)據(jù)的基本概念2
1.1.1 大數(shù)據(jù)的產(chǎn)生階段2
1.1.2 大數(shù)據(jù)的特征2
1.1.3 大數(shù)據(jù)在各個領域的應用3
1.1.4 大數(shù)據(jù)的核心技術和計算模式3
1.2 分布式技術與集群4
1.2.1 分布式技術概述4
1.2.2 分布式大數(shù)據(jù)集群概述4
1.3 大數(shù)據(jù)技術生態(tài)圈7
1.3.1 Linux操作系統(tǒng)7
1.3.2 Hadoop生態(tài)系統(tǒng)9
1.3.3 Spark對Hadoop的完善13
本章小結13
本章練習13
第2章 大數(shù)據(jù)分析技術15
2.1 大數(shù)據(jù)分析流程及相關技術15
2.1.1 數(shù)據(jù)采集與預處理15
2.1.2 大數(shù)據(jù)存儲16
2.1.3 大數(shù)據(jù)分析與挖掘17
2.1.4 數(shù)據(jù)可視化18
2.2 大數(shù)據(jù)分析常用方法18
2.2.1 數(shù)理統(tǒng)計分析18
2.2.2 聚類分析18
2.2.3 分類分析19
2.2.4 回歸分析19
2.3 數(shù)據(jù)分析基礎工具19
2.3.1 數(shù)據(jù)采集工具—Selenium和PhantomJS19
2.3.2 數(shù)據(jù)清洗工具—Kettle20
2.3.3 數(shù)據(jù)存儲工具—MongoDB和
MySQL21
2.3.4 機器學習工具—Scikit-learn23
2.3.5 數(shù)據(jù)可視化工具—Matplotlib、
PyEcharts、Superset23
本章小結25
本章練習26
第二篇 分布式集群篇
第3章 Linux技術基礎28
3.1 用戶與組管理28
3.1.1 用戶管理相關命令28
3.1.2 組管理相關命令29
3.1.3 其他命令29
3.2 文件與目錄管理29
3.2.1 常用文件操作命令29
3.2.2 目錄操作命令31
3.2.3 改變文件或目錄訪問權限32
3.2.4 文件備份和壓縮33
3.3 進程管理與作業(yè)控制33
3.3.1 進程查看34
3.3.2 進程調(diào)度34
3.4 磁盤存儲管理34
3.4.1 磁盤管理命令35
3.4.2 存取命令35
3.5 系統(tǒng)管理與常用網(wǎng)絡命令35
3.5.1 系統(tǒng)管理35
3.5.2 常用網(wǎng)絡命令36
3.6 在線幫助系統(tǒng)36
3.7 實踐:Linux操作系統(tǒng)的安裝與部署37
3.7.1 Linux的安裝和卸載37
3.7.2 局域網(wǎng)主機間遠程復制文件/
3.7.3 XML文件介紹38
3.7.4 VMware安裝及CentOS系統(tǒng)環(huán)境準備40
3.7.5 克隆虛擬機48
3.7.6 配置主機名50
3.7.7 配置網(wǎng)絡IP地址51
本章小結53
本章練習53
第4章 Hadoop技術基礎及構建Hadoop集群55
4.1 Hadoop技術基礎55
4.1.1 Hadoop的組成55
4.1.2 Hadoop的運行模式62
4.1.3 HDFS文件的存取63
4.1.4 Hadoop集群的環(huán)境配置64
4.1.5 Hadoop集群的搭建65
4.1.6 啟動Hadoop集群69
4.2 ZooKeeper技術基礎及部署70
4.2.1 ZooKeeper簡介70
4.2.2 ZooKeeper的安裝部署73
4.2.3 Leader選舉機制75
4.2.4 ZooKeeper客戶端訪問集群
(命令行操作方式)82
4.3 HDFS與YARN高可用技術基礎84
4.3.1 HDFS高可用的工作機制84
4.3.2 HDFS高可用配置85
4.3.3 YARN高可用的工作機制93
4.3.4 YARN高可用配置94
4.4 實踐:HDFS及MapReduce的應用示例98
4.4.1 讀寫HDFS文件98
4.4.2 MapReduce操作 1:二次排序105
4.4.3 MapReduce操作 2:計數(shù)器110
4.4.4 MapReduce操作 3:Join操作113
本章小結119
本章練習119
第5章 Spark技術基礎及構建Spark集群121
5.1 Spark核心機制121
5.1.1 Spark基本原理121
5.1.2 Spark系統(tǒng)架構122
5.1.3 Spark Shell操作123
5.2 Hive原理及實踐124
5.2.1 Hive定義124
5.2.2 Hive架構124
5.2.3 Hive表分類及查詢操作126
5.3 HBase原理及實踐130
5.3.1 HBase定義130
5.3.2 HBase集群架構130
5.3.3 HBase數(shù)據(jù)模型131
5.4 Kafka原理及實踐133
5.4.1 Kafka定義133
5.4.2 Kafka消息隊列133
5.4.3 Kafka基礎架構134
5.5 Flume原理及實踐135
5.5.1 Flume簡介135
5.5.2 Flume基礎架構135
5.6 實踐:搭建基于Spark的實時大數(shù)據(jù)平臺137
5.6.1 Spark安裝部署137
5.6.2 MySQL安裝部署140
5.6.3 Hive安裝部署141
5.6.4 HBase安裝部署143
5.6.5 Kafka安裝部署147
5.6.6 Flume安裝部署149
5.6.7 Spark集群典型應用150
本章小結158
本章練習158
第三篇 平臺構建篇
第6章 構建基于Spark的實時交易數(shù)據(jù)統(tǒng)計平臺161
6.1 系統(tǒng)需求與架構161
6.1.1 系統(tǒng)背景介紹161
6.1.2 系統(tǒng)功能需求162
6.1.3 系統(tǒng)架構設計162
6.2 Redis簡介163
6.2.1 Redis數(shù)據(jù)庫的作用163
6.2.2 Redis部署與啟動163
6.2.3 Redis常用命令165
6.3 系統(tǒng)開發(fā)流程166
6.4 數(shù)據(jù)獲取模塊實現(xiàn)174
6.4.1 模擬訂單數(shù)據(jù)174
6.4.2 向Kafka集群發(fā)送訂單數(shù)據(jù)175
6.5 數(shù)據(jù)分析與處理模塊實現(xiàn)178
6.5.1 分析訂單數(shù)據(jù)178
6.5.2 生成結果182
6.6 數(shù)據(jù)可視化模塊實現(xiàn)182
6.6.1 搭建Web開發(fā)環(huán)境183
6.6.2 實現(xiàn)數(shù)據(jù)展示功能185
6.6.3 可視化平臺展示192
本章小結192
本章練習192
第7章 構建基于Hadoop的離線電商大數(shù)據(jù)分析平臺194
7.1 系統(tǒng)需求與架構194
7.1.1 系統(tǒng)背景介紹194
7.1.2 系統(tǒng)功能需求195
7.1.3 系統(tǒng)架構設計195
7.2 數(shù)據(jù)采集模塊實現(xiàn)196
7.2.1 商品信息爬取196
7.2.2 調(diào)試分析210
7.3 數(shù)據(jù)處理與存儲模塊實現(xiàn)211
7.3.1 信息分析與處理211
7.3.2 商品信息存儲220
7.3.3 調(diào)試分析222
7.4 數(shù)據(jù)可視化模塊實現(xiàn)222
7.4.1 使用Superset連接MySQL數(shù)據(jù)庫223
7.4.2 調(diào)試分析223
本章小結226
本章練習227
相關說明:
1. 如您下載的資料不止一份,建議您注冊成為本站會員。會員請登錄后下載。
2. 會員購買金幣50元以下,0.7元/個,50元以上,0.5元/個。具體請看:下載與付款。
3. 會員48小時內(nèi)下載同一文件,不重復扣金幣。
4. 下載后請用WinRAR或 WinZIP解壓縮后使用。
5. 如仍有其他下載問題,請看常見問題解答。
下載地址:
|
|
|