Python網(wǎng)絡(luò)爬蟲電子課件+習(xí)題答案+教學(xué)大綱+模擬試卷等
|
資料類別
|
計算機課件 |
|
課程(專業(yè))
|
Python網(wǎng)絡(luò)爬蟲 |
關(guān)鍵詞
|
Python網(wǎng)絡(luò)爬蟲|Python語言 |
適用年級
|
高職 |
身份要求
|
普通會員 |
金 幣
|
50 。金幣如何獲得?) |
文件格式
|
ppt+word |
文件大小
|
91278K |
發(fā)布時間
|
2023-07-10 19:57:00 |
預(yù)覽文件
|
0735396.png(只能預(yù)覽部分內(nèi)容) |
下載次數(shù)
|
0 |
發(fā)布人 |
kj008 |
內(nèi)容簡介:
Python網(wǎng)絡(luò)爬蟲電子課件+習(xí)題答案+教學(xué)大綱+模擬試卷等
第1章 Python基礎(chǔ)及網(wǎng)絡(luò)爬蟲1
1.1 了解Python語言1
1.1.1 Python是什么2
1.1.2 Python的應(yīng)用現(xiàn)狀2
1.2 配置安裝Python開發(fā)環(huán)境3
1.2.1 在Windows上安裝3
1.2.2 在Ubuntu和MacOS上安裝4
1.2.3 IDE的使用:以PyCharm為例5
1.2.4 Jupyter Notebook簡介9
1.3 Python基本語法介紹11
1.3.1 HelloWorld與數(shù)據(jù)類型11
1.3.2 邏輯語句17
1.3.3 Python中的函數(shù)與類20
1.3.4 更深入了解Python22
1.4 互聯(lián)網(wǎng)、HTTP與HTML22
1.4.1 互聯(lián)網(wǎng)與HTTP22
1.4.2 HTML23
1.5 Hello, Spider!25
1.5.1 編寫第一個爬蟲程序25
1.5.2 對爬蟲的思考27
1.6 分析網(wǎng)站28
1.6.1 robots.txt與Sitemap簡介28
1.6.2 網(wǎng)站技術(shù)分析31
1.6.3 網(wǎng)站所有者信息分析33
1.6.4 使用開發(fā)者工具檢查網(wǎng)頁34
1.7 本章小結(jié)37
1.8 實踐:Python環(huán)境的配置與爬蟲的運行37
1.8.1 需求說明37
1.8.2 實現(xiàn)思路及步驟37
1.9 習(xí)題37
第2章 數(shù)據(jù)采集與預(yù)處理39
2.1 數(shù)據(jù)39
2.1.1 數(shù)據(jù)的概念39
2.1.2 數(shù)據(jù)類型40
2.1.3 數(shù)據(jù)的存儲形式42
2.1.4 數(shù)據(jù)的價值42
2.1.5 大數(shù)據(jù)時代43
2.2 數(shù)據(jù)分析過程43
2.3 數(shù)據(jù)采集44
2.3.1 數(shù)據(jù)采集的概念44
2.3.2 數(shù)據(jù)采集的數(shù)據(jù)源44
2.3.3 數(shù)據(jù)采集方法45
2.4 數(shù)據(jù)清洗45
2.4.1 數(shù)據(jù)清洗概述45
2.4.2 數(shù)據(jù)清洗的內(nèi)容46
2.4.3 數(shù)據(jù)清洗的基本流程46
2.4.4 數(shù)據(jù)清洗的評價標準47
2.5 數(shù)據(jù)集成47
2.6 數(shù)據(jù)轉(zhuǎn)換48
2.6.1 數(shù)據(jù)轉(zhuǎn)換概念與策略48
2.6.2 平滑處理48
2.6.3 標準化處理50
2.7 數(shù)據(jù)脫敏50
2.7.1 數(shù)據(jù)脫敏的原則50
2.7.2 數(shù)據(jù)脫敏的方法51
2.8 本章小結(jié)51
2.9 實踐:使用Python嘗試數(shù)據(jù)的清洗51
2.9.1 需求說明51
2.9.2 實現(xiàn)思路及步驟51
2.10 習(xí)題51
第3章 靜態(tài)網(wǎng)頁采集53
3.1 從采集開始53
3.2 正則表達式54
3.2.1 什么是正則表達式54
3.2.2 正則表達式的簡單使用56
3.3 BeautifulSoup爬蟲58
3.3.1 安裝BeautifulSoup58
3.3.2 BeautifulSoup的基本用法61
3.4 XPath與lxml64
3.4.1 XPath64
3.4.2 lxml與XPath的使用65
3.5 遍歷頁面67
3.5.1 抓取下一個頁面67
3.5.2 完成爬蟲68
3.6 使用API70
3.6.1 API簡介70
3.6.2 API使用示例72
3.7 本章小結(jié)75
3.8 實踐:嗶哩嗶哩直播間信息爬取練習(xí)75
3.8.1 需求說明75
3.8.2 實現(xiàn)思路及步驟75
3.9 習(xí)題76
第4章 數(shù)據(jù)存儲77
4.1 Python中的文件77
4.1.1 Python的文件讀寫77
4.1.2 對象序列化79
4.2 Python中的字符串80
4.3 Python中的圖片81
4.3.1 PIL與Pillow模塊81
4.3.2 Python與OpenCV簡介83
4.4 CSV84
4.4.1 CSV簡介84
4.4.2 CSV的讀寫84
4.5 數(shù)據(jù)庫的使用86
4.5.1 MySQL的使用86
4.5.2 SQLite3的使用88
4.5.3 SQLAlchemy的使用89
4.5.4 Redis的使用91
4.5.5 MongoDB的使用91
4.6 其他類型的文檔92
4.7 本章小結(jié)97
4.8 實踐:使用Python 3讀寫SQLite數(shù)據(jù)庫97
4.8.1 需求說明97
4.8.2 實現(xiàn)思路及步驟97
4.9 習(xí)題97
第5章 JavaScript與動態(tài)內(nèi)容99
5.1 JavaScript與AJAX技術(shù)100
5.1.1 JavaScript語言100
5.1.2 AJAX103
5.2 抓取AJAX數(shù)據(jù)104
5.2.1 分析數(shù)據(jù)104
5.2.2 數(shù)據(jù)提取108
5.3 抓取動態(tài)內(nèi)容113
5.3.1 動態(tài)渲染頁面113
5.3.2 使用Selenium114
5.3.3 PyV8與Splash120
5.4 本章小結(jié)123
5.5 實踐:爬取機械工業(yè)出版社新書上架信息123
5.5.1 需求說明123
5.5.2 實現(xiàn)思路及步驟124
5.6 習(xí)題124
第6章 模擬登錄與驗證碼125
6.1 表單125
6.1.1 表單與POST125
6.1.2 POST發(fā)送表單數(shù)據(jù)127
6.2 Cookie130
6.2.1 Cookie簡介130
6.2.2 在Python中Cookie的使用131
6.3 模擬登錄網(wǎng)站133
6.3.1 分析網(wǎng)站133
6.3.2 Cookie方法的模擬登錄134
6.4 驗證碼137
6.4.1 圖片驗證碼137
6.4.2 滑動驗證139
6.5 本章小結(jié)142
6.6 實踐:通過Selenium模擬登錄Gitee并保存Cookie143
6.6.1 需求說明143
6.6.2 實現(xiàn)思路及步驟143
6.7 習(xí)題143
第7章 爬蟲數(shù)據(jù)的分析與處理144
7.1 Python與文本分析144
7.1.1 文本分析簡介144
7.1.2 jieba與SnowNLP145
7.1.3 NLTK148
7.1.4 文本分類與聚類151
7.2 數(shù)據(jù)處理與科學(xué)計算153
7.2.1 從MATLAB到Python153
7.2.2 NumPy154
7.2.3 Pandas158
7.2.4 Matplotlib163
7.2.5 SciPy與SymPy167
7.3 本章小結(jié)167
7.4 實踐:中國每年大學(xué)招生人數(shù)
變化的可視化167
7.4.1 需求說明167
7.4.2 實現(xiàn)思路及步驟167
7.5 習(xí)題167
第8章 爬蟲的靈活性和多樣性169
8.1 爬蟲的靈活性——以微信數(shù)據(jù)抓取為例169
8.1.1 用Selenium抓取Web微信信息169
8.1.2 基于Python的微信API工具173
8.2 爬蟲的多樣性176
8.2.1 在BeautifulSoup和XPath之外176
8.2.2 在線爬蟲應(yīng)用平臺179
8.2.3 使用urllib180
8.3 爬蟲的部署和管理188
8.3.1 使用服務(wù)器部署爬蟲188
8.3.2 本地爬蟲的編寫191
8.3.3 爬蟲的部署195
8.3.4 實時查看運行結(jié)果197
8.3.5 使用框架管理爬蟲197
8.4 本章小結(jié)200
8.5 實踐:基于PyQuery爬取菜鳥教程201
8.5.1 需求說明201
8.5.2 實現(xiàn)思路及步驟201
8.6 習(xí)題201
第9章 Selenium模擬瀏覽器與網(wǎng)站測試202
9.1 測試202
9.1.1 什么是測試202
9.1.2 什么是TDD203
9.2 Python的單元測試203
9.2.1 使用unittest203
9.2.2 其他方法206
9.3 使用Python爬蟲測試網(wǎng)站207
9.4 使用Selenium測試209
9.4.1 Selenium測試常用的網(wǎng)站交互209
9.4.2 結(jié)合Selenium進行單元測試211
9.5 本章小結(jié)212
9.6 實踐:使用Selenium爬取百度搜索“爬蟲”的結(jié)果212
9.6.1 需求說明212
9.6.2 實現(xiàn)思路及步驟212
9.7 習(xí)題213
第10章 爬蟲框架Scrapy與反爬蟲214
10.1 爬蟲框架214
10.1.1 Scrapy簡介214
10.1.2 安裝與學(xué)習(xí)Scrapy216
10.1.3 Scrapy爬蟲編寫218
10.1.4 其他爬蟲框架220
10.2 網(wǎng)站反爬蟲221
10.2.1 反爬蟲策略簡介221
10.2.2 偽裝Headers222
10.2.3 代理IP的使用225
10.2.4 控制訪問頻率228
10.3 本章小結(jié)229
10.4 實踐:使用反反爬蟲策略抓取新浪體育頻道熱門新聞標題229
10.4.1 需求說明229
10.4.2 實現(xiàn)思路及步驟229
10.5 習(xí)題230
第11章 實戰(zhàn):根據(jù)關(guān)鍵詞爬取新聞231
11.1 利用Web Scraper工具231
11.1.1 Web Scraper介紹231
11.1.2 利用Web Scraper爬取新華網(wǎng)新聞232
11.2 利用Selenium和XPath技術(shù)234
11.2.1 Selenium介紹234
11.2.2 XPath介紹234
11.2.3 根據(jù)關(guān)鍵詞爬取新聞235
11.3 本章小結(jié)236
第12章 實戰(zhàn):爬取科研文獻信息237
12.1 科研文獻數(shù)據(jù)爬取237
12.1.1 網(wǎng)頁URL分析237
12.1.2 網(wǎng)頁響應(yīng)內(nèi)容獲取238
12.1.3 數(shù)據(jù)持久化存儲240
12.1.4 爬蟲代碼編寫240
12.1.5 大數(shù)據(jù)量文獻爬蟲245
12.1.6 針對反爬蟲的措施246
12.2 本章小結(jié)247
第13章 實戰(zhàn):蒸汽平臺游戲數(shù)據(jù)爬取248
13.1 爬取蒸汽平臺上最受好評的前
100個游戲信息248
13.1.1 多線程248
13.1.2 搜索頁面分析和爬蟲實現(xiàn)248
13.1.3 游戲頁面分析和爬蟲實現(xiàn)250
13.1.4 信息存儲和結(jié)果展示253
13.2 本章小結(jié)254
第14章 實戰(zhàn):Scrapy框架爬取股票信息255
14.1 任務(wù)介紹255
14.2 Scrapy項目實戰(zhàn)256
14.2.1 新建Scrapy爬蟲項目256
14.2.2 使用Scrapy shell抓取并查看頁面256
14.2.3 爬蟲代碼編寫260
14.2.4 運行并存儲數(shù)據(jù)262
14.2.5 設(shè)置文件修改263
14.3 本章小結(jié)265
相關(guān)說明:
1. 如您下載的資料不止一份,建議您注冊成為本站會員。會員請登錄后下載。
2. 會員購買金幣50元以下,0.7元/個,50元以上,0.5元/個。具體請看:下載與付款。
3. 會員48小時內(nèi)下載同一文件,不重復(fù)扣金幣。
4. 下載后請用WinRAR或 WinZIP解壓縮后使用。
5. 如仍有其他下載問題,請看常見問題解答。
下載地址:
|
|
|