Python爬蟲與文本分析技術(shù)為學(xué)術(shù)研究帶來了前所未有的便利和機(jī)遇。
它們不僅提高了數(shù)據(jù)收集和處理的效率,拓展了研究的資料來源和視野,還能夠助力學(xué)術(shù)研究者深入挖掘文本數(shù)據(jù)中的價(jià)值,驗(yàn)證理論假設(shè),促進(jìn)跨學(xué)科研究的開展。
已經(jīng)掌握的人會(huì)知道Python在科研中的使用不要太香,可以達(dá)到事半功倍的效果。
現(xiàn)在有了AI工具,比如DeepSeek(以下簡稱DS)和ChatGPT,Python的使用和學(xué)習(xí)變得及其簡單,很多代碼基本不需要自己再去手敲,另外也不怕各種報(bào)錯(cuò)找不到處理辦法了。大部分時(shí)候,通過Deepseek都可以直接幫你完成代碼撰寫,你只需要和AI提要求,然后能夠理解他的運(yùn)行邏輯就行了。
Python師資培訓(xùn)經(jīng)典課程-爬蟲與文本分析
25年加入DeepSeek助力
包含40個(gè)案例幫助掌握學(xué)術(shù)應(yīng)用
課程信息:
培訓(xùn)時(shí)間:5月1-4日(四天)
授課安排:9:00-12:00;14:00-17:00;答疑
培訓(xùn)方式:南京現(xiàn)場班/同步遠(yuǎn)程直播;均提供錄播回放
現(xiàn)場參加備注:
參加現(xiàn)場4月30日抵達(dá),5月5日離會(huì),主辦方JG學(xué)術(shù)培訓(xùn)在報(bào)名后提供交通住宿指南,會(huì)議酒店住宿提供協(xié)議價(jià)(含早);
現(xiàn)場班根據(jù)繳費(fèi)順序安排座位,現(xiàn)場名額限30人。
授課及答疑嘉賓:
陳老師,北京郵電大學(xué)博導(dǎo)。博士畢業(yè)于北京大學(xué),2015年-2017年在北京大學(xué)做博士后研究。主要研究方向包括人工智能,大數(shù)據(jù)分析等。發(fā)表學(xué)術(shù)論文100余篇,主持國家自然科學(xué)基金面上項(xiàng)目,國家重點(diǎn)研發(fā)計(jì)劃子課題,國家自然科學(xué)基金青年項(xiàng)目及博士后基金等多個(gè)國家級(jí)和省部級(jí)項(xiàng)目。國自然函評(píng)專家。多個(gè)SCI期刊審稿人。給多家企業(yè)及高校研究所進(jìn)行過人工智能培訓(xùn),授課經(jīng)驗(yàn)豐富,學(xué)員好評(píng)如潮。
課程目標(biāo):
1. 掌握爬蟲與文本分析原理與全流程
2. 高效數(shù)據(jù)采集與存儲(chǔ)
3. 動(dòng)態(tài)頁面與反爬蟲應(yīng)對
4. 驗(yàn)證碼識(shí)別突破
5. 分布式爬蟲架構(gòu)搭建
6. 文本分析全流程掌控
7. 文本挖掘與知識(shí)發(fā)現(xiàn)
8. 深度學(xué)習(xí)技術(shù)應(yīng)用
9. DeepSeek輔助實(shí)戰(zhàn)提升
10. 項(xiàng)目實(shí)戰(zhàn)與應(yīng)用拓展
課程內(nèi)容:(標(biāo)注藍(lán)色的本次新增內(nèi)容)
爬蟲與文本分析概述
目標(biāo):了解爬蟲和文本分析常見應(yīng)用場景,如何高效分析文本價(jià)值
1) 爬蟲常見應(yīng)用場景,結(jié)構(gòu)化數(shù)據(jù)/文本數(shù)據(jù)的獲取方法概述
2) 爬蟲和文本分析的技術(shù)難點(diǎn),大模型如何輔助爬蟲和文本分析
DeepSeek助力Python爬蟲
1. 爬蟲基礎(chǔ)
目標(biāo):掌握爬蟲基本概念,爬蟲基本流程,掌握網(wǎng)頁基礎(chǔ)知識(shí)
1) 什么是網(wǎng)絡(luò)爬蟲,爬蟲的注意事項(xiàng)
2) http基本原理
3) web網(wǎng)頁基礎(chǔ)
4) 爬蟲基本流程
案例:
百度,網(wǎng)易有道,豆瓣網(wǎng)頁結(jié)構(gòu)的理解和數(shù)據(jù)的解析;
簡單網(wǎng)頁的制作
2. 頁面解析和數(shù)據(jù)存儲(chǔ)
目標(biāo):掌握正則表達(dá)式的用法,學(xué)會(huì)利用正則表達(dá)式進(jìn)行文本信息提取,掌握常見文本信息存儲(chǔ)方法
1) 常用網(wǎng)頁數(shù)據(jù)解析方法,基于正則表達(dá)式的文本信息提取
2) 文本文件存儲(chǔ)
3) JSON文件存儲(chǔ)
案例:
正則表達(dá)式提取知網(wǎng)信息;
知網(wǎng)爬取數(shù)據(jù)的存儲(chǔ)和讀。╰xt,csv,excel,json)
3. urllib和requests
目標(biāo):掌握兩種基本的請求發(fā)送方法,通過案例展示,實(shí)現(xiàn)單頁和多頁數(shù)據(jù)爬取,掌握動(dòng)態(tài)頁面爬取方法,掌握模擬登錄,IP代理常用方法,實(shí)現(xiàn)高效率、大規(guī)模的網(wǎng)絡(luò)爬取
1) 請求頭的構(gòu)造
2) urllib中的get請求與post請求
3) requests單頁和多頁數(shù)據(jù)的爬取
4) 動(dòng)態(tài)頁面的數(shù)據(jù)爬取
5) 模擬登錄
6) 代理的基本使用
7) 高效代理池的維護(hù)
案例:
案例1:鏈家房源圖片的獲取和下載;
案例2:鏈家房源數(shù)據(jù)的獲取(單頁和多頁);
案例3:電影分類數(shù)據(jù)的爬。↗SON數(shù)據(jù));
案例4:電影評(píng)論的爬。▎雾撎D(zhuǎn)到多頁)
4. Beautiful Soup和Xpath
目標(biāo):通過案例,掌握兩種高效的網(wǎng)頁信息解析和提取方法,實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的高效提取
1) Beautiful Soup簡介
2) Beautiful Soup的頁面解析
3) Beautiful Soup節(jié)點(diǎn)選擇方法
4) 什么是Xpath
5) Xpath常用匹配規(guī)則
6) Xpath的節(jié)點(diǎn)選擇
案例:
案例1:天氣預(yù)報(bào)數(shù)據(jù)的爬。7天和40天);
案例2:豆瓣短評(píng)的爬。ǘ囗摚
5. Selenium和Playwright
目標(biāo):通過案例,掌握動(dòng)態(tài)渲染頁面的兩種自動(dòng)化的爬蟲方法
1) Selenium的安裝與配置
2) Selenium的基本使用
3) 頁面的訪問與節(jié)點(diǎn)定位
4) 節(jié)點(diǎn)信息的獲取
5) Playwright的安裝
6) Playwright的編寫模式
7) Playwright代碼生成
8) Playwright的常用操作方法
案例:
案例1:知網(wǎng)數(shù)據(jù)的爬取和論文的下載;
案例2:京東商品數(shù)據(jù)的爬;
案例3:谷歌學(xué)術(shù)論文數(shù)據(jù)的爬取
6. 驗(yàn)證碼的處理
目標(biāo):針對驗(yàn)證碼反爬蟲機(jī)制,掌握幾種常用驗(yàn)證碼識(shí)別方法
1) OCR識(shí)別驗(yàn)證碼
2) 圖像匹配識(shí)別滑動(dòng)驗(yàn)證碼
3) 云驗(yàn)證碼識(shí)別
案例:OCR驗(yàn)證碼的識(shí)別
7. Scrapy和分布式爬蟲
目標(biāo):掌握scrapy爬蟲框架和常用方法
1) scrapy框架介紹
2) scrapy入門
3) scrapy的節(jié)點(diǎn)選擇
4) Spider的用法
案例:
案例1:名言引用數(shù)據(jù)的抓取;
案例2:中國新聞網(wǎng)數(shù)據(jù)抓取
8. 基于大模型輔助的網(wǎng)絡(luò)爬蟲
目標(biāo):利用DeepSeek輔助爬蟲,提高爬蟲效率
1) 大模型在爬蟲中的作用
2) 網(wǎng)頁結(jié)構(gòu)解析和信息提。夯谔崾驹~的信息提取,生成代碼進(jìn)行信息提取
3) 爬蟲代碼的自動(dòng)生成
4) 爬蟲代碼的解讀和優(yōu)化
案例:
案例1:基于deepseek提示詞的評(píng)論數(shù)據(jù)抓。
案例2:基于deepseek生成代碼的評(píng)論數(shù)據(jù)抓。
案例3:微博數(shù)據(jù)抓取
DeepSeek助力Python文本分析:
1. 文本分析概述
目標(biāo):掌握文本分析的基本概念,文本分析的發(fā)展歷程,文本分析流程和挑戰(zhàn)
1) 文本數(shù)據(jù)與文本分析
2) 自然語言處理的流派
3) 文本分析的常見應(yīng)用
4) 文本分析的層次
5) 文本分析的流程
6) 文本分析的挑戰(zhàn)
2. 文本單元的提取與標(biāo)注
目標(biāo):掌握文本常用清洗方法,分詞原理和方法,詞性標(biāo)注方法
1) 文本數(shù)據(jù)的讀。篶sv, excel, word, pdf, txt
2) 文本數(shù)據(jù)的清洗
3) 分詞
4) 詞性標(biāo)注
案例:
案例1:年報(bào)數(shù)據(jù)的讀取;
案例2:評(píng)論數(shù)據(jù)分詞和詞云圖繪制;
案例3:新聞詞性標(biāo)注
3. 文本特征的選取與表示
目標(biāo):掌握文本的常用結(jié)構(gòu)化表示方法,利用多種方法實(shí)現(xiàn)文本特征提取,理解每種特征提取的優(yōu)缺點(diǎn)
1) 詞袋模型
2) TF-IDF
3) Word2Vec
4) GloVe
5) Doc2vec
6) FastText
7) BERT深度學(xué)習(xí)方法
案例:
案例1:基于word2vec的西游記人物相似性分析;
案例2:基于維基百科的glove模型特征提取
4. 關(guān)鍵詞提取
目標(biāo):掌握三種關(guān)鍵詞提取方法
1) 基于統(tǒng)計(jì)的方法:TF-IDF
2) 基于圖算法的方法:TextRank,RAKE
3) YAKE
4) LDA
案例:
案例1:新聞?wù)Z料關(guān)鍵詞提;
案例2:LDA關(guān)鍵詞提取和可視化
5. 文本分析的常見應(yīng)用
目標(biāo):掌握文本分析的常見應(yīng)用,和傳統(tǒng)的機(jī)器學(xué)習(xí)方法結(jié)合,實(shí)現(xiàn)文本的分類,聚類,摘要提取,情感分析等功能
1) 文字云
2) 文本分類
3) 文本聚類
4) 文本摘要
5) 情感分析
案例:
案例1:評(píng)論數(shù)據(jù)詞云圖的繪制;
案例2:基于貝葉斯的新聞分類;
案例3:爬取豆瓣評(píng)論并構(gòu)建分類器;
案例4:百科數(shù)據(jù)聚類;
案例5:豆瓣讀書數(shù)據(jù)聚類
6. 基于深度學(xué)習(xí)的文本分析技術(shù)
目標(biāo):掌握最新的深度學(xué)習(xí)在文本分析中的應(yīng)用,包括RNN,LSTM,CNN,注意力,Transformer等模型和機(jī)制的引入
1) RNN
2) LSTM
3) textCNN
4) GRU
5) 注意力機(jī)制
6) BERT和Transformer
案例:
案例1:基于DNN的評(píng)論分類;
案例2:基于RNN的評(píng)論分類;
案例3:基于LSTM的文本分類;
案例4:基于Text-CNN的文本分類
7. 基于大模型的文本分析
目標(biāo):AI大模型輔助文本分析,高效提取文本價(jià)值
1) 利用大模型進(jìn)行文本特征提取
2) 利用嵌入特征進(jìn)行文本分類
3) 利用嵌入特征進(jìn)行回歸
4) 利用嵌入特征文本相似性提取和推薦
5) 利用嵌入特征進(jìn)行零樣本分類
6) 利用嵌入特征進(jìn)行聚類
7) 少樣本學(xué)習(xí)
8) 結(jié)構(gòu)化數(shù)據(jù)提取
9) 內(nèi)容摘要的提取
10) 內(nèi)容分類
11) 情感分析
12) 文本知識(shí)圖譜構(gòu)建
13) 文本聊天機(jī)器人構(gòu)建
14) 基于微調(diào)大模型的文本分析
案例:
案例1:美食點(diǎn)評(píng)數(shù)據(jù)分析(基于通義千問的文本嵌入特征獲。;
案例2:點(diǎn)評(píng)數(shù)據(jù)的分類和回歸;
案例3:基于deepseek的豆瓣文本情感分析;
案例4:基于deepseek的文本情感詞提取;
案例5:基于deepseek的新聞文本分類;
案例6:基于deepseek的結(jié)構(gòu)化信息提;
案例7:基于deepseek的文本情感詞提;
案例8:deepseek聊天機(jī)器人構(gòu)建;
案例9:中藥文本知識(shí)圖譜構(gòu)建;
案例10:法律大模型微調(diào)實(shí)踐
課程目標(biāo):
- 提升研究質(zhì)量:通過精確的數(shù)據(jù)抓取和深入的文本分析,本課程將幫助您提高研究的準(zhǔn)確性和可靠性,從而提升論文的發(fā)表概率和學(xué)術(shù)影響力。
- 解鎖數(shù)據(jù)潛能:掌握爬蟲技術(shù)意味著您能夠訪問和利用互聯(lián)網(wǎng)上的海量數(shù)據(jù)資源,為您的研究提供豐富的數(shù)據(jù)支持,解鎖數(shù)據(jù)的潛在價(jià)值。
- 研究效率倍增:高效的網(wǎng)絡(luò)爬蟲和文本分析技能將極大縮短數(shù)據(jù)收集和預(yù)處理的時(shí)間,讓您有更多時(shí)間專注于研究的核心部分——分析和撰寫。
- 學(xué)術(shù)競爭力:在學(xué)術(shù)界,掌握前沿技術(shù)是提升個(gè)人競爭力的關(guān)鍵。本課程將使您在同行中脫穎而出,無論是在學(xué)術(shù)會(huì)議還是期刊發(fā)表上。
- 持續(xù)學(xué)術(shù)支持:我們提供持續(xù)的技術(shù)支持和學(xué)術(shù)咨詢,確保您在研究過程中始終處于技術(shù)前沿,不斷提升研究水平。
Python師資培訓(xùn)系列課程試聽及咨詢:
尹老師
電話: 13321178792
微信: JGxueshu

學(xué)會(huì)Python+AI,讓您的科研效率起飛!