股市遇“春綠”，氣得我拿出了python一通操作

2021-03-06 16:13 作者:愛數(shù)據(jù)分析社區(qū) 0人讀過 | 我要投稿

以下觀點僅供交流討論，不作為投資建議

大家好，我是小數(shù)

牛跑了熊來了，最近基金股票可謂一片綠油油，與其聽取別人哪個基金更好，不如自己爬一爬數(shù)據(jù)一探究竟。整理了python爬數(shù)據(jù)的方法，希望對大家有用。

1、python字符串：分割、拼接、中文字符判斷；

2、python正則表達式；

3、爬蟲requests請求庫、xpath獲取數(shù)據(jù)、代理服務器；

4、selenium用法：無頭瀏覽器、元素定位、顯式等待、數(shù)據(jù)獲??；

5、python操作mongodb

代碼和數(shù)據(jù)我們到后面再貼上，先來分析下目標網(wǎng)站，這樣有利于我們爬取過程更加清晰

目標網(wǎng)站：開放式基金排行 _ 天天基金網(wǎng)

我們爬取的就是【開放式基金】里的數(shù)據(jù)：

我們隨便點開一個基金，就可以進入其詳情頁面，不知道你發(fā)現(xiàn)沒有，該基金詳情頁面的url就是首頁該基金的基金代碼和 http://fund.eastmoney.com/ 的一個組合

比如：040011 --- 華安核心優(yōu)選混合的url：華安核心優(yōu)選混合(040011)基金凈值_估值_行情走勢-天天基金網(wǎng)

005660 --- 嘉實資源精選股票A的url：嘉實資源精選股票A(005660)基金凈值_估值_行情走勢-天天基金網(wǎng)

ok，好，我們在基金詳情頁面往下拉就可以找到該基金的股票持倉信息，也就是該基金買了哪些股票：

然后點擊更多進入該基金持股的詳情頁，往下拉就會看到，該基金三個季度的股票持倉信息：

這就是目標數(shù)據(jù)，要爬取的數(shù)據(jù)

我們先不爬取，再分析這個基金持倉的詳情頁，這個url也是有規(guī)律的，它是用?

http://fundf10.eastmoney.com/ccmx_?和該基金的基金代碼組合成的

比如：

005660 ，嘉實資源精選股票A 的持倉詳情頁面url：嘉實資源精選股票A(005660)基金持倉 _ 基金檔案 _ 天天基金網(wǎng)

006921，南方智誠混合的持倉詳情頁面url：南方智誠混合(006921)基金持倉 _ 基金檔案 _ 天天基金網(wǎng)

因為這些數(shù)據(jù)是用js動態(tài)加載的，如果使用requests爬取的話難度很大，這種情況下一般會使用selenium模擬瀏覽器行為進行爬取。但是selenium爬取的效率確實比較低

其實我們依舊是可以使用requests進行爬取的，js動態(tài)加載是html頁面中的js代碼執(zhí)行了一段操作，從服務端自動加載了數(shù)據(jù)，所以數(shù)據(jù)在一開始爬取的頁面上是看不到的，除非一些特別難爬的數(shù)據(jù)才需要selenium，因為selenium號稱：只要是你看得到的數(shù)據(jù)就都可以獲取。畢竟selenium是模仿人操作瀏覽器的行為的。這里我們分析js動態(tài)加載，然后利用requests來爬取，后面進行二次爬取的時候再用selenium

在首頁按F12打開開發(fā)者工具，然后再刷新一下