采集b站視頻評論

前情提要
上文采集b站動態(tài)視頻數(shù)據(jù)一文發(fā)布后,有讀者反饋到一個需求。
論文需要數(shù)據(jù)支撐,需要采集b站視頻評論內(nèi)容。
工具選擇
小白完成這個需求,依舊可以使用八爪魚采集器來做。
計劃步驟
先找定位數(shù)據(jù)。瀏覽器打開一個需要采集的視頻。
滾輪下拉頁面查看。頁面是否通用,有沒有特殊的內(nèi)容。(防止出現(xiàn)特殊情況,導致無法定位采集的數(shù)據(jù)。)該采集場景沒有特殊情況。
直接新建一個任務。打開八爪魚采集器,新建一個自定義任務。
復制剛剛打開的網(wǎng)址。將需要采集的視頻鏈接粘貼進去。
注意,新建的任務,采集器里瀏覽器cookie是空的,所以采集器里瀏覽器應該是游客狀態(tài)。
如果想采集視頻頁評論需要登錄狀態(tài),必須先登錄一下賬號,否則無法查看更多評論。
因為b站在視頻頁這里做了限制,游客身份無法獲取數(shù)據(jù)。解決辦法很簡單,就是賬號登錄一下就可以了。
登錄完,我們可以將頁面下拉到評論區(qū)??梢哉U故驹u論數(shù)據(jù)。
接下來,我們先用八爪魚采集器自帶的自動識別網(wǎng)頁。這個是自帶的相對智能的一鍵采集功能。新手可以快速上手使用。
注意:先找一個評論數(shù)保證在100個以內(nèi)的視頻進行采集規(guī)則設置。
如果評論數(shù)過多,這個自動識別網(wǎng)頁的流程會花很長時間才能跑完。
一旦點擊自動識別網(wǎng)頁,點擊取消,它的取消響應也不是那么及時,難免心里會有負擔。避免內(nèi)耗,我們還是先找一個評論數(shù)少的視頻做配置測試哈。
實操步驟
我隨便找了一個有幾十個評論數(shù)的視頻,進行操作。
直接復制網(wǎng)址到采集器中新建的自定義任務中。

直接點擊保存設置
置入眼簾的這個界面,瀏覽器中是游客狀態(tài)。

可以看到這里的頭像框是藍底白字的登錄。
我們先點擊這里登錄進行登錄操作。否則無法查看所有評論數(shù)據(jù)。

登錄后,可以查看所有評論內(nèi)容。

直接點擊自動識別網(wǎng)頁

工具會自動滾動頁面識別頁面中的數(shù)據(jù)。

這里比較自動化,但是不是很智能,因為會出錯。

它會自以為是的將一些數(shù)據(jù)進行命名。并且會出錯。比如這里圈中的幾個字段就是無效的。

接下來就需要對字段進行修改,不需要的數(shù)據(jù)進行刪除。剩下下面這三個字段的數(shù)據(jù)。

然后點擊生成采集設置
。

就會得到一個基礎的采集流程。這個流程對于現(xiàn)在這個需求其實大差不差已經(jīng)完成,就是還需要在細節(jié)上進行處理。

可以看見右側(cè)出現(xiàn)了一個采集流程圖。

這個采集流程圖是剛剛工具自動識別后,我對采集的數(shù)據(jù)進行篩選之后形成的采集規(guī)則。
全程無需自己直接對這個流程圖進行操作。
接下來就是細節(jié)優(yōu)化了。
比如在添加一個評論時間。
先在操作頁面,點擊 1. 圈中的 時間 ,然后點擊 2. 圈中的 選中全部

然后點擊 采集以下元素文本

數(shù)據(jù)預覽 中就多了個 時間 字段

最后我們需要設置一個非常關(guān)鍵的配置,然后就要大功告成了。
流程圖的優(yōu)化
點擊選中右側(cè)采集流程中 打開網(wǎng)頁 這個流程塊。

點擊 高級設置。

選中 使用指定的Cookie,然后點擊 獲取當前頁面的Cookie,彈窗跳出“獲取Cookie成功”即可。
點擊 滾動網(wǎng)頁 這個流程塊。

在 基礎設置 中設置 循環(huán)次數(shù) 為100。

在 高級設置 中,
先選中 執(zhí)行前等待,設置1或2秒,
然后選中 等待指定元素出現(xiàn),
接著點擊 1. 圈中的 箭頭樣圖標,在瀏覽器中選擇 2.圈中的 區(qū)域。

設置完成后,點擊 應用。
這樣就全部設置好了。
我們點擊保存流程。點擊采集試一試。

選擇本地采集。

采集結(jié)果如上。
還有一點瑕疵。設置點贊數(shù)空的情況設置默認值為0。

完美。
再用這個任務來采集一個評論數(shù)比較多的視頻測試一下。

沒有什么問題。
結(jié)語感悟
需求是百變的,如果有需求,就應該把他記錄下來,可以自己去尋找解決辦法,去學習。
也可以請教高手,請高手出手,可以讓你事半功倍。
謹記,靠人不如靠己。