使用蜜蜂采集器進(jìn)行高贊評(píng)論的采集與分析
蜜蜂采集器的使用教程?- 使用JavaScript內(nèi)置腳本引擎進(jìn)行加減乘除運(yùn)算
采集器對(duì)加減乘除等運(yùn)算功能支持不夠,一般通過(guò)調(diào)用插件實(shí)現(xiàn)復(fù)雜功能。也有的采集器支持內(nèi)置腳本引擎實(shí)現(xiàn)加減乘除運(yùn)算。蜜蜂采集器在當(dāng)前版本中增加了內(nèi)置JavaScript腳本的支持,采用V8引擎執(zhí)行JavaScript腳本,從而實(shí)現(xiàn)加減乘除等運(yùn)算。
本文以高贊評(píng)論的采集與分析為例,演示如何使用蜜蜂采集器的內(nèi)置JavaScript腳本功能。
需求說(shuō)明
很多短視頻或文章評(píng)論下,都會(huì)有一些高贊評(píng)論。那么,這些高贊評(píng)論都有哪些特征呢?如何才能使得評(píng)論獲得較多的點(diǎn)贊量?不妨做一些假設(shè)??赡馨l(fā)帖時(shí)間點(diǎn)較好,剛好同時(shí)有很多人瀏覽,而最新的幾條評(píng)論會(huì)被優(yōu)先顯示,大部分人更習(xí)慣于點(diǎn)贊而不是自己評(píng)論,從而更容易在短時(shí)間獲得更高的點(diǎn)贊;可能發(fā)帖的頭像、昵稱(chēng)等吸引了瀏覽者;也可能發(fā)帖者自己就有很多的關(guān)注者,評(píng)論會(huì)被自己的關(guān)注者看到并點(diǎn)贊;等等。因此,就有了這樣一個(gè)想法,能否采集一些高贊評(píng)論,再對(duì)評(píng)論者及其評(píng)論進(jìn)行數(shù)據(jù)分析,找出高贊評(píng)論的共同點(diǎn)?而這些,首先要解決的就是高贊評(píng)論的采集。
由于評(píng)論往往數(shù)量龐大,且會(huì)不斷更新。所以,只能快速采集,且數(shù)量盡量少。否則,采集過(guò)程持續(xù)幾個(gè)小時(shí)以上的話,新的評(píng)論不斷涌現(xiàn),點(diǎn)贊量也不是同一個(gè)時(shí)間點(diǎn)的,就不太好分析了。當(dāng)然,也可以等熱點(diǎn)過(guò)去,評(píng)論數(shù)量和點(diǎn)贊量基本穩(wěn)定之后再采集。所以,這里就得篩選掉多余的,只采集和統(tǒng)計(jì)高贊評(píng)論的。
那么,如何判斷是否高贊評(píng)論呢?這個(gè)從平常的角度考慮,會(huì)覺(jué)得很簡(jiǎn)單,比如點(diǎn)贊1000+的就算高贊。但是,采集器往往無(wú)法進(jìn)行這樣的數(shù)量比較運(yùn)算和判斷。所以,一般情況下,就得借助插件了。
蜜蜂采集器的插件,都是采用外部程序方式,開(kāi)啟新進(jìn)程實(shí)現(xiàn)的。如果使用插件進(jìn)行這樣的判斷,效率略低。所以,蜜蜂采集器提供了一種新的方式解決此問(wèn)題,即:內(nèi)置JavaScript腳本。
編寫(xiě)腳本
打開(kāi)蜜蜂采集器,菜單“采集”----“JavaScript腳本”頁(yè)面,添加一個(gè)“JavaScript腳本測(cè)試”的JavaScript腳本,并添加代碼。
腳本輸入?yún)?shù)中,添加一項(xiàng)“最低點(diǎn)贊”,默認(rèn)值為1000。
注意:這里采用的是JavaScript匿名函數(shù)的方式,因此,建議按系統(tǒng)自帶的模板填寫(xiě)代碼即可。系統(tǒng)也支持從文件加載JavaScript腳本文件。函數(shù)參數(shù)中,url為采集頁(yè)的網(wǎng)址,tag為標(biāo)簽名稱(chēng),content為標(biāo)簽內(nèi)容。arguments為腳本輸入?yún)?shù),關(guān)聯(lián)數(shù)組格式,可以通過(guò)arguments['參數(shù)名']
訪問(wèn)各參數(shù)。
以上示例代碼的含義:如果有“千”、“萬(wàn)”、“億”等字符,就將前面的數(shù)字乘以相應(yīng)的數(shù)量;判斷點(diǎn)贊數(shù)是否滿足條件,不滿足則返回錯(cuò)誤。

調(diào)用示例
打開(kāi)蜜蜂采集器,新建一個(gè)采集規(guī)則,名稱(chēng)就是“JavaScript腳本測(cè)試”。
簡(jiǎn)單設(shè)置一下采集規(guī)則。標(biāo)簽“內(nèi)容”為固定值,方便測(cè)試。然后添加標(biāo)簽數(shù)據(jù)二次處理項(xiàng)“JavaScript腳本”,選擇上面剛剛添加的腳本,即可。

我們可以在標(biāo)簽的“內(nèi)容過(guò)濾”中,過(guò)濾掉字符串"格式不合法"和"點(diǎn)贊數(shù)太低,忽略"。
以上就是JavaScript腳本的使用方法。