如何將蜜蜂采集器的采集數(shù)據(jù)導(dǎo)出到Excel表格
蜜蜂采集器的使用教程 - 將采集數(shù)據(jù)導(dǎo)出到Excel表格
蜜蜂采集器的采集數(shù)據(jù),有兩種方法導(dǎo)出到Excel文件。一種是數(shù)據(jù)編輯窗口的“導(dǎo)出當(dāng)前頁(yè)記錄”,一種是“發(fā)布到文件”中添加Excel文件發(fā)布模板。
導(dǎo)出當(dāng)前頁(yè)記錄
打開任意采集規(guī)則的“數(shù)據(jù)編輯”窗口,點(diǎn)擊“菜單”——“全部”——“導(dǎo)出當(dāng)前頁(yè)記錄”,即可導(dǎo)出為csv格式文件,即Excel表格文件。
這種方式只能導(dǎo)出當(dāng)前頁(yè)記錄,可以通過修改每頁(yè)的記錄數(shù),從而增加導(dǎo)出記錄的數(shù)量。
發(fā)布到文件
推薦使用“發(fā)布到文件”方式來實(shí)現(xiàn)導(dǎo)出到Excel表格的功能。
打開主菜單“發(fā)布”——“發(fā)布到文件”管理器。添加一個(gè)文件發(fā)布配置,其中的“輸出文件名”為[任務(wù)名].[文件擴(kuò)展名]
,模板文件路徑自定義并且后綴為.xls
或.csv
。如果使用.xls
文件格式,則標(biāo)簽轉(zhuǎn)義設(shè)置為制表分隔符轉(zhuǎn)義
;如果使用.csv
文件格式,則標(biāo)簽轉(zhuǎn)義設(shè)置為逗號(hào)分隔符轉(zhuǎn)義
。如果是Windows系統(tǒng),文件編碼應(yīng)該設(shè)置為GBK,否則使用Microsoft Excel打開時(shí)可能亂碼。

系統(tǒng)自帶模板中,僅支持輸出[標(biāo)簽:標(biāo)題]
、[標(biāo)簽:內(nèi)容]
等幾個(gè)固定標(biāo)簽。以下是csv系統(tǒng)模板的內(nèi)容:
標(biāo)題,內(nèi)容,作者,時(shí)間,出處?
$$$[標(biāo)簽:標(biāo)題],[標(biāo)簽:內(nèi)容],[標(biāo)簽:作者],[標(biāo)簽:時(shí)間],[標(biāo)簽:出處]
$$$
這里使用模板自定義方式。即,模板文件路徑使用自定義路徑。再點(diǎn)擊“自動(dòng)生成模板文件”,選中相應(yīng)的采集規(guī)則,選中需要發(fā)布的標(biāo)簽,點(diǎn)擊“確定”。至此,生成了文件發(fā)布模板。生成的csv模板文件的內(nèi)容:
展商名稱,地址,郵政編碼,國(guó)家,電話,傳真,電子郵件,網(wǎng)站,主要類目,其他類目,主要產(chǎn)品,其他產(chǎn)品,展商ID,展商詳情頁(yè)網(wǎng)址,展商LOGO,展商封面圖,展商詳情介紹?
$$$[標(biāo)簽:展商名稱],[標(biāo)簽:地址],[標(biāo)簽:郵政編碼],[標(biāo)簽:國(guó)家],[標(biāo)簽:電話],[標(biāo)簽:傳真],[標(biāo)簽:電子郵件],[標(biāo)簽:網(wǎng)站],[標(biāo)簽:主要類目],[標(biāo)簽:其他類目],[標(biāo)簽:主要產(chǎn)品],[標(biāo)簽:其他產(chǎn)品],[標(biāo)簽:展商ID],[標(biāo)簽:展商詳情頁(yè)網(wǎng)址],[標(biāo)簽:展商LOGO],[標(biāo)簽:展商封面圖],[標(biāo)簽:展商詳情介紹]
$$$

編輯采集任務(wù)規(guī)則時(shí),內(nèi)容發(fā)布通道中添加一個(gè)“發(fā)布到文件”通道,并選中剛剛添加的文件發(fā)布配置。至此,完成了文件發(fā)布的設(shè)置。

任務(wù)發(fā)布時(shí),系統(tǒng)就會(huì)自動(dòng)將數(shù)據(jù)發(fā)布到Excel文件中了。其中,Microsoft Excel單元格的最大大小是32767字節(jié),標(biāo)簽文本長(zhǎng)度應(yīng)該小于此值。
