手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 技術(shù)應(yīng)用 | 語料輔助查詢與收集（一）：自動化翻譯數(shù)據(jù)采集—以八爪魚為例

技術(shù)應(yīng)用 | 語料輔助查詢與收集（一）：自動化翻譯數(shù)據(jù)采集—以八爪魚為例

2022-12-29 12:17 作者:翻譯技術(shù)點津 0人讀過 | 我要投稿

一、基礎(chǔ)知識

1、語料輔助查詢和收集的概念

譯者進行翻譯時離不開語料的處理和應(yīng)用。

語料查詢：除了詞典，語料庫（corpus）對于譯員也是一大輔助。通過高效準(zhǔn)確地查詢語料，譯者可以核實查證單詞/短語的譯法。

語料收集：語料收集（data collection）是2011年公布的語言學(xué)名詞。從語言形式上分為書面語料和口語語料，從搜集方式上分為摘引文獻(xiàn)、語言調(diào)查以及參考辭書等，從搜集手段上分為人工搜集和借助電子技術(shù)搜集。

2、進行語料輔助查詢和收集的好處

（1）客觀性

進行語料輔助查詢和收集可以更好地掌握語言發(fā)展規(guī)律。進入計算機時代，人們可以借助語料對語言進行更大規(guī)模的抽樣，這樣計算出的頻率準(zhǔn)確性會更高。

（2）科學(xué)性

進行語料輔助查詢和收集可以使語言更具科學(xué)性。

語料輔助查詢和收集幫助我們快速高效地搜索需要的信息。面對形形色色的工具，我們不需要貪多，要選擇適合自己的工具并熟練運用，形成自己的一套語料處理體系，無論是對日常學(xué)習(xí)工作，還是對學(xué)術(shù)研究，都有重要的意義。

二、進行自動化翻譯數(shù)據(jù)采集——以八爪魚為例

1、自動化數(shù)據(jù)采集簡介

依靠大數(shù)據(jù)技術(shù)和信息技術(shù)手段對海量數(shù)據(jù)進行自動化的采集和整理工作，以供后續(xù)的分析和使用，可以提高數(shù)據(jù)采集的效率、精準(zhǔn)度、和完整性。

（1）用途

在翻譯領(lǐng)域，可用于采集術(shù)語，采集譯者招聘信息，采集文本/平行文本建成語料庫等。在其他領(lǐng)域可以用于如采集購物評價，了解用戶需求，預(yù)測股票走勢，優(yōu)化網(wǎng)站平臺。

（2）數(shù)據(jù)源

開放數(shù)據(jù)源：政府、高校、企業(yè)

爬蟲抓?。壕W(wǎng)頁、app

日志采集：前端采集、后端腳本

傳感器：圖像、測速、熱敏

（3）采集方法

1）使用Python編寫爬蟲代碼（對沒有編程基礎(chǔ)的同學(xué)來說較為困難）

使用 Requests 爬取內(nèi)容。

使用 XPath 解析內(nèi)容。

使用 Pandas 保存數(shù)據(jù)。

2）使用常用采集工具，如八爪魚采集器、火車采集器、神箭手采集器等。

2、常用采集工具對比

（1）八爪魚采集器

價格：中等

功能：功能齊全，且其免費版功能齊全

界面：簡潔

上手難易：簡單

流程是否可視化：是

特點：

①無需編寫代碼，軟件自動采集主要內(nèi)容，非常簡單。

②免費數(shù)據(jù)采集模板。

③無需登錄即可使用。

注意事項：

①循環(huán)都是xpath元素定位，很容易在翻頁采集時出現(xiàn)錯誤。

②采集數(shù)據(jù)速度有時較慢。

（2）火車采集器

價格：略高

功能：功能強大且復(fù)雜，包含數(shù)據(jù)處理、分析、挖掘等功能，但是免費版功能局限較大

界面：簡潔、樸素

上手難易：較難

流程是否可視化：是

特點：

①分布式采集，采集效率高。

②功能十分強大，覆蓋數(shù)據(jù)分析處理等功能。

注意事項：

①適合有一定編程基礎(chǔ)的人使用。

②功能多，比較占用內(nèi)存和CPU。

（3）集搜客采集器

價格：相對較低

功能：功能較為齊全

界面：簡潔、樸素

上手難易：簡單

流程是否可視化：是

特點：

①可以抓取手機網(wǎng)站數(shù)據(jù)。

②有分詞情感詞標(biāo)注功能，以及構(gòu)建詞云功能。

注意事項：

①沒有云采集功能。

②免費版中快捷采集導(dǎo)出需要應(yīng)積分下載數(shù)據(jù)。

（4）后裔采集器

價格：中等

功能：功能強大，且其免費版功能齊全

界面：簡潔

上手難易：簡單

流程是否可視化：是

特點：

①無需編寫代碼，比較簡單。

②直接接入代理IP和自動登錄驗證碼識別。

注意事項：

①有時無法完全抓取需要展開的內(nèi)容。

②沒有云采集功能。

3、八爪魚

（1）工具簡介

整合了網(wǎng)頁數(shù)據(jù)采集、移動互聯(lián)網(wǎng)數(shù)據(jù)及API接口服務(wù)（包括數(shù)據(jù)爬蟲、數(shù)據(jù)優(yōu)化、數(shù)據(jù)挖掘、數(shù)據(jù)存儲、數(shù)據(jù)備份）等服務(wù)為一體的數(shù)據(jù)采集工具，已連續(xù)5年蟬聯(lián)互聯(lián)網(wǎng)數(shù)據(jù)采集軟件榜單第一名，截止2021年全球用戶已突破300萬。提供解決方案如下圖：

免費版：內(nèi)容采集規(guī)則，包括了電商類、生活服務(wù)類、社交媒體類和論壇類的網(wǎng)站都可以采集。

付費版：云采集，配置好采集任務(wù)，交給八爪魚的云端進行采集。

（2）工具下載

進入官網(wǎng)即可下載使用免費版，無需注冊。

（3）采集分類

1）使用模板采集（主要為跨境電商與新聞，暫無與翻譯相關(guān)度較高的模板）

2）自定義數(shù)據(jù)采集

表格采集

列表數(shù)據(jù)采集

列表+詳情頁采集

翻頁采集

（4）實際操作

1）中華文化思想文化術(shù)語庫：術(shù)語列表+詳情頁采集

文字操作流程：

步驟一、開始采集

在首頁【輸入框】中輸入目標(biāo)網(wǎng)址，點擊【開始采集】。

步驟二、建立【循環(huán)-點擊元素-提取數(shù)據(jù)】

1、先建立一個【循環(huán)-提取數(shù)據(jù)】步驟?？梢酝ㄟ^自動識別功能生成字段，如下圖：

也可以手動選擇。選中頁面上的列表，選中后會被綠色框框起來，同時出現(xiàn)黃色操作提示框，點擊【選中全部】，之后按需要選擇相應(yīng)字段?；蛘哌x擇所有相關(guān)字段后，選擇【選中全部】—【采集數(shù)據(jù)】。

2、然后在循環(huán)的當(dāng)前項中找到鏈接并選中，在彈出的操作提示框中，選擇【點擊該鏈接】?？梢钥吹搅鞒讨猩闪?個【點擊元素】步驟，八爪魚自動跳轉(zhuǎn)到了詳情頁，然后提取詳情頁數(shù)據(jù)即可。

步驟三、編輯字段

八爪魚自動為我們提取了列表中的所有字段，我們可以對這些字段進行刪除、修改字段名稱等操作。在字段名稱處雙擊即可修改字段名；在右側(cè)更多操作里面可以對字段進行刪除、復(fù)制、格式化等操作。

步驟四、啟動采集

1、修改完字段名后，整個規(guī)則編輯完成，點擊【保存】，然后【采集】，再點擊【啟動本地采集】啟動后八爪魚開始全自動采集數(shù)據(jù)。（本地采集是使用自己的電腦進行采集，云采集是使用八爪魚提供的云服務(wù)器采集）

2、采集完成后，選擇合適的導(dǎo)出方式導(dǎo)出數(shù)據(jù)。支持導(dǎo)出為Excel、CSV、HTML。這里導(dǎo) 出為Excel。

視頻版：

2）術(shù)語在線：術(shù)語表格+翻頁采集

文字操作流程

步驟一、開始采集。在首頁【輸入框】中輸入目標(biāo)網(wǎng)址，點擊【開始采集】。

步驟二、建立一個【循環(huán)-提取數(shù)據(jù)】步驟。

1、可以采用自動識別功能，如下：

會提供多種字段選擇，如果識別的字段不是我們傾向的，可以切換：

若手動選擇，先選中頁面上第一個列表的第一個單元格，再點擊提示框右下角的【擴大選區(qū)】按鈕，選中至一整行。（擴大的作用是，擴大選中的范圍。當(dāng)前選中的是一個單元格，選中的范圍就擴大一個層級，即選中了一行）。

在提示框中，選擇【選中子元素】。這時八爪魚又自動識別到頁面中其他列表具有相同的【子元素】之后在提示框中，選擇【選中全部】。

步驟三、建立【翻頁循環(huán)】

在【黃色操作提示框】中點擊【設(shè)置翻頁采集】。然后占到并點擊【下一頁】按鈕即可完成設(shè)置。

或者找到并點擊頁面中的【下一頁】按鈕，在自動彈出的【黃色操作提示框】中點擊【循環(huán)點擊下一頁】。

特別說明：如果出現(xiàn)的不是【循環(huán)點擊下一頁】，而是【循環(huán)點擊單個XXX】怎么辦？【循環(huán)點擊下一頁】的本質(zhì)是，循環(huán)點擊頁面上用來翻頁的按鈕。不同網(wǎng)頁上用來點擊翻頁的按鈕，展示方式可能不同。常見的有：【下一頁】【>】【后頁>】，對應(yīng)的八爪魚操作提示框中出現(xiàn)的可能是【循環(huán)點擊下一頁】【循環(huán)點擊單個鏈接】【循環(huán)點擊單個元素】【循環(huán)點擊單個圖片】，本質(zhì)上都是一樣的。