技術(shù)應(yīng)用 | 語料輔助查詢與收集(一):自動化翻譯數(shù)據(jù)采集—以八爪魚為例
1、語料輔助查詢和收集的概念
譯者進行翻譯時離不開語料的處理和應(yīng)用。
語料查詢:除了詞典,語料庫(corpus)對于譯員也是一大輔助。通過高效準(zhǔn)確地查詢語料,譯者可以核實查證單詞/短語的譯法。
語料收集:語料收集(data collection)是2011年公布的語言學(xué)名詞。從語言形式上分為書面語料和口語語料,從搜集方式上分為摘引文獻(xiàn)、語言調(diào)查以及參考辭書等,從搜集手段上分為人工搜集和借助電子技術(shù)搜集。
2、進行語料輔助查詢和收集的好處
(1) 客觀性
進行語料輔助查詢和收集可以更好地掌握語言發(fā)展規(guī)律。進入計算機時代,人們可以借助語料對語言進行更大規(guī)模的抽樣,這樣計算出的頻率準(zhǔn)確性會更高。
(2) 科學(xué)性
進行語料輔助查詢和收集可以使語言更具科學(xué)性。
語料輔助查詢和收集幫助我們快速高效地搜索需要的信息。面對形形色色的工具,我們不需要貪多,要選擇適合自己的工具并熟練運用,形成自己的一套語料處理體系,無論是對日常學(xué)習(xí)工作,還是對學(xué)術(shù)研究,都有重要的意義。
二、進行自動化翻譯數(shù)據(jù)采集——以八爪魚為例1、自動化數(shù)據(jù)采集簡介
依靠大數(shù)據(jù)技術(shù)和信息技術(shù)手段對海量數(shù)據(jù)進行自動化的采集和整理工作,以供后續(xù)的分析和使用,可以提高數(shù)據(jù)采集的效率、精準(zhǔn)度、和完整性。
(1)用途
在翻譯領(lǐng)域,可用于采集術(shù)語,采集譯者招聘信息,采集文本/平行文本建成語料庫等。在其他領(lǐng)域可以用于如采集購物評價,了解用戶需求,預(yù)測股票走勢,優(yōu)化網(wǎng)站平臺。
(2)數(shù)據(jù)源
開放數(shù)據(jù)源:政府、高校、企業(yè)
爬蟲抓?。壕W(wǎng)頁、app
日志采集:前端采集、后端腳本
傳感器:圖像、測速、熱敏
(3)采集方法
1)使用Python編寫爬蟲代碼(對沒有編程基礎(chǔ)的同學(xué)來說較為困難)
使用 Requests 爬取內(nèi)容。
使用 XPath 解析內(nèi)容。
使用 Pandas 保存數(shù)據(jù)。
2)使用常用采集工具,如八爪魚采集器、火車采集器、神箭手采集器等。
2、常用采集工具對比
(1)八爪魚采集器
價格:中等
功能:功能齊全,且其免費版功能齊全
界面:簡潔
上手難易:簡單
流程是否可視化:是
特點:
①無需編寫代碼,軟件自動采集主要內(nèi)容,非常簡單。
②免費數(shù)據(jù)采集模板。
③無需登錄即可使用。
注意事項:
①循環(huán)都是xpath元素定位,很容易在翻頁采集時出現(xiàn)錯誤。
②采集數(shù)據(jù)速度有時較慢。
(2)火車采集器
價格:略高
功能:功能強大且復(fù)雜,包含數(shù)據(jù)處理、分析、挖掘等功能,但是免費版功能局限較大
界面:簡潔、樸素
上手難易:較難
流程是否可視化:是
特點:
①分布式采集,采集效率高。
②功能十分強大,覆蓋數(shù)據(jù)分析處理等功能。
注意事項:
①適合有一定編程基礎(chǔ)的人使用。
②功能多,比較占用內(nèi)存和CPU。
(3)集搜客采集器
價格:相對較低
功能:功能較為齊全
界面:簡潔、樸素
上手難易:簡單
流程是否可視化:是
特點:
①可以抓取手機網(wǎng)站數(shù)據(jù)。
②有分詞情感詞標(biāo)注功能,以及構(gòu)建詞云功能。
注意事項:
①沒有云采集功能。
②免費版中快捷采集導(dǎo)出需要應(yīng)積分下載數(shù)據(jù)。
(4)后裔采集器
價格:中等
功能:功能強大,且其免費版功能齊全
界面:簡潔
上手難易:簡單
流程是否可視化:是
特點:
①無需編寫代碼,比較簡單。
②直接接入代理IP和自動登錄驗證碼識別。
注意事項:
①有時無法完全抓取需要展開的內(nèi)容。
②沒有云采集功能。
3、八爪魚
(1)工具簡介
整合了網(wǎng)頁數(shù)據(jù)采集、移動互聯(lián)網(wǎng)數(shù)據(jù)及API接口服務(wù)(包括數(shù)據(jù)爬蟲、數(shù)據(jù)優(yōu)化、數(shù)據(jù)挖掘、數(shù)據(jù)存儲、數(shù)據(jù)備份)等服務(wù)為一體的數(shù)據(jù)采集工具,已連續(xù)5年蟬聯(lián)互聯(lián)網(wǎng)數(shù)據(jù)采集軟件榜單第一名,截止2021年全球用戶已突破300萬。提供解決方案如下圖:
免費版:內(nèi)容采集規(guī)則,包括了電商類、生活服務(wù)類、社交媒體類和論壇類的網(wǎng)站都可以采集。
付費版:云采集,配置好采集任務(wù),交給八爪魚的云端進行采集。
(2)工具下載
進入官網(wǎng)即可下載使用免費版,無需注冊。
(3)采集分類
1)使用模板采集(主要為跨境電商與新聞,暫無與翻譯相關(guān)度較高的模板)
2)自定義數(shù)據(jù)采集
表格采集
列表數(shù)據(jù)采集
列表+詳情頁采集
翻頁采集
(4)實際操作
1)中華文化思想文化術(shù)語庫:術(shù)語列表+詳情頁采集
文字操作流程:
步驟一、開始采集
在首頁【輸入框】中輸入目標(biāo)網(wǎng)址,點擊【開始采集】。
步驟二、建立【循環(huán)-點擊元素-提取數(shù)據(jù)】
1、先建立一個【循環(huán)-提取數(shù)據(jù)】步驟??梢酝ㄟ^自動識別功能生成字段,如下圖:
也可以手動選擇。選中頁面上的列表,選中后會被綠色框框起來,同時出現(xiàn)黃色操作提示框,點擊【選中全部】,之后按需要選擇相應(yīng)字段?;蛘哌x擇所有相關(guān)字段后,選擇【選中全部】—【采集數(shù)據(jù)】。
2、然后在循環(huán)的當(dāng)前項中找到鏈接并選中,在彈出的操作提示框中,選擇【點擊該鏈接】??梢钥吹搅鞒讨猩闪?個【點擊元素】步驟,八爪魚自動跳轉(zhuǎn)到了詳情頁,然后提取詳情頁數(shù)據(jù)即可。
步驟三、編輯字段
八爪魚自動為我們提取了列表中的所有字段,我們可以對這些字段進行刪除、修改字段名稱等操作。在字段名稱處雙擊即可修改字段名;在右側(cè)更多操作里面可以對字段進行刪除、復(fù)制、格式化等操作。
步驟四、啟動采集
1、修改完字段名后,整個規(guī)則編輯完成,點擊【保存】,然后【采集】,再點擊【啟動本地采集】啟動后八爪魚開始全自動采集數(shù)據(jù)。(本地采集是使用自己的電腦進行采集,云采集是使用八爪魚提供的云服務(wù)器采集)
2、采集完成后,選擇合適的導(dǎo)出方式導(dǎo)出數(shù)據(jù)。支持導(dǎo)出為Excel、CSV、HTML。這里導(dǎo) 出為Excel。
視頻版:
2) 術(shù)語在線:術(shù)語表格+翻頁采集
文字操作流程
步驟一、開始采集。在首頁【輸入框】中輸入目標(biāo)網(wǎng)址,點擊【開始采集】。
步驟二、建立一個【循環(huán)-提取數(shù)據(jù)】步驟。
1、可以采用自動識別功能,如下:
會提供多種字段選擇,如果識別的字段不是我們傾向的,可以切換:
若手動選擇,先選中頁面上第一個列表的第一個單元格,再點擊提示框右下角的【擴大選區(qū)】 按鈕,選中至一整行。( 擴大的作用是,擴大選中的范圍。當(dāng)前選中的是一個單元格,選中的范圍就擴大一個層級,即選中了一行)。
在提示框中,選擇【選中子元素】。這時八爪魚又自動識別到頁面中其他列表具有相同的【子元素】之后在提示框中,選擇【選中全部】。
步驟三、建立【翻頁循環(huán)】
在【黃色操作提示框】中點擊【設(shè)置翻頁采集】。然后占到并點擊【下一頁】按鈕即可完成設(shè)置。
或者找到并點擊頁面中的【下一頁】按鈕,在自動彈出的【黃色操作提示框】中點擊【循環(huán)點擊下一頁】。
特別說明:如果出現(xiàn)的不是【循環(huán)點擊下一頁】,而是【循環(huán)點擊單個XXX】怎么辦?【循環(huán)點擊下一頁】的本質(zhì)是,循環(huán)點擊頁面上用來翻頁的按鈕。不同網(wǎng)頁上用來點擊翻頁的按鈕,展示方式可能不同。常見的有:【下一頁】【>】【后頁>】,對應(yīng)的八爪魚操作提示框中出現(xiàn)的可能是【循環(huán)點擊下一頁】【循環(huán)點擊單個鏈接】【循環(huán)點擊單個元素】【循環(huán)點擊單個圖片】,本質(zhì)上都是一樣的。
若使用自動識別功能,可以自動進行翻頁采集,如下圖:
步驟四、啟動采集,同中華思想文化術(shù)語庫。
視頻版:
(5)優(yōu)點
1) 與Python編寫爬蟲代碼相比,操作簡單,門檻低,完全可視化,對于翻譯專業(yè)的學(xué)生來說非常友好。
2) 不管是文字圖片,還是貼吧論壇,支持所有業(yè)務(wù)渠道的爬蟲,滿足各種采集需求。
3) 支持多格式導(dǎo)出,包括Excel, CSV, HTML,JSON, 同時支持導(dǎo)出到數(shù)據(jù)庫。
4) 即使是免費版,功能相比其他采集器功能也強大很多,提供免費識別,無限度采集等。
5) 自動識別功能可以幫助簡化流程,快速提取數(shù)據(jù)。
(6)缺點
1)自動識別,數(shù)據(jù)采集會出現(xiàn)速度較慢情況,在中華思想文化術(shù)語庫的采集中一分鐘大約只能采集10條數(shù)據(jù)。
2)在翻頁采集過程中可能會遇到一些問題。比如在配置完采集流程初次進行翻頁采集時,得到的采集結(jié)果可能存在大量重復(fù),這是因為Xpath定位不好,只是循環(huán)提取前兩頁數(shù)據(jù),而不會轉(zhuǎn)到第三頁及以后。
3)在需要登錄才能采集的頁面中,即使切換至瀏覽器模式,也可能出現(xiàn)無法點擊登錄的現(xiàn)象。
參考資料:《翻譯搜索指南》之系列配套視頻(Ethan_LSJ):
https://space.bilibili.com/30605394/channel/collectiondetail?sid=773834
特別說明:本文僅供學(xué)習(xí)交流,如有不妥歡迎后臺聯(lián)系小編。
- END -
原創(chuàng)作者:張淑琦 陳歆言 杜菁菁 馮文軼
內(nèi)容完善及編輯:劉婉怡
審核:曹達(dá)欽 肖志清 李林 祝蕙蘭