自然語言處理實用教程 | 數(shù)據(jù)采集 | 2023年版
????????巧婦難為無米之炊。AI應(yīng)用需要大量的數(shù)據(jù)支撐,為此,從哪里找來大量的數(shù)據(jù)就是一個頭疼的問題。
????????若你的數(shù)據(jù)庫中已經(jīng)有大量數(shù)據(jù),那么就可以從數(shù)據(jù)庫中導(dǎo)出即可,后續(xù)進行數(shù)據(jù)清洗就可以訓(xùn)練模型了,非常簡單。但如果你的數(shù)據(jù)庫中只有少量數(shù)據(jù),或者說你的項目剛剛啟動,完全沒有數(shù)據(jù)支撐又該怎么辦?
????????那么你可以從開源平臺尋找符合你的業(yè)務(wù)的數(shù)據(jù),例如你可以在 huggingface、github、kaggle 和?modelscope 等平臺下載大量數(shù)據(jù),并將它們進行數(shù)據(jù)清洗,然后訓(xùn)練模型即可。但這些數(shù)據(jù)仍然可能不符合你的業(yè)務(wù)場景,后續(xù)需要不斷搜集語料然后訓(xùn)練新模型。
????????但當(dāng)你的業(yè)務(wù)比較特殊,在各大平臺無法尋找到合適的數(shù)據(jù)集,你可以選擇爬取數(shù)據(jù)。但爬蟲技術(shù)并不是一門簡單技術(shù),還需要專業(yè)人員,這條數(shù)據(jù)采集渠道僅適合“大佬們”走。
????????最后還有一個渠道就是購買數(shù)據(jù),例如可以從淘寶等渠道得到你想要的數(shù)據(jù),最終訓(xùn)練得到符合業(yè)務(wù)場景的模型。總之最終我們需要的是初始的業(yè)務(wù)數(shù)據(jù),訓(xùn)練得到第一版模型,后續(xù)項目啟動后即可從數(shù)據(jù)庫中導(dǎo)出數(shù)據(jù),進而不斷迭代模型。
????????