黑馬博學谷狂野大數(shù)據(jù)7期2023
大數(shù)據(jù)采集,即對各種來源的結構化和非結構化海量數(shù)據(jù),所進行的采集。
數(shù)據(jù)庫采集: 流行的有Sqoop和ETL,傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle 也依然充當著許多企業(yè)的數(shù)據(jù)存儲方式。當然了,目前對于開源的Kettle和Talend本身,也集成了大數(shù)據(jù)集成內容,可實現(xiàn)hdfs,hbase和主流Nosq數(shù)據(jù)庫之間的數(shù)據(jù)同步和集成。
網(wǎng)絡數(shù)據(jù)采集: 一種借助網(wǎng)絡爬蟲或網(wǎng)站公開API,從網(wǎng)頁獲取非結構化或半結構化數(shù)據(jù),并將其統(tǒng)一結構化為本地數(shù)據(jù)的數(shù)據(jù)采集方式。
文件采集: 包括實時文件采集和處理技術flume、基于ELK的日志采集和增量采集等等。
標簽: