黑馬博學(xué)谷【年度鉆石會員】JavaEE
創(chuàng)建 Scrapy 爬蟲框架需要在 Python 的控制臺中輸入創(chuàng)建命令,也可以通過 UI 圖形界面點擊創(chuàng)建。例如,創(chuàng)建一個爬取電影數(shù)據(jù)信息的 Scrapy 爬蟲項目的命令如下:scrapy startproject film
數(shù)據(jù)清理 ??? ??
數(shù)據(jù)清洗用于檢測和糾正、刪除表或數(shù)據(jù)庫中不準(zhǔn)確或損壞的記錄。數(shù)據(jù)擦除是指識別不正確、不完整、不相關(guān)或其他有問題(“臟”)的數(shù)據(jù)部分,然后替換、修改或刪除臟數(shù)據(jù)。
(1) 刪除不必要的觀察。
在數(shù)據(jù)收集過程中,最常見的是重復(fù)觀察或冗余觀察。當(dāng)合并來自不同位置的數(shù)據(jù)集或從客戶端接收數(shù)據(jù)時,由于數(shù)據(jù)是重復(fù)的,這種觀察會極大地影響效率,并可能增加正確或不正確的
標(biāo)簽: