大數(shù)據(jù)開發(fā) | SparkSQL 如何去重重復值?
前面我們處理的數(shù)據(jù)實際上都是已經(jīng)被處理好的規(guī)整數(shù)據(jù),但是在大數(shù)據(jù)整個生產(chǎn)過程中,需要先對數(shù)據(jù)進行數(shù)據(jù)清洗,將雜亂無章的數(shù)據(jù)整理為符合后面處理要求的規(guī)整數(shù)據(jù)。
去重方法 dropDuplicates
功能:對DF的數(shù)據(jù)進行去重,如果重復數(shù)據(jù)有多條,取第一條
刪除有缺失值的行方法? dropna
功能:如果數(shù)據(jù)中包含null,通過dropna來進行判斷,符合條件就刪除這一行數(shù)據(jù)
填充缺失值數(shù)據(jù) fillna
功能:根據(jù)參數(shù)的規(guī)則,來進行null的替換
