R數(shù)據(jù)處理-描述性統(tǒng)計和可視化
一、基本數(shù)據(jù)管理
1.向量的操作與運算
向量的外積 / 叉乘 / 向量積:
將兩個向量的對應元素一一相乘,得到一個新的向量;
結果是一個向量;
兩個向量的外積結果也叫作法向量,法向量與這兩個向量構成的平面垂直。
向量的內積 / 點乘 / 數(shù)量積:
對兩個向量的對應元素一一相乘后求和;
結果是一個標量。
2.數(shù)據(jù)框的基本操作
3.變量重編碼
即根據(jù)一個或多個變量的現(xiàn)有值,創(chuàng)建新變量的過程。
一般分為兩種類型,將連續(xù)變量修改成分類變量,或將缺失值 / 錯誤值替換為正確值。
4.日期
5.數(shù)據(jù)類型的相關操作
6.數(shù)據(jù)集排序
7.數(shù)據(jù)控制流
8.數(shù)據(jù)處理:標準化、分位數(shù)、分級、提取字符串
假設現(xiàn)有scoredata數(shù)據(jù)框,存儲多位學生的信息。
有四列數(shù)據(jù),依次為學生姓名、數(shù)學分數(shù)、理科分數(shù)、英語分數(shù)。
批量處理函數(shù):apply族函數(shù)
apply族函數(shù)是高效能計算的運算向量化實現(xiàn)方法之一,比起傳統(tǒng)的for, while常常能獲得更好的性能。
apply:針對矩陣操作,遍歷其中的行或列。
lapply(list apply ):針對列表操作,遍歷列表向量內的每個元素,返回列表向量。
sapply(simplified lappy):簡化了返回結果的lapply,返回普通向量。
二、描述性統(tǒng)計
連續(xù)型數(shù)值變量描述的目標是選用恰當?shù)拿枋鼋y(tǒng)計量,刻畫變量分布的集中水平、離中趨勢、分布形態(tài)的對稱性及陡峭程度。
常用的描述統(tǒng)計量包括:
反映集中水平特征的均值、眾位數(shù)等;
反映離中趨勢特征的四分位差、方差、標準差等;
反映分布形態(tài)對稱性的偏態(tài)系數(shù);
反映分布形態(tài)陡峭程度的峰度系數(shù)。
分類型單變量描述的目標是編制頻數(shù)分布表。
頻數(shù)分布表一般包括頻數(shù)和百分比,用于展示單個分類型變量的分布特征。
煩了,跳過
三、基本可視化
為直觀展示數(shù)值型變量的分布特征以及在不同樣本組上的分布差異性,常用的統(tǒng)計圖形如下: