手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學習 » R數(shù)據(jù)處理-描述性統(tǒng)計和可視化

R數(shù)據(jù)處理-描述性統(tǒng)計和可視化

2022-03-31 18:31 作者:托芙 0人讀過 | 我要投稿

一、基本數(shù)據(jù)管理

1.向量的操作與運算

向量的外積 / 叉乘 / 向量積：

將兩個向量的對應元素一一相乘，得到一個新的向量；
結果是一個向量；
兩個向量的外積結果也叫作法向量，法向量與這兩個向量構成的平面垂直。

向量的內積 / 點乘 / 數(shù)量積：

對兩個向量的對應元素一一相乘后求和；
結果是一個標量。

2.數(shù)據(jù)框的基本操作

3.變量重編碼

即根據(jù)一個或多個變量的現(xiàn)有值，創(chuàng)建新變量的過程。

一般分為兩種類型，將連續(xù)變量修改成分類變量，或將缺失值 / 錯誤值替換為正確值。

4.日期

5.數(shù)據(jù)類型的相關操作

6.數(shù)據(jù)集排序

7.數(shù)據(jù)控制流

8.數(shù)據(jù)處理：標準化、分位數(shù)、分級、提取字符串

假設現(xiàn)有scoredata數(shù)據(jù)框，存儲多位學生的信息。

有四列數(shù)據(jù)，依次為學生姓名、數(shù)學分數(shù)、理科分數(shù)、英語分數(shù)。

批量處理函數(shù)：apply族函數(shù)

apply族函數(shù)是高效能計算的運算向量化實現(xiàn)方法之一，比起傳統(tǒng)的for, while常常能獲得更好的性能。

apply：針對矩陣操作，遍歷其中的行或列。
lapply（list apply ）：針對列表操作，遍歷列表向量內的每個元素，返回列表向量。
sapply（simplified lappy）：簡化了返回結果的lapply，返回普通向量。

二、描述性統(tǒng)計

連續(xù)型數(shù)值變量描述的目標是選用恰當?shù)拿枋鼋y(tǒng)計量，刻畫變量分布的集中水平、離中趨勢、分布形態(tài)的對稱性及陡峭程度。

常用的描述統(tǒng)計量包括：

反映集中水平特征的均值、眾位數(shù)等；
反映離中趨勢特征的四分位差、方差、標準差等；
反映分布形態(tài)對稱性的偏態(tài)系數(shù)；
反映分布形態(tài)陡峭程度的峰度系數(shù)。

分類型單變量描述的目標是編制頻數(shù)分布表。

頻數(shù)分布表一般包括頻數(shù)和百分比，用于展示單個分類型變量的分布特征。

煩了，跳過

三、基本可視化

為直觀展示數(shù)值型變量的分布特征以及在不同樣本組上的分布差異性，常用的統(tǒng)計圖形如下：

標簽：