R語(yǔ)言入門(mén)與數(shù)據(jù)分析

部分筆記(來(lái)自彈幕或評(píng)論或自己總結(jié),有點(diǎn)亂,僅供參考,主要方便自己回顧)
Alt和-一起按:快捷賦值,也就是打出“<-”
?plot(runif(50))
runif()函數(shù)用于生成從0到1區(qū)間范圍內(nèi)的服從正態(tài)分布的隨機(jī)數(shù),且每次生成的值都不一樣
ctrl???列出歷史記錄
esc
全局變量就是從頭活到大結(jié)局的,局部變量就是一集就死的炮灰
vcd包是用來(lái)做數(shù)據(jù)可視化的
detach英文意思是分離,remove是指刪除,可以這樣理解
matlab 的語(yǔ)言表達(dá)形式[,1]來(lái)表示矩陣所有行,的第一列
rseek
each=5, times=2就是先每個(gè)重復(fù)5遍,再把整個(gè)過(guò)程重復(fù)兩遍
搞清楚in是邏輯問(wèn)題,z[]是提取元素就明白了
1."one"%in%z 表示字符串one是否在z向量?jī)?nèi)?是的,輸出為T(mén)RUE
比如,第一個(gè) "one" %in% z因?yàn)?#34;one"確實(shí)在"z"中,所以為”TRUE“
賦值的時(shí)候用(),查東西的時(shí)候用[]
注:這里的意思是在v這個(gè)向量中,在第5個(gè)數(shù)據(jù)后插入一個(gè)數(shù)值為99的數(shù)據(jù)
round四舍六入五成雙,3.5和4.5都是4
signif跟據(jù)四舍五入原則保留指定位數(shù)
m[-1,2]去除了第一行,再取第二列
外積是n的第一行乘以t中對(duì)應(yīng)的第一列的數(shù)值再相加
一個(gè)中括號(hào),輸出的是列表的一個(gè)子集,它還是一個(gè)列表
我覺(jué)得[]訪問(wèn)的是first:...(類(lèi)似于python的鍵值對(duì)),[[]]則是訪問(wèn)first名稱對(duì)應(yīng)的值。我說(shuō)一下我的理解,單個(gè)的中括號(hào)就是查看你填寫(xiě)的那一組數(shù)據(jù),而兩個(gè)中括號(hào)就是選中你所填的那一組數(shù)據(jù)
補(bǔ)充單獨(dú)命名新元素的方法:names(mlist)[5] <- "newname"。可以查一下?names,舉例很清楚
矩陣是同一類(lèi)型向量集合,列表是不同類(lèi)型數(shù)據(jù)集合,數(shù)據(jù)框是不同向量類(lèi)型集合
就是相當(dāng)于【】取數(shù)據(jù)框中的行
不是離散型變量,是定量變量和定性變量的區(qū)別,定性變量又包括有序分類(lèi)變量(等級(jí)資料)和無(wú)序分類(lèi)變量
因子factor---可分類(lèi)的屬性列,水平level---類(lèi)別,等級(jí)。
因子就類(lèi)似于統(tǒng)計(jì)學(xué)上的因素吧。比如要探究不同肥料對(duì)作物生長(zhǎng)影響,這個(gè)肥料因素就是一個(gè)因子,不同品牌的肥料就是水平。
關(guān)鍵點(diǎn):因子是向量,因子的水平是這個(gè)向量中的類(lèi)
table() 函數(shù)統(tǒng)計(jì)因子各水平的出現(xiàn)次數(shù)(稱為頻數(shù)或頻率)
cyl是因子,cyl中4,6,8是因子中不同的level
cut()就是讓連續(xù)性變量分割并轉(zhuǎn)換為因子(區(qū)間內(nèi)的數(shù)值全部統(tǒng)一為區(qū)間)的函數(shù),并列出因子的水平(連續(xù)型變量可以理解為分割區(qū)間),
cut(數(shù)據(jù)集,分割間隔),將num<-1:100按照固定間隔分割,也就是cut函數(shù)將連續(xù)型變量變成具有多個(gè)水平的因子
cut函數(shù)中第一個(gè)給出要切割的數(shù)據(jù)集,第二個(gè)參數(shù)是break,要給出切割的斷點(diǎn)。這里是按10,20,30,40等斷點(diǎn)切割的,也就是劃分成010,1020等區(qū)間。所以用了seq等差數(shù)列函數(shù)來(lái)表示劃分的斷點(diǎn)
個(gè)人理解:其實(shí)strsplit原設(shè)計(jì)就是給向量用的,只有一個(gè)字符串屬于特殊情況,這樣一來(lái)輸出結(jié)果是列表就比較好理解了
操作了一下。現(xiàn)在是重新建立一個(gè)數(shù)據(jù)框了,character(0)是告訴R,每一個(gè)變量取0行。不懂的可以實(shí)操把character(0)改個(gè)數(shù)字
fixed width field吧(fwf)
可以直接使用右邊環(huán)境那塊import dataset,然后選擇excel手動(dòng)輸入比較方便
這里注意:CountryID代表了不同國(guó)家的ID編號(hào),是從1開(kāi)始的,也就意味著隨機(jī)抽取30個(gè)也都是在最大行數(shù)范圍內(nèi)的,這時(shí)候才可以取到對(duì)應(yīng)的子集
這里的 cbind 相當(dāng)于 SQL 里面的 Join,共同因子就是 SQL 里兩個(gè) tables 共同的 key。合并列
這個(gè)是不是用excel,spss處理感覺(jué)更簡(jiǎn)單方便
rbind 合并行
說(shuō)用t(duplicated(t(data)))的,t函數(shù)把行列轉(zhuǎn)置了,t(t(data)[!duplicated(t(data)),])用這個(gè)可以去除重復(fù)列
當(dāng)然t(unique(t(data7)))也可以
womenheight <- womenheight*2.54
另外如果women是matrix類(lèi)型,那就不用dollar符,用women[,1]*2.54,類(lèi)似的辦法依然可以一步到位。
centering and standardization
標(biāo)準(zhǔn)化如果你默認(rèn)數(shù)據(jù)是服從正態(tài)分布的,那標(biāo)準(zhǔn)化的過(guò)程就是把一般正態(tài)分布轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)分布
其實(shí)就是以by為參考列去輸出結(jié)果,即x與y會(huì)輸出k1=4時(shí),匹配k2與data的結(jié)果.而這里x與y都有兩行NA,所以就共生出四種可能
第一行表示 k1 等于 4,且在 x 和 y 中都有對(duì)應(yīng)的數(shù)據(jù),因此 K2.x、data.x、K2.y 和 data.y 都是 4。 第二行表示 k1 等于 5,且在 x 和 y
melt?(反正我沒(méi)懂)
明白了 就是相同變量合在一塊
這和excel數(shù)據(jù)透視表一樣
去除NA之后mean(aq1_1value[which(aq1_1variable'ozone'&aq1_1$month5)])就得到aqw里的行一列二的23.61583了
相當(dāng)于可以對(duì)ID以外信息進(jìn)行函數(shù)運(yùn)算
不懂的可以拿excel表演練一下,cast類(lèi)似數(shù)據(jù)透視表,melt就是數(shù)據(jù)透視表的原表
tdityr
因?yàn)樵谠瓉?lái)的數(shù)據(jù)框中這些汽車(chē)名不是數(shù)據(jù),相當(dāng)于索引,這步就把汽車(chē)名數(shù)據(jù)加入到了數(shù)據(jù)框中
其實(shí)就是,把數(shù)據(jù)塞進(jìn)拆成key(變量)和value(數(shù)值)兩個(gè)變量下
后面seperate/unite還比較好理解,這里gather/spread真的是暈死,看了3次才明白是什么意思
key:設(shè)置需要擴(kuò)寬的類(lèi)別變量,value:設(shè)置需要擴(kuò)寬的變量的度量值
dplyr沒(méi)學(xué)明白
p值越小,說(shuō)明當(dāng)前事件的發(fā)生概率很小,做一次試驗(yàn)就出現(xiàn)了當(dāng)前事件,所以有理由拒絕原假設(shè)。所以p值越小,拒絕原假設(shè)的理由就越充分
p是不是置信因子?如果是,那么可以這樣解釋,P代表原假設(shè)發(fā)生的概率,1-p(置信區(qū)間)代表原假設(shè)不發(fā)生的概率。0.05是因?yàn)橐话憬y(tǒng)計(jì)要求置信區(qū)間95%,簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)的可靠性是95%。貌似是這樣
相反,置信區(qū)間是隨樣本變化的,置信區(qū)間就像是投出去的網(wǎng),可以說(shuō)有多少機(jī)率能套住總體的真值
是該區(qū)間包含真實(shí)值的概率為95%,因?yàn)檎鎸?shí)值是固定的,區(qū)間才是變量,所以老師這里說(shuō)真實(shí)值落在區(qū)間內(nèi)的概率說(shuō)法是不夠正確的
高杠桿點(diǎn)表示它是一個(gè)異常的預(yù)測(cè)變量的組合;
table函數(shù)進(jìn)行頻數(shù)統(tǒng)計(jì)
attach是加載數(shù)據(jù)包 在后面可以直接使用變量名
用 符號(hào)訪問(wèn)對(duì)象不是非常的方便,如accountantsstatef。attach一將會(huì)使列表或者數(shù)據(jù)框分量可以通過(guò)變量名直接調(diào)用。而且這種調(diào)用是暫時(shí)性的,沒(méi)有必要每次都顯式的引用列表名字。
泊松回歸適合預(yù)測(cè)計(jì)數(shù)型結(jié)果變量
Affairsynaffair [Affairsaffair>0] <- 1,意思是在原Affair數(shù)據(jù)框的基礎(chǔ)上新增加1個(gè)列(因子),名為ynaffair,
,在新的列中,如果原affairs列的值>0, 則新列的值為1。這是利用了R的 “自動(dòng)補(bǔ)充、循環(huán)” 特性