R中使用樸素貝葉斯的欺詐短信息識別(順帶推薦精華R教材)


我總是會收到莫名其妙的欺詐短信,有的還裝得和真的一樣,點看之后才知道浪費了時間,天知道都是哪里來的。
使用Naive Bayes,我們可以基于簡單的NLP(自然語言處理)進行文本分析,構(gòu)建一個分類器來預(yù)測消息是否是垃圾短信,很多服務(wù)商現(xiàn)在還在用類似的算法。
data: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection
首先整理和編碼數(shù)據(jù),這一步對MAC用戶很重要,因為原數(shù)據(jù)似乎并非UTF8. 正經(jīng)的信息我們叫做HAM,不正經(jīng)的叫做SPAM哈哈。




最后幾個主要步驟都包含在一起了,用一個簡單的table直觀看到預(yù)測的結(jié)果。

最后推薦一本書《Machine Learning with R》,建議讀原版

包含了用R實現(xiàn)機器學習的最基本和公認最必要的內(nèi)容,結(jié)構(gòu)清晰合理。
從概念和數(shù)學方法開始,然后一步一步地介紹如何用代碼示例在R中運行,然后以優(yōu)化和參數(shù)調(diào)整結(jié)束。極為精華的R入門書。
2017年美國Goodreads rating 4.17/5.00,現(xiàn)在分數(shù)漲到4.23了,可見其質(zhì)量。