R中使用樸素貝葉斯的欺詐短信息識別（順帶推薦精華R教材）

2023-04-04 20:30 作者:時晴charles 0人讀過 | 我要投稿

我總是會收到莫名其妙的欺詐短信，有的還裝得和真的一樣，點看之后才知道浪費了時間，天知道都是哪里來的。

使用Naive Bayes，我們可以基于簡單的NLP（自然語言處理）進行文本分析，構(gòu)建一個分類器來預(yù)測消息是否是垃圾短信，很多服務(wù)商現(xiàn)在還在用類似的算法。

data: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection

首先整理和編碼數(shù)據(jù)，這一步對MAC用戶很重要，因為原數(shù)據(jù)似乎并非UTF8. 正經(jīng)的信息我們叫做HAM，不正經(jīng)的叫做SPAM哈哈。

最后幾個主要步驟都包含在一起了，用一個簡單的table直觀看到預(yù)測的結(jié)果。

最后推薦一本書《Machine Learning with R》，建議讀原版

包含了用R實現(xiàn)機器學習的最基本和公認最必要的內(nèi)容，結(jié)構(gòu)清晰合理。

從概念和數(shù)學方法開始，然后一步一步地介紹如何用代碼示例在R中運行，然后以優(yōu)化和參數(shù)調(diào)整結(jié)束。極為精華的R入門書。

2017年美國Goodreads rating 4.17/5.00，現(xiàn)在分數(shù)漲到4.23了，可見其質(zhì)量。

R中使用樸素貝葉斯的欺詐短信息識別（順帶推薦精華R教材）的評論 (共條)