【視頻】Rapidminer關聯(lián)規(guī)則和文本挖掘模型對評論數(shù)據進行分析
原文鏈接:http://tecdat.cn/?p=14919?
關聯(lián)規(guī)則是if / then語句,可幫助發(fā)現(xiàn)看似無關的數(shù)據之間的關系。關聯(lián)規(guī)則的一個示例是“如果客戶購買雞蛋,那么他有80%的可能性也購買牛奶”。關聯(lián)規(guī)則包含兩個部分,一個前提(if)和一個后果(then)。前項是在數(shù)據中找到的一個或多個項目。結果就是與前項組合在一起的項(或項集)。
關聯(lián)規(guī)則是通過分析頻繁使用的“如果/然后”模式的數(shù)據并使用條件??支持??和??置信度??來確定最重要的關系來創(chuàng)建的。支持表示項目在數(shù)據庫中出現(xiàn)的頻率。置信度表示發(fā)現(xiàn)if / then語句為真的次數(shù)。使用FP-Growth運算符之類的運算符來挖掘頻繁的if / then模式?!皠?chuàng)建關聯(lián)規(guī)則”運算符采用這些頻繁項集并生成關聯(lián)規(guī)則。
這樣的信息可以用作關于諸如促銷價格或產品安置的市場活動的決定的基礎。除了上述來自市場籃子分析的示例外,當今在許多應用程序領域中都采用了關聯(lián)規(guī)則,包括Web使用挖掘,入侵檢測和生物信息學。
RAPIDMINER關聯(lián)規(guī)則和文本挖掘模型對評論數(shù)據進行分析
視頻
在這個短片中我們分享了如何使用RAPIDMINER創(chuàng)建關聯(lián)規(guī)則和文本挖掘模型對評論數(shù)據進行分析?

輸入項
項目集(常用項目集)
該輸入端口需要頻繁的項目集。諸如FP-Growth運算符之類的運算符可用于提供這些頻繁項集。
輸出量
項目集(常用項目集)
作為輸入提供的項集將通過此端口傳遞,而不會更改為輸出。這通常用于在其他運算符中重用相同的項目集,或在“結果”工作區(qū)中查看這些項目集。
規(guī)則(關聯(lián)規(guī)則)
關聯(lián)規(guī)則通過此輸出端口傳遞。
參數(shù)
條件此參數(shù)指定用于選擇規(guī)則的條件。min_confidence此參數(shù)指定規(guī)則的最小置信度范圍:實數(shù)
置信度:規(guī)則的置信度定義為conf(X表示Y)= supp(X∪Y)/ supp(X)。閱讀表達式時要小心:這里supp(X∪Y)的意思是“支持X和Y都出現(xiàn)的交易的發(fā)生”,而不是“支持X或Y都出現(xiàn)的交易的發(fā)生”。置信度范圍為0到1。置信度是Pr(Y | X)的估計值,即在給定X的情況下觀察Y的概率。
提升:規(guī)則的提升定義為提升(X表示Y)= supp(X∪Y)/((supp(Y)x supp(X))或觀察到的支持度與預期支持度之比(如果X和Y提升也可以定義為lift(X表示Y)= conf(X表示Y)/ supp(Y).lift度量X和Y與獨立性之間的距離。其范圍在0到正無窮大之間。值接近1表示X和Y是獨立的,規(guī)則并不有趣。
conv:conv對規(guī)則方向敏感,即conv(X表示Y)與conv(Y表示X)不同。conv定義為conv(X表示Y)=(1-supp(Y))/(1-conf(X表示Y))
增益:選擇此選項時,使用增益theta參數(shù)計算增益。
laplace:選擇此選項時,使用laplace k參數(shù)計算Laplace。
ps:選擇此選項后,將使用ps標準進行規(guī)則選擇。
min_criterion_value此參數(shù)指定所選條件的規(guī)則的最小值范圍:實數(shù)
gain_theta該參數(shù)指定?在增益計算中使用的參數(shù)??Theta范圍:實數(shù)
laplace_k此參數(shù)指定?在Laplace函數(shù)計算中使用的參數(shù)??k。范圍:實數(shù)
?

參考文獻
1.探析大數(shù)據期刊文章研究熱點
2.618網購數(shù)據盤點-剁手族在關注什么
3.r語言文本挖掘tf-idf主題建模,情感分析n-gram建模研究
4.python主題建??梢暬痩da和t-sne交互式可視化
5.r語言文本挖掘nasa數(shù)據網絡分析,tf-idf和主題建模
6.python主題lda建模和t-sne可視化
7.Python中的Apriori關聯(lián)算法市場購物籃分析
8.通過Python中的Apriori算法進行關聯(lián)規(guī)則挖掘
9.python爬蟲進行web抓取lda主題語義數(shù)據分析