最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

ApacheCN 機(jī)器學(xué)習(xí)實(shí)戰(zhàn)講義 十一、使用 Apriori 算法進(jìn)行關(guān)聯(lián)分析

2018-05-03 00:01 作者:絕不原創(chuàng)的飛龍  | 我要投稿

關(guān)聯(lián)分析

關(guān)聯(lián)分析是一種在大規(guī)模數(shù)據(jù)集中尋找有趣關(guān)系的任務(wù)。 這些關(guān)系可以有兩種形式: 頻繁項(xiàng)集(frequent item sets): 經(jīng)常出現(xiàn)在一塊的物品的集合。 關(guān)聯(lián)規(guī)則(associational rules): 暗示兩種物品之間可能存在很強(qiáng)的關(guān)系。

相關(guān)術(shù)語

  • 關(guān)聯(lián)分析(關(guān)聯(lián)規(guī)則學(xué)習(xí)): 從大規(guī)模數(shù)據(jù)集中尋找物品間的隱含關(guān)系被稱作 關(guān)聯(lián)分析(associati analysis) 或者 關(guān)聯(lián)規(guī)則學(xué)習(xí)(association rule learning) 。 下面是用一個(gè) 雜貨店 例子來說明這兩個(gè)概念,如下圖所示:

關(guān)聯(lián)分析示例1
  • 頻繁項(xiàng)集: {葡萄酒, 尿布, 豆奶} 就是一個(gè)頻繁項(xiàng)集的例子。

  • 關(guān)聯(lián)規(guī)則: 尿布 -> 葡萄酒 就是一個(gè)關(guān)聯(lián)規(guī)則。這意味著如果顧客買了尿布,那么他很可能會買葡萄酒。

那么 頻繁 的定義是什么呢?怎么樣才算頻繁呢? 度量它們的方法有很多種,這里我們來簡單的介紹下支持度和可信度。 支持度: 數(shù)據(jù)集中包含該項(xiàng)集的記錄所占的比例。例如上圖中,{豆奶} 的支持度為 4/5。{豆奶, 尿布} 的支持度為 3/5。 可信度: 針對一條諸如 {尿布} -> {葡萄酒} 這樣具體的關(guān)聯(lián)規(guī)則來定義的。這條規(guī)則的 可信度 被定義為 支持度({尿布, 葡萄酒})/支持度({尿布}),從圖中可以看出 支持度({尿布, 葡萄酒}) = 3/5,支持度({尿布}) = 4/5,所以 {尿布} -> {葡萄酒} 的可信度 = 3/5 / 4/5 = 3/4 = 0.75。

支持度 和 可信度 是用來量化 關(guān)聯(lián)分析 是否成功的一個(gè)方法。 假設(shè)想找到支持度大于 0.8 的所有項(xiàng)集,應(yīng)該如何去做呢? 一個(gè)辦法是生成一個(gè)物品所有可能組合的清單,然后對每一種組合統(tǒng)計(jì)它出現(xiàn)的頻繁程度,但是當(dāng)物品成千上萬時(shí),上述做法就非常非常慢了。 我們需要詳細(xì)分析下這種情況并討論下 Apriori 原理,該原理會減少關(guān)聯(lián)規(guī)則學(xué)習(xí)時(shí)所需的計(jì)算量。

閱讀全文:http://ml.apachecn.org/mlia/apriori/

ApacheCN 機(jī)器學(xué)習(xí)實(shí)戰(zhàn)講義 十一、使用 Apriori 算法進(jìn)行關(guān)聯(lián)分析的評論 (共 條)

分享到微博請遵守國家法律
屯门区| 宝应县| 双辽市| 博客| 堆龙德庆县| 洛阳市| 聂荣县| 郯城县| 新泰市| 隆德县| 乐山市| 甘德县| 扶绥县| 安国市| 盈江县| 保德县| 阿克陶县| 沧州市| 韶关市| 阳泉市| 来宾市| 句容市| 若尔盖县| 贵港市| 航空| 上杭县| 任丘市| 云梦县| 海阳市| 漳浦县| 秦安县| 甘谷县| 荆门市| 白沙| 南雄市| 永德县| 玉树县| 江达县| 屯昌县| 甘德县| 潜山县|