python機(jī)器學(xué)習(xí)-乳腺癌細(xì)胞挖掘(一)

python機(jī)器學(xué)習(xí)-乳腺癌細(xì)胞挖掘:http://dwz.date/bwey

前言
警鐘長(zhǎng)鳴!癌癥離我們遠(yuǎn)嗎?《我不是藥神》催人淚下,筆者在此揭露真相,癌癥不是小概率疾病,癌癥就在身邊。癌癥早期發(fā)現(xiàn)和控制可極大延長(zhǎng)壽命和減少治療費(fèi)用。筆者下載美國(guó)威斯康辛臨床數(shù)據(jù),運(yùn)用python sklearn建立乳腺癌分類器模型,可預(yù)測(cè)正常細(xì)胞和癌細(xì)胞。

乳腺癌
乳腺癌是威脅我國(guó)女性健康最主要的惡性腫瘤之一,根據(jù)世界衛(wèi)生組織國(guó)際癌癥研究機(jī)構(gòu)全球184個(gè)國(guó)家和地區(qū)的癌癥報(bào)告,中國(guó)女性乳腺癌的發(fā)病率和死亡率在全球中處于較低水平,但是發(fā)病人數(shù)占全球的11.19%,僅次于美國(guó),且近20年來發(fā)病率與死亡率增長(zhǎng)迅速,防控形勢(shì)嚴(yán)峻。
乳腺癌位居女性惡性腫瘤發(fā)病首位
根據(jù)國(guó)家癌癥中心公布的數(shù)據(jù),2014年全國(guó)女性乳腺癌新發(fā)病例約27.89萬例,占女性惡性腫瘤發(fā)病16.51%,位居女性惡性腫瘤發(fā)病第1位。

其中,城市地區(qū)女性乳腺癌新發(fā)病例約18.46萬,農(nóng)村地區(qū)女性乳腺癌新發(fā)病例約9.43萬。

中國(guó)是乳腺癌發(fā)病率增長(zhǎng)速度最快的國(guó)家之一,并且以每年2%的速度遞增,癌癥負(fù)擔(dān)在不斷增加。在全球范圍內(nèi),中國(guó)占據(jù)新診斷乳腺癌病例的12.2%,占據(jù)乳腺癌死亡的9.6%。
55歲是女性乳腺癌發(fā)病高峰
中國(guó)女性乳腺癌發(fā)病率在20歲之前處于較低的水平,此后發(fā)病率隨年齡增長(zhǎng)迅速上升,并于55歲年齡組達(dá)到高峰,而后隨年齡增長(zhǎng)下降。
城鄉(xiāng)地區(qū)年齡別發(fā)病率曲線與全國(guó)女性乳腺癌發(fā)病情況類似,但城市地區(qū)女性乳腺癌發(fā)病水平高于農(nóng)村,城市地區(qū)發(fā)病率最高出現(xiàn)在60歲年齡組。30~60歲年齡組城市地區(qū)女性乳腺癌發(fā)病率約為農(nóng)村地區(qū)的1.5倍,65歲年齡組后達(dá)2倍以上。

一方面這可能與城市居民生活條件較好,脂肪等攝入過多,肥胖增加以及人口老齡化程度高有關(guān);另一方面由于城市女性受教育程度較高,初產(chǎn)年齡較晚,未產(chǎn)、母乳喂養(yǎng)的時(shí)間減少等導(dǎo)致乳腺癌發(fā)病的風(fēng)險(xiǎn)更高。
女性乳腺癌死亡率隨年齡增長(zhǎng)逐漸升高

同時(shí),中國(guó)女性乳腺癌25歲后死亡率隨年齡增長(zhǎng)迅速上升,并于60歲年齡組達(dá)到高峰后略有下降,70歲年齡組后再次上升,并于85歲以上年齡組達(dá)到死亡高峰。城鄉(xiāng)地區(qū)年齡別死亡率變化趨勢(shì)與全國(guó)相似。
課程概述
Toby,持牌照金融公司擔(dān)任模型驗(yàn)證專家,國(guó)內(nèi)最大醫(yī)藥數(shù)據(jù)中心數(shù)據(jù)挖掘部門負(fù)責(zé)人!此課程講述如何運(yùn)用python的sklearn快速建立機(jī)器學(xué)習(xí)模型。課程結(jié)合美國(guó)威斯康辛乳腺癌細(xì)胞臨床數(shù)據(jù),實(shí)操演練,建立癌細(xì)胞預(yù)測(cè)分類器。
本視頻系列通俗易懂,課程針對(duì)學(xué)生和科研機(jī)構(gòu),python愛好者。
本視頻教程系列有完整python代碼,觀眾看后可以下載實(shí)際操作。
了解癌癥腫瘤基本常識(shí),建立健康生活方式,預(yù)防癌癥,減輕癌癥治療成本。?

課程中十大經(jīng)典機(jī)器學(xué)習(xí)算法震撼登場(chǎng):邏輯回歸,支持向量,KNN,神經(jīng)網(wǎng)絡(luò),隨機(jī)森林,xgboost,lightGBM,catboost。課程提供視頻里講解腳本,這些模型腳本可以應(yīng)用于各個(gè)領(lǐng)域數(shù)據(jù),包括金融反欺詐模型,信用評(píng)分模型,收入預(yù)測(cè)模型等等,為中小企業(yè)提供現(xiàn)成解決方案。




隨機(jī)森林變量權(quán)重可視化

課程耗費(fèi)三年時(shí)間,360度無死角的講述整個(gè)模型開發(fā)周期,非市場(chǎng)上快餐教學(xué)。教程包括數(shù)據(jù)獲取,數(shù)據(jù)預(yù)處理,變量篩選,模型篩選,模型評(píng)估,模型調(diào)參。
本視頻系列通俗易懂,課程針對(duì)學(xué)生和科研機(jī)構(gòu),python愛好者。本視頻教程系列有完整python代碼,觀眾看后可以下載實(shí)際操作。這些模型代碼可為中小型企業(yè)提供解決方案。

Anaconda+KNN+網(wǎng)格調(diào)參+交叉驗(yàn)證?

目錄
章節(jié)1:癌癥常識(shí)
課時(shí)1警鐘長(zhǎng)鳴!癌癥就在你身邊11:00
課時(shí)2癌癥科普介紹23:05
課時(shí)3病毒細(xì)菌誘發(fā)的癌癥20:43
課時(shí)4禍從口入-致癌食物大揭秘08:37
課時(shí)5Python機(jī)器學(xué)習(xí)挖掘癌細(xì)胞概述13:11
章節(jié)2:sklearn編程環(huán)境搭建
課時(shí)6Python非官方擴(kuò)展包下載地址02:21
課時(shí)7python第三方包安裝(pip和conda install) 02:48
課時(shí)8Anaconda下載安裝07:02
課時(shí)9Canopy下載和安裝03:47
章節(jié)3:sklearn機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)
課時(shí)10機(jī)器學(xué)習(xí)數(shù)據(jù)庫介紹02:19
課時(shí)11機(jī)器學(xué)習(xí)書籍推薦02:59
課時(shí)12Python數(shù)據(jù)科學(xué)常用的包13:14
課時(shí)13如何選擇模型03:57
課時(shí)14sklearn算法速查表02:29
課時(shí)15sklearn建?;A(chǔ)代碼18:19
課時(shí)16python數(shù)據(jù)科學(xué)入門介紹(選修)55:15
章節(jié)4:獲取乳腺癌臨床數(shù)據(jù)
課時(shí)17數(shù)據(jù)獲取-乳腺癌細(xì)胞臨床數(shù)據(jù)07:06
章節(jié)5:變量篩選和描述性統(tǒng)計(jì)
課時(shí)18因子分析-解釋癌細(xì)胞特征33:24
課時(shí)19變量篩選1-模型法11:50
課時(shí)20變量篩選2-比例法percentile07:04
課時(shí)21變量篩選3-方差法(推薦)06:36
課時(shí)22變量篩選4-KBest01:59
章節(jié)6:十大經(jīng)典機(jī)器學(xué)習(xí)算法-建立乳腺癌細(xì)胞分類器
課時(shí)23邏輯回歸logistic regression27:17
課時(shí)24支持向量SVM13:48
課時(shí)25KNN最近鄰算法13:38
課時(shí)26決策樹-decision tree21:59
課時(shí)27隨機(jī)森林-random forest14:02
課時(shí)28神經(jīng)網(wǎng)絡(luò)neural network17:07
課時(shí)29xgboost12:27
課時(shí)30lightGBM03:51
課時(shí)31catboost07:08
課時(shí)32算法優(yōu)劣對(duì)比10:52
課時(shí)33bagging VS boosting05:51
章節(jié)7:數(shù)據(jù)預(yù)處理
課時(shí)34pandasl數(shù)據(jù)處理基礎(chǔ)知識(shí)15:50
課時(shí)35啞變量處理-hotcode熱編碼06:14
課時(shí)36imputer-缺失數(shù)據(jù)處理04:49
課時(shí)37scale-數(shù)據(jù)標(biāo)準(zhǔn)化處理12:13
章節(jié)8:模型調(diào)參
課時(shí)38遍歷調(diào)參法05:15
課時(shí)39網(wǎng)格調(diào)參106:10
課時(shí)40網(wǎng)格調(diào)參204:26
課時(shí)41隨機(jī)網(wǎng)格調(diào)參02:29
章節(jié)9:模型驗(yàn)證
課時(shí)42交叉驗(yàn)證cross validation03:45
課時(shí)43模型驗(yàn)證前言12:15
課時(shí)44混淆矩陣14:16
課時(shí)45ROC曲線11:57
課時(shí)46PSI(population stability index)10:20
課時(shí)47基尼系數(shù)GINI index25:16
課時(shí)48KS(kolmogorov-smirnoff)06:51
章節(jié)10:附錄
課時(shí)49視頻教程python腳本下載網(wǎng)址需購買觀看
課時(shí)50顯微鏡下癌細(xì)胞
python機(jī)器學(xué)習(xí)生物信息學(xué)系列課(博主錄制):http://dwz.date/b9vw
