python機(jī)器學(xué)習(xí)-乳腺癌細(xì)胞挖掘


隨著人們生活水平提高,大家不僅關(guān)注如何生活,而且關(guān)注如何生活得更好。在這個(gè)背景下,精準(zhǔn)治療和預(yù)測(cè)診斷成為當(dāng)今熱門(mén)話題。
據(jù)權(quán)威醫(yī)學(xué)資料統(tǒng)計(jì),全球大約每13分鐘就有一人死于乳腺癌,乳腺癌已成為威脅當(dāng)代人健康的主要疾病之一,并且隨著發(fā)病率的增加,死亡率也逐漸增加,作為女性實(shí)在不能不重視。
其中前十位死因;女性乳腺癌為首因,其余順序與全人群死因一致。其中,乳腺癌可能沒(méi)有任何先兆,是一個(gè)隱形殺手。
有不少人的乳腺癌是沒(méi)有任何征兆的,有可能只是發(fā)現(xiàn)腫塊但沒(méi)有任何不舒服的地方,但一檢查就確診乳腺癌的情況不在少數(shù),更甚至于有些人已經(jīng)發(fā)展到乳腺癌晚期,只能采取切除患病乳房的方式來(lái)挽救生命。因此一定要密切注意乳房的變化,每年體檢一次,排除患癌因素最保險(xiǎn)。有權(quán)威數(shù)據(jù)統(tǒng)計(jì),中國(guó)將進(jìn)入乳腺癌高峰期,到2021年中國(guó)將有250萬(wàn)人患乳腺癌!保養(yǎng)胸部將不再是“喜不喜歡、需不需要”可選問(wèn)題,在未來(lái)的日子里乳腺癌預(yù)防將是每個(gè)不同年齡女人的必須選擇。
乳腺癌的主要癥狀包括:
1、腫塊
為95%乳腺癌病人的乎發(fā)癥狀。大多單發(fā),少見(jiàn)多發(fā),形態(tài)偏于圓形、橢圓形或不規(guī)則形。質(zhì)地一般較硬、境界不清。個(gè)別如髓樣癌質(zhì)地較軟,境界較清。多發(fā)于外上象限,腫塊增大較快,早期可有活動(dòng)度。
2、皮膚改變
常見(jiàn)為淺表靜脈怒張,酒窩征和桔皮樣皮膚。炎性乳癌病人胸部皮膚可大片顏色變暗,呈硬結(jié)、增厚,雜以癌性斑塊和潰瘍呈鎧甲狀胸壁。晚期乳癌可向淺表潰破,形成潰瘍或菜花狀新生物。
3、乳頭乳暈改變
乳房中央?yún)^(qū)乳腺癌,大導(dǎo)管受侵犯可致乳頭扁平、凹陷、回縮,甚至乳頭陷入暈下,導(dǎo)致乳暈變形。Paget氏病可出現(xiàn)乳頭、乳暈皮膚濕疹樣改變。
4、乳頭溢液
乳腺癌伴溢液占乳癌總數(shù)的1.3-7%,且多見(jiàn)于管內(nèi)癌、乳頭狀癌。血性溢液多見(jiàn),次為漿液性、漿血性、水樣等也有。以溢液為唯一癥狀乳癌,極少見(jiàn),且大多為早期管內(nèi)癌、乳頭狀癌,溢液乳腺癌多數(shù)先發(fā)現(xiàn)腫塊后伴有溢液。
5、疼痛
早期出現(xiàn)的為無(wú)痛性腫塊。乳癌合并囊性增生病時(shí),可有脹痛、鈍痛。晚期乳癌疼痛常提示腫瘤直接侵犯神經(jīng)。
6、腋淋巴結(jié)腫大
作為乳腺癌首發(fā)癥狀少見(jiàn)(除非隱匿型乳腺癌)。大多提示乳腺癌病程進(jìn)展,需排除上肢、肩背、胸部其他惡性腫瘤轉(zhuǎn)移所致。

精準(zhǔn)醫(yī)療和診斷預(yù)測(cè)離不開(kāi)計(jì)算機(jī)編程,臨床數(shù)據(jù)和機(jī)器學(xué)習(xí)算法。

?
乳腺癌是世界各地女性常見(jiàn)的癌癥,通過(guò)盡早對(duì)患者進(jìn)行臨床治療,盡早發(fā)現(xiàn)BC可大大改善預(yù)后和生存機(jī)會(huì)。因此,僅通過(guò)使用數(shù)據(jù),python和機(jī)器學(xué)習(xí)就能幫助挽救生命真是太神奇了!通過(guò)下述代碼,您已經(jīng)完成創(chuàng)建乳房檢測(cè)程序來(lái)預(yù)測(cè)患者是否患有癌癥!同樣,如果您愿意,您可以報(bào)名聽(tīng)我講解課程的所有代碼。
歡迎各位同學(xué)學(xué)習(xí)《python機(jī)器學(xué)習(xí)-乳腺癌細(xì)胞挖掘》課程,教會(huì)大家建立診斷預(yù)測(cè)乳腺癌細(xì)胞模型,學(xué)習(xí)地址1
https://ke.qq.com/course/3064292?tuin=dcbf0ba
學(xué)習(xí)地址2
https://study.163.com/course/courseMain.htm?courseId=1005269003&share=2&shareId=400000000398149
作者介紹
Toby,持牌照金融公司擔(dān)任模型驗(yàn)證專(zhuān)家,國(guó)內(nèi)最大醫(yī)藥數(shù)據(jù)中心數(shù)據(jù)挖掘部門(mén)負(fù)責(zé)人!和重慶兒科醫(yī)院,中科院教授,賽柏藍(lán)保持慢病數(shù)據(jù)挖掘項(xiàng)目合作!管理過(guò)歐美日中印巴西等國(guó)外藥典數(shù)據(jù)庫(kù),馬丁代爾數(shù)據(jù)庫(kù),F(xiàn)DA溶解度數(shù)據(jù)庫(kù),臨床試驗(yàn)數(shù)據(jù)庫(kù),WHO藥物預(yù)警等數(shù)據(jù)庫(kù)。
課程概述
此課程講述如何運(yùn)用python的sklearn快速建立機(jī)器學(xué)習(xí)模型。課程結(jié)合美國(guó)威斯康辛乳腺癌細(xì)胞臨床數(shù)據(jù),實(shí)操演練,建立癌細(xì)胞預(yù)測(cè)分類(lèi)器。
課程講述十大經(jīng)典機(jī)器學(xué)習(xí)算法:邏輯回歸,支持向量,KNN,神經(jīng)網(wǎng)絡(luò),隨機(jī)森林,xgboost,lightgBM,catboost。這些算法模型可以應(yīng)用于各個(gè)領(lǐng)域數(shù)據(jù)。
本視頻系列通俗易懂,課程針對(duì)學(xué)生和科研機(jī)構(gòu),python愛(ài)好者。
本視頻教程系列有完整python代碼,觀眾看后可以下載實(shí)際操作。
了解癌癥腫瘤基本常識(shí),建立健康生活方式,預(yù)防癌癥,減輕癌癥治療成本。
?
適用人群
研究生,博士生畢業(yè)論文,NCBI/SCI/Nature論文發(fā)布,python愛(ài)好者,機(jī)器學(xué)習(xí),生物信息學(xué),乳腺癌醫(yī)學(xué)科研機(jī)構(gòu)(課程有版權(quán),引用需標(biāo)注來(lái)源)
?
?學(xué)習(xí)收益
0.癌癥常識(shí)
1.python編程
2.機(jī)器學(xué)習(xí)十大經(jīng)典算法建模
3.RDKIT建模
學(xué)習(xí)計(jì)劃和方法
1.每天保證1-2個(gè)小時(shí)學(xué)習(xí)時(shí)間,預(yù)計(jì)20-30天可以學(xué)習(xí)完整門(mén)課程。不同python基礎(chǔ)的學(xué)生學(xué)習(xí)時(shí)間相差較大。
2.每節(jié)課的代碼實(shí)操要保證,建議不要直接復(fù)制粘貼代碼,自己實(shí)操一遍代碼對(duì)大腦記憶很重要,有利于鞏固知識(shí)。
3.第二次學(xué)習(xí)時(shí)要總結(jié)上一節(jié)課內(nèi)容,必要時(shí)做好筆記,加深大腦理解。
4.不懂問(wèn)題要羅列出來(lái),先自己上網(wǎng)查詢(xún),查不到的可以咨詢(xún)老師。
課程背景
警鐘長(zhǎng)鳴!癌癥離我們遠(yuǎn)嗎?《我不是藥神》催人淚下,筆者在此揭露真相,癌癥不是小概率疾病,癌癥就在身邊。癌癥早期發(fā)現(xiàn)和控制可極大延長(zhǎng)壽命和減少治療費(fèi)用。筆者下載美國(guó)威斯康辛臨床數(shù)據(jù),運(yùn)用python sklearn機(jī)器學(xué)習(xí)十大經(jīng)典算法建立乳腺癌分類(lèi)器模型,可預(yù)測(cè)正常細(xì)胞和癌細(xì)胞。我國(guó)醫(yī)院重視治療,但忽略疾病預(yù)防教育。通過(guò)我多年機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘,我發(fā)現(xiàn)疾病可防可控,通過(guò)自身努力,我們可以提前發(fā)現(xiàn)疾病早期癥狀或扼殺疾病于搖籃。希望此課程讓廣大醫(yī)療科研工作者認(rèn)識(shí)疾病預(yù)防教育重要性。課程還介紹RDKIT概述-開(kāi)源化學(xué)信息工具包,以及如何運(yùn)用python語(yǔ)言構(gòu)建Rdkit化學(xué)分子溶解度模型,此乃化學(xué),生物信息學(xué)愛(ài)好者又一個(gè)福音。
?

課程目錄
章節(jié)1我的主頁(yè)和課前咨詢(xún)答疑
課時(shí)1我的所有教學(xué)系列介紹
課時(shí)2如何聯(lián)系作者和訪問(wèn)我的主頁(yè)
課時(shí)3歡迎項(xiàng)目合作
課時(shí)4如何下載腳本和原始數(shù)據(jù)
課時(shí)5誠(chéng)謝大家支持
章節(jié)2癌癥常識(shí)
課時(shí)6警鐘長(zhǎng)鳴!癌癥就在你身邊
課時(shí)7癌癥科普介紹
課時(shí)8病毒細(xì)菌誘發(fā)的癌癥
課時(shí)9禍從口入-致癌食物大揭秘
課時(shí)10Python機(jī)器學(xué)習(xí)挖掘癌細(xì)胞概述
章節(jié)3python編程環(huán)境搭建
課時(shí)11Anaconda快速入門(mén)指南
課時(shí)12Anaconda下載安裝
課時(shí)13Canopy下載和安裝
課時(shí)14Python非官方擴(kuò)展包下載地址
課時(shí)15python第三方包安裝(pip和conda install)
課時(shí)16Anaconda Navigator導(dǎo)航器
課時(shí)17Anaconda安裝不同版本python
課時(shí)18jupyter1_為什么使用jupyter notebook
課時(shí)19jupyter2_jupyter基本文本編輯操作
課時(shí)20如何用jupyter notebook打開(kāi)指定文件夾內(nèi)容?
課時(shí)21jupyter4_jupyter轉(zhuǎn)換PPT實(shí)操
課時(shí)22jupyter notebook用matplotlib不顯示圖片解決方案
課時(shí)23conda-forge安裝rdkit
章節(jié)4python基礎(chǔ)知識(shí)
課時(shí)24為什么學(xué)習(xí)編程?大多數(shù)學(xué)校不會(huì)告訴你的秘密
課時(shí)25python官網(wǎng)
課時(shí)26Python文件基本操作
課時(shí)27變量_表達(dá)式_運(yùn)算符_值
課時(shí)28字符串string
課時(shí)29程序基本構(gòu)架(條件,循環(huán))
課時(shí)30數(shù)據(jù)類(lèi)型_函數(shù)_面向?qū)ο缶幊?br>課時(shí)31python2和3的區(qū)別
課時(shí)32編程技巧和學(xué)習(xí)方法
章節(jié)5sklearn機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)
課時(shí)33機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)介紹
課時(shí)34機(jī)器學(xué)習(xí)書(shū)籍推薦
課時(shí)35Python數(shù)據(jù)科學(xué)常用的包
課時(shí)36如何選擇算法
課時(shí)37sklearn算法速查表
課時(shí)38sklearn建?;A(chǔ)代碼
課時(shí)39python數(shù)據(jù)科學(xué)入門(mén)介紹(選修)
章節(jié)6獲取乳腺癌臨床數(shù)據(jù)
課時(shí)40數(shù)據(jù)獲取-乳腺癌細(xì)胞臨床數(shù)據(jù)
章節(jié)7變量篩選和描述性統(tǒng)計(jì)
課時(shí)41spss因子分析-解釋癌細(xì)胞特征
課時(shí)42變量篩選1-模型法
課時(shí)43變量篩選2-比例法percentile
課時(shí)44變量篩選3-方差法
課時(shí)45變量篩選4-KBest
課時(shí)46好變量/特征比算法更重要(英語(yǔ)-課外閱讀)
章節(jié)8十大經(jīng)典機(jī)器學(xué)習(xí)算法-建立乳腺癌細(xì)胞分類(lèi)器
課時(shí)47邏輯回歸logistic regression
課時(shí)48支持向量SVM
課時(shí)49KNN最近鄰算法
課時(shí)50決策樹(shù)-decision tree
課時(shí)51隨機(jī)森林-random forest
課時(shí)52神經(jīng)網(wǎng)絡(luò)neural network
課時(shí)53xgboost
課時(shí)54lightgbm基礎(chǔ)講解
課時(shí)55lightgBM腳本實(shí)現(xiàn)
課時(shí)56catboost基礎(chǔ)講解
課時(shí)57catboost腳本實(shí)現(xiàn)
課時(shí)58常見(jiàn)算法優(yōu)劣對(duì)比
課時(shí)59bagging VS boosting
課時(shí)60隨機(jī)森林和boosting算法擴(kuò)展知識(shí)(英文課外閱讀)
章節(jié)9數(shù)據(jù)預(yù)處理
課時(shí)61pandasl數(shù)據(jù)處理基礎(chǔ)知識(shí)
課時(shí)62啞變量處理-hotcode熱編碼
課時(shí)63imputer-缺失數(shù)據(jù)處理
課時(shí)64scale-數(shù)據(jù)標(biāo)準(zhǔn)化處理
章節(jié)10變量(特征)重要性
課時(shí)65邏輯回歸和集成樹(shù)算法變量(特征)重要性概述
課時(shí)66隨機(jī)邏輯回歸randomized logistic regression
課時(shí)67xgboost特征重要性
課時(shí)68catboost特征重要性
課時(shí)69lightgbm特征重要性
章節(jié)11模型調(diào)參
課時(shí)70遍歷調(diào)參法
課時(shí)71單個(gè)參數(shù)網(wǎng)格調(diào)參
課時(shí)72多參數(shù)網(wǎng)格調(diào)參
課時(shí)73隨機(jī)網(wǎng)格調(diào)參_random size search cv
章節(jié)12模型驗(yàn)證
課時(shí)74模型驗(yàn)證必要性-市場(chǎng)80%模型存在問(wèn)題
課時(shí)75交叉驗(yàn)證cross validation
課時(shí)76混淆矩陣
課時(shí)77roc曲線
課時(shí)78PSI(population stability index)模型穩(wěn)定性
課時(shí)79基尼系數(shù)GINI index-模型區(qū)分能力指標(biāo)
課時(shí)80KS(kolmogorov-smirnoff)-模型區(qū)分能力指標(biāo)
章節(jié)13Rdkit化學(xué)分子溶解度模型
課時(shí)79RDKIT概述-開(kāi)源化學(xué)信息工具包
課時(shí)80Rdkit如何構(gòu)建化學(xué)分子的溶解度預(yù)測(cè)模型
課時(shí)81conda-forge安裝rdkit
課時(shí)82讀取dat格式的化學(xué)分子式數(shù)據(jù)
課時(shí)83smiles字符串形式轉(zhuǎn)換為MOL分子式
課時(shí)84MOL分子結(jié)構(gòu)轉(zhuǎn)換為指紋數(shù)字形式
課時(shí)85隨機(jī)森林和高斯算法建模
課時(shí)86rdkit本章節(jié)腳本和數(shù)據(jù)下載
章節(jié)14附錄
課時(shí)81如何運(yùn)用公開(kāi)資料學(xué)習(xí)python(GitHub,kaggle,StackOverflow)
課時(shí)82顯微鏡下癌細(xì)胞
課時(shí)83python在生物分子學(xué)應(yīng)用(英文課外擴(kuò)展)
課時(shí)84SIR模型預(yù)測(cè)新冠狀病毒2019-nCoV
乳腺癌建模數(shù)據(jù)

?
課程中十大經(jīng)典機(jī)器學(xué)習(xí)算法震撼登場(chǎng):邏輯回歸,支持向量,KNN,神經(jīng)網(wǎng)絡(luò),隨機(jī)森林,xgboost,lightgBM,catboost。課程提供視頻里講解腳本,這些模型腳本可以應(yīng)用于各個(gè)領(lǐng)域數(shù)據(jù),包括金融反欺詐模型,信用評(píng)分模型,收入預(yù)測(cè)模型等等,為中小企業(yè)提供現(xiàn)成解決方案。



?
隨機(jī)森林變量權(quán)重可視化

?
課程耗費(fèi)三年時(shí)間,360度無(wú)死角的講述整個(gè)模型開(kāi)發(fā)周期,非市場(chǎng)上快餐教學(xué)。教程包括數(shù)據(jù)獲取,數(shù)據(jù)預(yù)處理,變量篩選,模型篩選,模型評(píng)估,模型調(diào)參。
本視頻系列通俗易懂,課程針對(duì)學(xué)生和科研機(jī)構(gòu),python愛(ài)好者。本視頻教程系列有完整python代碼,觀眾看后可以下載實(shí)際操作。這些模型代碼可為中小型企業(yè)提供解決方案。
?

?
python機(jī)器學(xué)習(xí)編程環(huán)境搭建
python機(jī)器學(xué)習(xí)-乳腺癌細(xì)胞挖掘課程講授初學(xué)者如何搭建python的Anaconda編程環(huán)境,Anaconda是一個(gè)集成數(shù)據(jù)科學(xué)編程框架,嵌入了sklearn,matplotlib,seaborn等常用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)包。
(1)下載anaconda
首先下載anaconda,這款框架比Python官網(wǎng)的編輯器更好用,下載網(wǎng)址為https://www.anaconda.com/download/
anaconda支持windows,linux,蘋(píng)果操作系統(tǒng)
支持32位和64位操作系統(tǒng)

?
(2)導(dǎo)入sklearn第三方包
anaconda下載安裝好后打開(kāi),自帶sklearn第三方包
命令行輸入import sklearn,無(wú)報(bào)錯(cuò)就表示運(yùn)行正常

?
(3)pip install安裝其他第三方包
機(jī)器學(xué)習(xí)中,有時(shí)候需要導(dǎo)入其他包,而sklearn沒(méi)有,這時(shí)就需要用pip install安裝其他第三方包

?
(4)非官方擴(kuò)展包下載地址
有時(shí)候pip install安裝失敗,我們需要去歐文大學(xué)下載Python非官方擴(kuò)展包
Python有大量非官方擴(kuò)展包,應(yīng)用于各行各業(yè),主要是數(shù)據(jù)科學(xué),人工智能,爬蟲(chóng)等等,下載地址為
https://www.lfd.uci.edu/~gohlke/pythonlibs/

?
乳腺癌細(xì)胞分類(lèi)器建模
現(xiàn)在我們要用機(jī)器學(xué)習(xí)算法建立分類(lèi)器,區(qū)分細(xì)胞為良性細(xì)胞或癌細(xì)胞。分類(lèi)器就是解決二分類(lèi)或多分類(lèi)問(wèn)題。
建立分類(lèi)器算法很多,包括邏輯回歸,xgboost,svm,神經(jīng)網(wǎng)絡(luò)等等。
開(kāi)始編程:
在編寫(xiě)一行代碼之前,我想做的第一件事是在代碼的注釋中加入描述。這樣,我可以回顧我的代碼并確切地知道它的作用。
現(xiàn)在導(dǎo)入包/庫(kù),以使其更容易編寫(xiě)程序。
?接下來(lái),我將加載數(shù)據(jù),并打印數(shù)據(jù)的前7行。
注意:每行數(shù)據(jù)代表可能患有或未患有癌癥的患者。
?

?
探索數(shù)據(jù)并計(jì)算數(shù)據(jù)集中的行數(shù)和列數(shù)。它們是569行數(shù)據(jù),這意味著他們是該數(shù)據(jù)集中的569位患者,而33列則是每位患者的33個(gè)特征或數(shù)據(jù)點(diǎn)。
?繼續(xù)探索數(shù)據(jù)并獲得包含空值(NaN,NAN,na)的所有列的計(jì)數(shù)。請(qǐng)注意,除了名為“?Unnamed:32?”的列(其中包含569個(gè)空值)(數(shù)據(jù)集中的行數(shù)相同,這告訴我該列完全沒(méi)有用)之外,所有列均未包含任何空值。

?從原始數(shù)據(jù)集中刪除“未命名:32?”列,因?yàn)樗鼪](méi)有任何值。
?獲取新的行和列數(shù)計(jì)數(shù)。
?獲取具有惡性(M)癌細(xì)胞和良性(B)非癌細(xì)胞的患者數(shù)。

?通過(guò)創(chuàng)建計(jì)數(shù)圖可視化計(jì)數(shù)。

?查看數(shù)據(jù)類(lèi)型以查看哪些列需要轉(zhuǎn)換/編碼。從數(shù)據(jù)類(lèi)型中我可以看到,除“診斷”列外,所有列/功能都是數(shù)字,“診斷”列是在python中表示為對(duì)象的分類(lèi)數(shù)據(jù)。

對(duì)分類(lèi)數(shù)據(jù)進(jìn)行編碼。將“診斷”列中的值分別從M和B更改為1和0,然后打印結(jié)果。

創(chuàng)建一個(gè)對(duì)圖?!皩?duì)圖”也稱(chēng)為散點(diǎn)圖,其中同一數(shù)據(jù)行中的一個(gè)變量與另一變量的值匹配。

?打印現(xiàn)在只有32列的新數(shù)據(jù)集。僅打印前5行。

獲取列的相關(guān)性。

列相關(guān)樣本
通過(guò)創(chuàng)建熱圖可視化相關(guān)性。

?
?現(xiàn)在,我完成了探索和清理數(shù)據(jù)的工作。我將通過(guò)首先將數(shù)據(jù)集分為特征數(shù)據(jù)集(也稱(chēng)為獨(dú)立數(shù)據(jù)集(X))和目標(biāo)數(shù)據(jù)集(也稱(chēng)為從屬數(shù)據(jù)集(Y))來(lái)設(shè)置模型的數(shù)據(jù)。
?再次拆分?jǐn)?shù)據(jù),但這一次分為75%的訓(xùn)練和25%的測(cè)試數(shù)據(jù)集。
?縮放數(shù)據(jù)以使所有要素達(dá)到相同的大小級(jí)別,這意味著要素/獨(dú)立數(shù)據(jù)將處于特定范圍內(nèi),例如0-100或0-1。
?創(chuàng)建一個(gè)函數(shù)以容納許多不同的模型(例如,邏輯回歸,決策樹(shù)分類(lèi)器,隨機(jī)森林分類(lèi)器)進(jìn)行分類(lèi)。這些模型將檢測(cè)患者是否患有癌癥。在此功能內(nèi),我還將在訓(xùn)練數(shù)據(jù)上打印每個(gè)模型的準(zhǔn)確性。
?
?
?
?
?創(chuàng)建包含所有模型的模型,并查看每個(gè)模型的訓(xùn)練數(shù)據(jù)上的準(zhǔn)確性得分,以對(duì)患者是否患有癌癥進(jìn)行分類(lèi)。

?
今天我要介紹目前開(kāi)源領(lǐng)域里最新的算法catboost。
catboost起源于俄羅斯搜索巨頭yandex,準(zhǔn)確率高,速度快,調(diào)參少,性?xún)r(jià)比高于xgboost
今天的CatBoost版本是第一個(gè)版本,以后將持續(xù)更新迭代。catboost三個(gè)特點(diǎn):(1)“減少過(guò)度擬合”:這可以幫助你在訓(xùn)練計(jì)劃中取得更好的成果。它基于一種構(gòu)建模型的專(zhuān)有算法,這種算法與標(biāo)準(zhǔn)的梯度提升方案不同。(2)“類(lèi)別特征支持”:這將改善你的訓(xùn)練結(jié)果,同時(shí)允許你使用非數(shù)字因素,“而不必預(yù)先處理數(shù)據(jù),或花費(fèi)時(shí)間和精力將其轉(zhuǎn)化為數(shù)字。”(3)支持Python或R的API接口來(lái)使用CatBoost,包括公式分析和訓(xùn)練可視化工具。(4)有很多機(jī)器學(xué)習(xí)庫(kù)的代碼質(zhì)量比較差,需要做大量的調(diào)優(yōu)工作,”他說(shuō),“而CatBoost只需少量調(diào)試,就可以實(shí)現(xiàn)良好的性能。這是一個(gè)關(guān)鍵性的區(qū)別

catboost建立乳腺癌分類(lèi)器代碼
大家可以看到catboost預(yù)測(cè)準(zhǔn)確率非常高,訓(xùn)練集100%,測(cè)試集97.7%

混淆矩陣
在測(cè)試數(shù)據(jù)上顯示混淆矩陣和模型的準(zhǔn)確性。該混淆矩陣告訴我們,每個(gè)模型有多少病人誤診(許多癌癥患者是被誤診為不具有癌癥又名假陰性,而誰(shuí)沒(méi)有癌癥患者被誤診為患有癌癥又名這個(gè)數(shù)字假陽(yáng)性)和正確診斷的數(shù)量,真陽(yáng)性和真陰性。
誤報(bào)(FP)?=測(cè)試結(jié)果錯(cuò)誤地指示存在特定條件或?qū)傩浴?/p>
真實(shí)陽(yáng)性(TP)?=靈敏度(在某些領(lǐng)域中也稱(chēng)為真實(shí)陽(yáng)性率或檢測(cè)概率)衡量正確鑒定出的真實(shí)陽(yáng)性的比例。
真實(shí)陰性(TN)?=特異性(也稱(chēng)為真實(shí)陰性率)衡量正確鑒定出的實(shí)際陰性的比例。
假陰性(FN)?=測(cè)試結(jié)果,表明某個(gè)條件不成立,而實(shí)際上卻成立。例如,測(cè)試結(jié)果表明某人實(shí)際患有癌癥時(shí)沒(méi)有罹患癌癥

?
?
?

?
其他獲取模型指標(biāo)的方法,以查看每個(gè)模型的性能如何。
?

模型預(yù)測(cè)
測(cè)試數(shù)據(jù)中1–6個(gè)性能指標(biāo)的模型樣本
?
從以上的準(zhǔn)確性和指標(biāo)來(lái)看,在測(cè)試數(shù)據(jù)上表現(xiàn)最佳的模型是隨機(jī)森林分類(lèi)器,其準(zhǔn)確性得分約為96.5%。因此,我將選擇該模型來(lái)檢測(cè)患者的癌細(xì)胞。對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)/分類(lèi),并顯示“隨機(jī)森林分類(lèi)器”模型分類(lèi)/預(yù)測(cè)以及顯示或不顯示他們患有癌癥的患者的實(shí)際值。
我注意到了該模型,該模型將一些患者誤診為沒(méi)有癌癥而誤診為癌癥,并且將確診為癌癥的患者誤診為未患癌癥。盡管此模型很好,但在處理他人的生活時(shí),我希望該模型更好,并使其準(zhǔn)確性盡可能接近100%,或者至少好于醫(yī)生。因此,有必要對(duì)每個(gè)模型進(jìn)行一些調(diào)整。

?
?
Anaconda+KNN+網(wǎng)格調(diào)參+交叉驗(yàn)證

?
模型調(diào)參
python機(jī)器學(xué)習(xí)-乳腺癌細(xì)胞挖掘詳細(xì)講解模型調(diào)參技巧。調(diào)參是一門(mén)黑箱技術(shù),需要經(jīng)驗(yàn)豐富的機(jī)器學(xué)習(xí)工程師才能做到。幸運(yùn)的是sklearn有調(diào)參的包,入門(mén)級(jí)學(xué)者也可嘗試調(diào)參。
如果參數(shù)不多,可以手動(dòng)寫(xiě)函數(shù)調(diào)參,如果參數(shù)太多可以用GridSearchCV調(diào)參,如果參數(shù)多的占用時(shí)間太長(zhǎng),可以用randomSizeCV調(diào)參,節(jié)約調(diào)參時(shí)間
?
GridSearchCV
如果參數(shù)太多可以用GridSearchCV調(diào)參

(1)單參數(shù)調(diào)參

?
(2)多參數(shù)調(diào)參
因?yàn)橛衝_neighbors和weights兩個(gè)參數(shù),因此誕生了60個(gè)結(jié)果
因?yàn)橛袃蓚€(gè)參數(shù),所以得到最佳模型:weight=distance,n_neighbor=12

?
?RandomSizeSearchCV
randomSizeCV調(diào)參類(lèi)似于GridSearchCV的抽樣
如果參數(shù)多的占用時(shí)間太長(zhǎng),可以用randomSizeCV調(diào)參,節(jié)約調(diào)參時(shí)間。
randomSizeCV調(diào)參準(zhǔn)確率會(huì)略低于GridSearchCV,但可以節(jié)約大量時(shí)間。


randomSizeCV調(diào)參代碼
?
?
?
?
?
? 本課程還講解了python的Rdkit包構(gòu)建化學(xué)分子的溶解度預(yù)測(cè)模型
?

講解RDKIT概述-RDKIT是一個(gè)開(kāi)源化學(xué)信息工具包

?強(qiáng)大的Rdikit,大家看看RDKIT對(duì)化學(xué)分子式完美操作。


?



?