如何真正從0到1打一場數(shù)據(jù)挖掘賽事《入門版》
—— 貢獻者:牧小熊、駱秀韜

一、準備步驟
1.1 平臺注冊與比賽報名
賽事鏈接:
https://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-zmt01注冊(記得填寫個人信息)


3.? 點擊報名參賽,顯示成功報名


1.2 數(shù)據(jù)下載
數(shù)據(jù)獲取
官網(wǎng)下載數(shù)據(jù):下載數(shù)據(jù)及實名認證。
詳細操作可查看:https://xj15uxcopw.feishu.cn/docx/doxcn11gwo7cEuAXWhCrDld4Inb請把數(shù)據(jù)文件和代碼文件放在同一個文件夾下,保證正常運行
1.3 參考資料
python環(huán)境的搭建請參考:
Mac設備:Mac上安裝Anaconda最全教程 https://zhuanlan.zhihu.com/p/350828057
Windows設備:Anaconda超詳細安裝教程?https://blog.csdn.net/fan18317517352/article/details/123035625
二、實踐思路
本次比賽是一個數(shù)據(jù)挖掘賽,需要選手通過訓練集數(shù)據(jù)構(gòu)建模型,然后對驗證集數(shù)據(jù)進行預測,預測結(jié)果進行提交。
本題的任務是構(gòu)建一種模型,該模型能夠根據(jù)患者的測試數(shù)據(jù)來預測這個患者是否患有糖尿病。這種類型的任務是典型的二分類問題(患有糖尿病 / 不患有糖尿?。?,模型的預測輸出為 0 或 1 (患有糖尿?。?,未患有糖尿?。?)
機器學習中,關(guān)于分類任務我們一般會想到邏輯回歸、決策樹等算法,在這個 Baseline 中,我們嘗試使用決策樹來構(gòu)建我們的模型。我們在解決機器學習問題時,一般會遵循以下流程:

2.1 代碼實現(xiàn)
以下代碼,請在jupyter notbook或python編譯器環(huán)境中實現(xiàn)
2.2 結(jié)果提交
在提交結(jié)果處提交,提交 預測結(jié)果.csv(程序生成的CSV文件),查看自己的成績排名




點贊過100,更新《進階版》