Datawhale 三月組隊(duì)學(xué)習(xí)計(jì)劃

這次一共打算組織14個組隊(duì)學(xué)習(xí),涵蓋了AI領(lǐng)域從理論知識到動手實(shí)踐的內(nèi)容,難度系數(shù)分為低、中、高檔,可以按照需要參加哦
組隊(duì)學(xué)習(xí)信息
1 /Python基礎(chǔ)
課程設(shè)計(jì):馬晶敏,葉梁、許輝
組隊(duì)學(xué)習(xí)說明:學(xué)習(xí)Python基礎(chǔ)知識,針對Python小白的學(xué)習(xí)之路
任務(wù)路線:基礎(chǔ)知識-函數(shù)-第三方模塊-類和對象-基礎(chǔ)爬蟲
組隊(duì)學(xué)習(xí)周期:10天
定位人群:Python小白,難度系數(shù)低
每個任務(wù)完成大概所需時間:每天平均花費(fèi)時間2小時-4小時不等,根據(jù)個人學(xué)習(xí)接受能力強(qiáng)弱有所浮動
任務(wù)預(yù)覽(2天)
1、環(huán)境搭建
2、Python初體驗(yàn)
3、Python基礎(chǔ)
如:變量特性+命名規(guī)則、注釋方法、“:”作用、學(xué)會使用dir( )及和help( )、import使用、pep8介紹
4、Python數(shù)值基本知識
如:Python中數(shù)值類型,int,float,bool,e記法等、算數(shù)運(yùn)算符、邏輯運(yùn)算符、成員運(yùn)算符、身份運(yùn)算符、運(yùn)算符優(yōu)先級
2 /數(shù)據(jù)分析
課程設(shè)計(jì):金娟娟
組隊(duì)學(xué)習(xí)說明:學(xué)習(xí)python for data analysis基礎(chǔ)知識
任務(wù)路線:python基礎(chǔ)-重要的python庫(numpy/pandas/matplotlib/seaborn等)-數(shù)據(jù)清洗和分析
組隊(duì)學(xué)習(xí)周期:15天定位人群:數(shù)據(jù)分析小白,難度系數(shù)低
每個任務(wù)完成大概所需時間:每天平均花費(fèi)時間2小時-4小時不等,根據(jù)個人學(xué)習(xí)接受能力強(qiáng)弱有所浮動
任務(wù)預(yù)覽(2天)
完成《利用python進(jìn)行數(shù)據(jù)分析》書上1-2章的學(xué)習(xí),代碼實(shí)現(xiàn)的過程用上傳到GitHub
3 /初級算法梳理
課程設(shè)計(jì):蘇靜、康兵兵
組隊(duì)學(xué)習(xí)說明:通過查閱書籍或參考文獻(xiàn)、學(xué)習(xí)視頻等,對傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行梳理
任務(wù)路線:線性回歸--->邏輯回歸--->決策樹
組隊(duì)學(xué)習(xí)周期:7天
定位人群:有概率論、矩陣運(yùn)算、求導(dǎo)、泰勒展開等基礎(chǔ)數(shù)學(xué)知識;難度系數(shù)低
每個任務(wù)完成大概所需時間:2-3h
任務(wù)預(yù)覽(2天)
1. 機(jī)器學(xué)習(xí)的一些概念
有監(jiān)督、無監(jiān)督、泛化能力、過擬合欠擬合(方差和偏差以及各自解決辦法)、交叉驗(yàn)證
2. 線性回歸的原理
3. 線性回歸損失函數(shù)、代價函數(shù)、目標(biāo)函數(shù)
4. 優(yōu)化方法(梯度下降法、牛頓法、擬牛頓法等)
5、線性回歸的評估指標(biāo)
6、sklearn參數(shù)詳解
學(xué)習(xí)時長:兩天
參考:西瓜書
cs229吳恩達(dá)機(jī)器學(xué)習(xí)課程
李航統(tǒng)計(jì)學(xué)習(xí)
谷歌搜索
4 /MySQL
課程設(shè)計(jì):楊皓博 孫濤 楊煜
組隊(duì)學(xué)習(xí)說明:一周內(nèi)快速了解并掌握MySQL的主要內(nèi)容。通過大量SQL語句的實(shí)戰(zhàn)練習(xí),可以在簡歷上寫熟練掌握MySQL。(注意:本課程只關(guān)注SQL查詢語句本身,對數(shù)據(jù)庫的涉及較少。)
任務(wù)路線: MySQL軟件安裝及數(shù)據(jù)庫基礎(chǔ)->查詢語句->表操作->表聯(lián)結(jié)->MySQL 實(shí)戰(zhàn)->MySQL 實(shí)戰(zhàn)-復(fù)雜項(xiàng)目
組隊(duì)學(xué)習(xí)周期:(7天)
定位人群:小白,難度系數(shù)低
每個任務(wù)完成大概所需時間:2-3h
任務(wù)預(yù)覽(2天)
任務(wù)預(yù)覽(3天)
軟件安裝及服務(wù)器設(shè)置。
數(shù)據(jù)庫基礎(chǔ)知識
MySQL數(shù)據(jù)庫管理系統(tǒng)
SQL是什么?MySQL是什么?
查詢語句 SELECT FROM
篩選語句 WHERE
分組語句 GROUP BY
排序語句 ORDER BY
SQL注釋
SQL代碼規(guī)范
5 /統(tǒng)計(jì)學(xué)
課程設(shè)計(jì):王佳鑫、許輝
組隊(duì)學(xué)習(xí)說明:學(xué)習(xí)內(nèi)容涵蓋統(tǒng)計(jì)學(xué)中所有的主要知識,并對其分部分進(jìn)行梳理總結(jié)。
任務(wù)路線:根據(jù)所學(xué)習(xí)內(nèi)容進(jìn)行(1)統(tǒng)計(jì)學(xué)基本知識、二項(xiàng)及泊松分布、大數(shù)定律、正態(tài)分布等內(nèi)容的總結(jié)進(jìn)行整體的回顧、梳理與完善;(2)中心極限定理、置信區(qū)間、 假設(shè)檢驗(yàn)等內(nèi)容的總結(jié)進(jìn)行整體的回顧、梳理與完善。
組隊(duì)學(xué)習(xí)周期:7天
定位人群:微積分、基本概率知識儲備,難度系數(shù)中
每個任務(wù)完成大概所需時間:2-3h
任務(wù)預(yù)覽(2天)
學(xué)習(xí)內(nèi)容 1:統(tǒng)計(jì)學(xué)基本知識、二項(xiàng)及泊松分布
學(xué)習(xí)內(nèi)容 2: 大數(shù)定律、正態(tài)分布
6 /LeetCode
課程設(shè)計(jì):老表、于鴻飛、楊皓博
組隊(duì)學(xué)習(xí)說明:LeetCode刷題組隊(duì)學(xué)習(xí),從零開始每周10道算法題,在良好的學(xué)習(xí)氛圍下,培養(yǎng)刷題習(xí)慣,學(xué)習(xí)算法思想。(不限制編程語言)
任務(wù)路線:按照LeetCode默認(rèn)題目順序每周10道題。
組隊(duì)學(xué)習(xí)周期:7天
定位人群:適合有一門語言基礎(chǔ)的同學(xué),難度系數(shù)中
每個任務(wù)完成大概所需時間:2-3h
課程內(nèi)容:選取leetcode上面的10道題
7 /知乎小組
課程設(shè)計(jì):小堯、黑桃、李嚴(yán)
組隊(duì)學(xué)習(xí)說明:到知乎回答問題,鞏固自身所學(xué)的知識,鍛煉寫作輸出和表達(dá)能力,提升個人影響力,小組以“寫出自己的最佳回答”為總目標(biāo)
任務(wù)路線:自己選擇較為熟悉領(lǐng)域的相關(guān)1個問題,寫出優(yōu)質(zhì)答案,并互相點(diǎn)評
組隊(duì)學(xué)習(xí)周期:7天
定位人群:比較熟悉AI某領(lǐng)域,難度系數(shù)中,對輸出能力有要求
3個任務(wù)完成所需時間:6-8h
在知乎上選擇一道AI相關(guān)的題,回答并優(yōu)化
8 /爬蟲
課程設(shè)計(jì):光城、李方
組隊(duì)學(xué)習(xí)說明:
從零基礎(chǔ)到能獨(dú)立完成一個簡易的爬蟲項(xiàng)目
任務(wù)路線:請求→re庫→BeautifulSoup庫→lxml庫→selenium庫→IP問題→實(shí)戰(zhàn)小項(xiàng)目
組隊(duì)學(xué)習(xí)周期:7天
定位人群:有Python基礎(chǔ)。難度系數(shù)中
每個任務(wù)完成大概所需時間:2-3h/天
任務(wù)預(yù)覽(2天)
1、學(xué)習(xí)get與post請求,嘗試使用requests或者是urllib用get方法向?https://www.baidu.com/?發(fā)出一個請求,并將其返回結(jié)果輸出。
2、如果是斷開了網(wǎng)絡(luò),再發(fā)出申請,結(jié)果又是什么。了解申請返回的狀態(tài)碼。
3、了解什么是請求頭,如何添加請求頭。
4、學(xué)習(xí)什么是正則表達(dá)式并嘗試一些正則表達(dá)式并進(jìn)行匹配。
然后結(jié)合requests、re兩者的內(nèi)容爬取?https://movie.douban.com/top250?里的內(nèi)容。
9 /高級算法梳理
課程設(shè)計(jì):黑桃,劉廣月,于鴻飛
組隊(duì)學(xué)習(xí)說明:通過查閱相關(guān)文獻(xiàn),對機(jī)器學(xué)習(xí)算法進(jìn)行梳理
任務(wù)路線:RF--->GBDT--->XGB
組隊(duì)學(xué)習(xí)周期:7天
定位人群:有概率論、矩陣運(yùn)算、求導(dǎo)、泰勒展開等基礎(chǔ)數(shù)學(xué)知識;難度系數(shù)中
每個任務(wù)完成大概所需時間:2-3h
任務(wù)預(yù)覽(2天)
【參考框架】歡迎有自己的框架
1. 集成學(xué)習(xí)概念
2. 個體學(xué)習(xí)器概念
3. boosting bagging
4. 結(jié)合策略(平均法,投票法,學(xué)習(xí)法)
5. 隨機(jī)森林思想
6. 隨機(jī)森林的推廣
7. 優(yōu)缺點(diǎn)
8. sklearn參數(shù)
9.應(yīng)用場景
10 /數(shù)據(jù)挖掘項(xiàng)目
課程設(shè)計(jì):范晶晶、李碧涵、
組隊(duì)學(xué)習(xí)說明:應(yīng)用機(jī)器學(xué)習(xí)算法,完整地走完一個數(shù)據(jù)挖掘項(xiàng)目流程
任務(wù)路線:數(shù)據(jù)分析→特征工程→模型構(gòu)建→模型評估→模型調(diào)優(yōu)→模型融合
組隊(duì)學(xué)習(xí)周期:12天
定位人群:有Python基礎(chǔ),sklearn基礎(chǔ)。難度系數(shù)中
每個任務(wù)完成大概所需時間:2-3h/天
任務(wù)預(yù)覽(2天)
要求:數(shù)據(jù)切分方式 - 三七分,其中測試集30%,訓(xùn)練集70%,隨機(jī)種子設(shè)置為2018
任務(wù)1:對數(shù)據(jù)進(jìn)行探索和分析。時間:2天
數(shù)據(jù)類型的分析
無關(guān)特征刪除
數(shù)據(jù)類型轉(zhuǎn)換
缺失值處理
……以及你能想到和借鑒的數(shù)據(jù)分析處理
11 /數(shù)據(jù)競賽 - 達(dá)觀杯
課程設(shè)計(jì):胡穩(wěn) 李振強(qiáng) 居居
組隊(duì)學(xué)習(xí)說明:12天的時間實(shí)現(xiàn)數(shù)據(jù)預(yù)處理(TF-IDF與word2vec)、模型實(shí)踐(樸素貝葉斯、SVM與LightGBM)以及模型優(yōu)化的整套流程,一起完成一次NLP類型的比賽。
任務(wù)路線:數(shù)據(jù)初識->數(shù)據(jù)處理->模型實(shí)踐->模型優(yōu)化
組隊(duì)學(xué)習(xí)周期:12天
定位人群:能夠熟練使用python,難度系數(shù)中
每個任務(wù)完成大概所需時間:2-3h
任務(wù)預(yù)覽(2天)
1、下載數(shù)據(jù),讀取數(shù)據(jù),觀察數(shù)據(jù)
(提取5000條數(shù)據(jù)進(jìn)行實(shí)踐)
2、將訓(xùn)練集拆分為訓(xùn)練集和驗(yàn)證集
分享自己對數(shù)據(jù)以及賽題的理解和發(fā)現(xiàn);
12 /PyTorch基礎(chǔ)
課程設(shè)計(jì):許輝 李奇峰
組隊(duì)學(xué)習(xí)說明:通過學(xué)習(xí)pytorch的基本操作,最終完成手寫數(shù)字的識別
任務(wù)路線:安裝pytorch->設(shè)立圖并計(jì)算->實(shí)現(xiàn)邏輯回歸->構(gòu)建多層神經(jīng)網(wǎng)絡(luò)->PyTorch實(shí)現(xiàn)L1,L2正則化以及Dropout->書寫優(yōu)化器代碼->用PyTorch完成手寫數(shù)字識別
學(xué)習(xí)周期:7天
定位人群:熟悉python的基礎(chǔ)用法,難度系數(shù)中
任務(wù)完成所需時間:2-3h/天
任務(wù)預(yù)覽(2天)
什么是Pytorch,為什么選擇Pytroch?
Pytroch的安裝
配置Python環(huán)境
準(zhǔn)備Python管理器
通過命令行安裝PyTorch
PyTorch基礎(chǔ)概念
通用代碼實(shí)現(xiàn)流程
設(shè)立計(jì)算圖并自動計(jì)算
閱讀梯度下降代碼并書寫體會
寫一個簡單的神經(jīng)網(wǎng)絡(luò)
13 /深度學(xué)習(xí)-nlp
課程設(shè)計(jì):jepson
組隊(duì)學(xué)習(xí)說明:學(xué)習(xí)自然語言處理理論,并且通過對某些數(shù)據(jù)集的文本分類任務(wù)不斷優(yōu)化來進(jìn)行實(shí)踐。
任務(wù)路線:特征提取—>特征選擇—>文本表示—>傳統(tǒng)機(jī)器學(xué)習(xí)算法跑模型—>LDA生成新特征—>深度學(xué)習(xí)算法跑模型
定位人群:有Python基礎(chǔ),基本框架的基礎(chǔ)(例如TensorFlow、Keras和pyTorch等)!難度系數(shù)高
組隊(duì)學(xué)習(xí)周期:18天
每個任務(wù)完成大概所需時間:3-4h
任務(wù)預(yù)覽(2天)
1、IMDB數(shù)據(jù)集下載和探索(參考TensorFlow官方教程)
2、THUCNews數(shù)據(jù)集下載和探索(參考博客中的數(shù)據(jù)集部分和預(yù)處理部分)
3、學(xué)習(xí)召回率、準(zhǔn)確率、ROC曲線、AUC、PR曲線這些基本概念
14 /編程
課程設(shè)計(jì):光城 、LeoLRH
組隊(duì)學(xué)習(xí)說明:利用自己所熟知的編程語言,具有一定基礎(chǔ),討論在面試中可能出現(xiàn)的數(shù)據(jù)結(jié)構(gòu)問題,一起學(xué)習(xí)重溫經(jīng)典數(shù)據(jù)結(jié)構(gòu)
任務(wù)路線:數(shù)組->鏈表->棧->隊(duì)列->遞歸->排序->二分查找->哈希表->字符串->二叉樹->堆->圖->回溯->分治->動態(tài)規(guī)劃
組隊(duì)學(xué)習(xí)周期:14天甚至往上大概16天左右(周末進(jìn)行整體整理討論)(每天任務(wù)時間具體看任務(wù)情況)
定位人群:有一門語言基礎(chǔ)和算法基礎(chǔ)的同學(xué),難度系數(shù)高,小白慎入?。?!
每個任務(wù)完成大概所需時間:平均每天學(xué)習(xí)時間在1個小時左右,晚上統(tǒng)一,半個小時進(jìn)行集體討論總結(jié)打卡。
任務(wù)預(yù)覽(2天)
【數(shù)組】
實(shí)現(xiàn)一個支持動態(tài)擴(kuò)容的數(shù)組
實(shí)現(xiàn)一個大小固定的有序數(shù)組,支持動態(tài)增刪改操作
實(shí)現(xiàn)兩個有序數(shù)組合并為一個有序數(shù)組
學(xué)習(xí)哈希表思想,并完成leetcode上的兩數(shù)之和(1)及Happy Number(202)!(要求全部用哈希思想實(shí)現(xiàn)!)(選做)(注意:在第四天會進(jìn)行繼續(xù)學(xué)習(xí))
練習(xí):
Three Sum(求三數(shù)之和)
Majority Element(求眾數(shù))
Missing Positive(求缺失的第一個正數(shù))
【鏈表】
實(shí)現(xiàn)單鏈表、循環(huán)鏈表、雙向鏈表,支持增刪操作
實(shí)現(xiàn)單鏈表反轉(zhuǎn)
實(shí)現(xiàn)兩個有序的鏈表合并為一個有序鏈表
實(shí)現(xiàn)求鏈表的中間結(jié)點(diǎn)
練習(xí):
Linked List Cycle I(環(huán)形鏈表)
Merge k Sorted Lists(合并 k 個排序鏈表)
報名意向
我們會根據(jù)學(xué)習(xí)需求對Datawhale團(tuán)隊(duì)進(jìn)行分工安排,不作為最終選擇。
在這里投票:https://mp.weixin.qq.com/s/35v6Dl2jvrguDRG7eoY0cg
參與方式

圖片: 伊小雪
排版: 無 多 李 方