業(yè)余開源項目訓(xùn)練出最準確新冠預(yù)測機器學(xué)習(xí)模型

什么樣的機器學(xué)習(xí)項目會被美國疾控中心CDC、紐約時報、經(jīng)濟學(xué)人雜志等多家機構(gòu)和媒體所引用提及,還被Facebook的Chief AI Executor稱為最準確的新冠死亡預(yù)測模型?這就是今天要給大家分享的covid-projection——一個來自一名普通美國華裔數(shù)據(jù)科學(xué)家的的業(yè)余開源機器學(xué)習(xí)項目。
covid-projection的作者Gu Yougang在中國出生,兒時隨父母移民美國,2015年才從MIT畢業(yè)。他本科取得了電氣工程與計算機科學(xué)專業(yè)和數(shù)學(xué)專業(yè)的雙學(xué)位,碩士則在MIT人工智能實驗室的自然語言處理組完成了他的畢業(yè)論文。他在疫情期間萌生了對于新冠疫情預(yù)測的興趣,于是在業(yè)余時間結(jié)合自己的專業(yè)所長發(fā)起了這個開源項目。在2020年四月到2021年3月的短短一年時間里,該項目實現(xiàn)了對全美五十個州以及全球70個國家的新冠疫情預(yù)測,其模型精確度甚至超過華盛頓大學(xué)健康指標與評估研究所(Institute for Health Metrics and Evaluation)這樣專業(yè)科研機構(gòu)的相關(guān)工作,因此受到了美國及全球近百家媒體和機構(gòu)的關(guān)注及報道。
covid-projection構(gòu)建模型的方法非常樸素,首先它實現(xiàn)了一個基于SEIR傳染病模型的模擬器,然后引入機器學(xué)習(xí)算法及約翰霍普金斯大學(xué)等醫(yī)療機構(gòu)發(fā)布的新冠歷史數(shù)據(jù)來對其進行優(yōu)化。優(yōu)化的過程與機器學(xué)習(xí)中的hyperparameter tuning非常相似,是利用機器學(xué)習(xí)或搜索算法來自主的選擇模擬器的參數(shù)組合,然后將這些參數(shù)代入模擬器產(chǎn)生一定時間內(nèi)的模擬數(shù)據(jù)。再通過將模擬數(shù)據(jù)與真實的歷史數(shù)據(jù)進行比較,就可以確定下一次迭代的參數(shù)組合調(diào)優(yōu)方向。經(jīng)過多輪的訓(xùn)練,最后得到的SEIR模擬器就可以被用來產(chǎn)生未來一段時間內(nèi)的新冠趨勢模擬數(shù)據(jù),以此實現(xiàn)預(yù)測的目的。
SEIR是傳染病的基本數(shù)學(xué)模型之一。S取自Susceptible,指的是還沒有陽過的易感人群;E取自Exposed,就是我們常說的密接、次密接人群;I取自Infectious,指新冠感染者;最后的R取自 Recovered,即陽過的康復(fù)者。經(jīng)歷過新冠疫情的我們對于這些流行病學(xué)術(shù)語一定不會陌生,SEIR也其實就是用來描述這四類人群相互之間轉(zhuǎn)換的路徑和概率的數(shù)學(xué)模型。covid-projection的模擬器就是這一模型的計算機程序?qū)崿F(xiàn)。
當(dāng)我第一次看到covid-projection這個項目的時候,真的是感覺眼前一亮,有被驚艷到的感覺。新冠是一場影響到全人類、波及到全世界的大型傳染病,他對人類文化進程的影響可能不會亞于中世紀的黑死病。在我們的印象中,新冠這樣的大型公共衛(wèi)生事件所涉及的研究工作,似乎只能夠由國家或者大型的科研機構(gòu)來主導(dǎo)。但covid-projection的作者卻既不是資深的學(xué)者,也不是行業(yè)的大牛,只是一位充滿熱情和公益精神的年輕數(shù)據(jù)科學(xué)家。
技術(shù)在改變和影響我們當(dāng)下生活的過程中確實扮演著重要的角色,但同樣重要的還有在生活中發(fā)現(xiàn)真正問題的能力,這是我自己在過去的學(xué)生生涯中非常缺失的一點,這也正是我從covid-projection的作者身上看到的閃光之處。即使它所解決的問題隨著疫情的結(jié)束而不再那么重要,即使這個項目在GitHub上最終僅僅收獲了300多個贊賞,但它同OpenAI這樣的大型知名項目體現(xiàn)了一樣的創(chuàng)新精神,從某些角度來說甚至更加的難能可貴。
牛頓在1664年回鄉(xiāng)躲避席卷歐洲的第二次鼠疫大流行,其在蘋果樹下的思考發(fā)現(xiàn)了萬有有力定律。covid-projection的作者Gu Yougang在2020年的新冠大流行中與醫(yī)學(xué)結(jié)緣,如今還在世界衛(wèi)生組織擔(dān)任著咨詢顧問的志愿工作。相信我們每個人都能夠在每一天里找到那個利用自己的專業(yè)知識改變自己人生軌跡的契機。
什么樣的機器學(xué)習(xí)項目會被美國疾控中心CDC、紐約時報、經(jīng)濟學(xué)人雜志等多家機構(gòu)和媒體所引用提及,還被Facebook的首席人工智能執(zhí)行官稱為最準確的新冠死亡預(yù)測模型?這就是今天要給大家分享的covid-projection——一個來自一名普通美國華裔數(shù)據(jù)科學(xué)家的的業(yè)余開源機器學(xué)習(xí)項目。
covid-projection的作者Gu Yougang在中國出生,兒時隨父母移民美國,2015年才從MIT畢業(yè)。他本科取得了電氣工程與計算機科學(xué)專業(yè)和數(shù)學(xué)專業(yè)的雙學(xué)位,碩士則在MIT人工智能實驗室的自然語言處理組完成了他的畢業(yè)論文。他在疫情期間萌生了對于新冠疫情預(yù)測的興趣,于是在業(yè)余時間利用自己的專業(yè)所長發(fā)起了這個開源項目。在2020年四月到2021年3月的短短一年時間里,該項目實現(xiàn)了對全美五十個州以及全球70個國家的新冠疫情預(yù)測,其模型的精確度甚至超過了華盛頓大學(xué)健康指標與評估研究所(Institute for Health Metrics and Evaluation)這樣專業(yè)科研機構(gòu)的相關(guān)工作,因此受到了美國及全球近百家媒體和機構(gòu)的關(guān)注及報道。
covid-projection構(gòu)建模型的方法非常樸素,首先它實現(xiàn)了一個基于SEIR傳染病模型的模擬器,然后引入機器學(xué)習(xí)算法及約翰霍普金斯大學(xué)等醫(yī)療機構(gòu)發(fā)布的新冠歷史數(shù)據(jù)來對其進行優(yōu)化。這個優(yōu)化的過程與機器學(xué)習(xí)中的hyperparameter tuning非常相似,是利用機器學(xué)習(xí)或搜索算法來自主的選擇模擬器的參數(shù)組合,然后將這些參數(shù)代入模擬器產(chǎn)生一定時間內(nèi)的模擬數(shù)據(jù)。再通過將模擬數(shù)據(jù)與真實的歷史數(shù)據(jù)進行比較,就可以確定下一次迭代的參數(shù)組合調(diào)優(yōu)方向。經(jīng)過多輪的訓(xùn)練,最后得到的SEIR模擬器就可以被用來產(chǎn)生未來一段時間內(nèi)的新冠趨勢模擬數(shù)據(jù),以此實現(xiàn)預(yù)測的目的。
這里提到的SEIR,是傳染病的基本數(shù)學(xué)模型之一。S取自Susceptible,指的是還沒有陽過的易感人群;E取自Exposed,就是我們常說的密接、次密接人群;I取自Infectious,指新冠感染者;最后的R取自 Recovered,即陽過的康復(fù)者。經(jīng)歷過新冠疫情的我們對于這些流行病學(xué)術(shù)語一定不會陌生,SEIR也其實就是用來描述這四類人群相互之間轉(zhuǎn)換的路徑和概率的數(shù)學(xué)模型。covid-projection的模擬器就是這一模型的計算機程序?qū)崿F(xiàn)。
當(dāng)我第一次看到covid-projection這個項目的時候,真的是感覺眼前一亮,有被驚艷到的感覺。新冠是一場影響到全人類、波及到全世界的大型傳染病,他對人類文化進程的影響可能不會亞于中世紀的黑死病。在我們的印象中,新冠這樣的大型公共衛(wèi)生事件所涉及的研究工作,似乎也只能夠由國家或者大型的科研機構(gòu)來主導(dǎo)。但covid-projection的作者卻既不是資深的學(xué)者,也不是行業(yè)的大牛,只是一位充滿熱情和公益精神的、剛從學(xué)校畢業(yè)不久的年輕數(shù)據(jù)科學(xué)家。
技術(shù)在改變和影響我們當(dāng)下生活的過程中確實扮演著重要的角色,但同樣重要的還有在生活中發(fā)現(xiàn)真正問題的能力,這也正是我從covid-projection的作者身上看到的閃光之處。即使它所解決的問題隨著疫情的結(jié)束而不再那么重要,即使這個項目在GitHub上最終僅僅收獲了300多個贊賞,但它同OpenAI這樣的大型知名項目體現(xiàn)了一樣的創(chuàng)新精神和實踐精神,從某些角度來說甚至更加的難能可貴。
牛頓在1664年回鄉(xiāng)躲避席卷歐洲的第二次鼠疫大流行,他在蘋果樹下的思考發(fā)現(xiàn)了萬有引力定律。covid-projection的作者Gu, Yougang在2020年的新冠大流行中與醫(yī)學(xué)結(jié)緣,如今還在世界衛(wèi)生組織擔(dān)任著咨詢顧問的志愿工作。相信我們每個人都能夠在每一天里找到那個利用自己的專業(yè)知識改變自己人生軌跡的契機。

可交互的可視化機器學(xué)習(xí)開源教程 - https://github.com/ocademy-ai/machine-learning