最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

AI在生物學(xué)領(lǐng)域的突破,一定要看看這個(gè)系統(tǒng)

2023-07-22 21:01 作者:AI研習(xí)所  | 我要投稿

在沒(méi)有機(jī)器學(xué)習(xí)專(zhuān)業(yè)知識(shí)的情況下,有可能建立機(jī)器學(xué)習(xí)模型嗎?


麻省理工學(xué)院生物工程系Termeer醫(yī)學(xué)工程與科學(xué)教授、Abdul Latif Jameel健康機(jī)器學(xué)習(xí)診所(Jameel Clinic)生命科學(xué)系主任Jim Collins和許多同事在面臨類(lèi)似難題時(shí)決定解決這個(gè)問(wèn)題。6月21日,一篇名為BioAutoMATED的關(guān)于他們提出的解決方案的開(kāi)放獲取論文發(fā)表在《細(xì)胞系統(tǒng)》雜志上。


對(duì)于科學(xué)和工程實(shí)驗(yàn)室來(lái)說(shuō),招募機(jī)器學(xué)習(xí)研究人員可能是一個(gè)耗時(shí)且經(jīng)濟(jì)成本高昂的過(guò)程。即使有機(jī)器學(xué)習(xí)專(zhuān)家,選擇合適的模型,為模型格式化數(shù)據(jù)集,然后對(duì)其進(jìn)行微調(diào),也會(huì)極大地改變模型的性能,這需要大量的工作。


2022年谷歌關(guān)于機(jī)器學(xué)習(xí)基礎(chǔ)(ML)的課程問(wèn)道?!霸谀愕臋C(jī)器學(xué)習(xí)項(xiàng)目中,你通常會(huì)在數(shù)據(jù)準(zhǔn)備和轉(zhuǎn)換上花費(fèi)多少時(shí)間?”提供的兩個(gè)選項(xiàng)要么是“少于一半的項(xiàng)目時(shí)間”,要么是“超過(guò)一半項(xiàng)目時(shí)間”,而實(shí)際結(jié)果顯示多數(shù)選擇了后者。谷歌表示,格式化數(shù)據(jù)需要80%以上的項(xiàng)目時(shí)間,這甚至沒(méi)有考慮到用機(jī)器學(xué)習(xí)的術(shù)語(yǔ)來(lái)構(gòu)建問(wèn)題所需的時(shí)間。


柯林斯實(shí)驗(yàn)室生物工程博士杰奎琳·瓦萊里是該論文的第一位合著者,她說(shuō):“為我們的數(shù)據(jù)集找出合適的模型需要數(shù)周的努力,這對(duì)很多想使用機(jī)器學(xué)習(xí)或生物學(xué)的人來(lái)說(shuō)真的是一個(gè)令人望而卻步的步驟?!?/p>


BioAutoMATED是一個(gè)自動(dòng)化的機(jī)器學(xué)習(xí)系統(tǒng),可以為給定的數(shù)據(jù)集選擇和構(gòu)建合適的模型,甚至可以處理數(shù)據(jù)預(yù)處理的艱巨任務(wù),將長(zhǎng)達(dá)數(shù)月的過(guò)程縮短到幾個(gè)小時(shí)??罩赋?,自動(dòng)機(jī)器學(xué)習(xí)(AutoML)系統(tǒng)仍處于相對(duì)初級(jí)的發(fā)展階段,目前的使用主要集中在圖像和文本識(shí)別上,但在生物學(xué)子領(lǐng)域基本上沒(méi)有使用。


“生物學(xué)的基本語(yǔ)言是基于序列的,”在麻省理工學(xué)院機(jī)械工程系獲得博士學(xué)位的Soenksen解釋道?!癉NA、RNA、蛋白質(zhì)和聚糖等生物序列具有驚人的內(nèi)在標(biāo)準(zhǔn)化信息特性,就像字母表一樣。許多AutoML工具都是為文本開(kāi)發(fā)的,因此將其擴(kuò)展到[生物]序列是有意義的。”


此外,大多數(shù)AutoML工具只能探索和構(gòu)建簡(jiǎn)化類(lèi)型的模型??照f(shuō):“但你不可能從項(xiàng)目一開(kāi)始就真正知道哪種模型最適合你的數(shù)據(jù)集。通過(guò)將多個(gè)工具合并到一個(gè)傘形工具下,我們確實(shí)允許了比任何單個(gè)AutoML工具單獨(dú)實(shí)現(xiàn)的搜索空間都大得多的搜索空間?!?/p>


BioAutoMATED的監(jiān)督ML模型包括三種類(lèi)型:二元分類(lèi)模型(將數(shù)據(jù)分為兩類(lèi))、多類(lèi)分類(lèi)模型(把數(shù)據(jù)分為多類(lèi))和回歸模型(擬合連續(xù)數(shù)值或測(cè)量變量之間關(guān)鍵關(guān)系的強(qiáng)度)。BioAutoMATED甚至能夠幫助確定適當(dāng)訓(xùn)練所選模型需要多少數(shù)據(jù)。


奎琳說(shuō):“我們的工具探索了更適合更小、更稀疏的生物數(shù)據(jù)集以及更復(fù)雜的神經(jīng)網(wǎng)絡(luò)的模型。”這對(duì)擁有可能適合也可能不適合機(jī)器學(xué)習(xí)問(wèn)題的新數(shù)據(jù)的研究小組來(lái)說(shuō)是一個(gè)優(yōu)勢(shì)。


Soenksen解釋道:“在生物學(xué)和機(jī)器學(xué)習(xí)的交叉點(diǎn)進(jìn)行新穎而成功的實(shí)驗(yàn)可能會(huì)花費(fèi)大量資金。目前,以生物學(xué)為中心的實(shí)驗(yàn)室需要投資于重要的數(shù)字基礎(chǔ)設(shè)施和經(jīng)過(guò)AI-ML培訓(xùn)的人力資源,才能看到他們的想法是否會(huì)成功。”。我們希望降低生物學(xué)領(lǐng)域?qū)<业倪@些障礙?!?/p>


有了BioAutoMATED,研究人員可以自由地進(jìn)行初步實(shí)驗(yàn),以評(píng)估是否值得聘請(qǐng)機(jī)器學(xué)習(xí)專(zhuān)家來(lái)構(gòu)建不同的模型進(jìn)行進(jìn)一步的實(shí)驗(yàn)。


開(kāi)源代碼是公開(kāi)的,研究人員強(qiáng)調(diào),它很容易運(yùn)行。Soenksen說(shuō):“我們希望看到的是人們接受我們的代碼,改進(jìn)它,并與更大的社區(qū)合作,使其成為所有人的工具?!?。“我們希望為生物學(xué)研究界注入活力,并提高人們對(duì)AutoML技術(shù)的認(rèn)識(shí),這是一條非常有用的途徑,可以將嚴(yán)格的生物學(xué)實(shí)踐與快節(jié)奏的AI-ML實(shí)踐更好地融合在一起?!?/p>



AI在生物學(xué)領(lǐng)域的突破,一定要看看這個(gè)系統(tǒng)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
康乐县| 兴国县| 公安县| 会昌县| 富民县| 大同县| 阿拉尔市| 三门峡市| 新宁县| 池州市| 远安县| 日土县| 比如县| 岗巴县| 通江县| 云梦县| 秦皇岛市| 马关县| 曲靖市| 托里县| 涿州市| 南投市| 盖州市| 德格县| 岳池县| 隆回县| 潞西市| 汨罗市| 新化县| 太保市| 米林县| 石渠县| 自贡市| 松溪县| 和平区| 逊克县| 甘肃省| 鱼台县| 浑源县| 哈密市| 宜城市|