最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

OpenBMB:讓大模型飛入千家萬戶

2022-10-20 17:47 作者:OpenBMB  | 我要投稿


讓大模型飛入千家萬戶

近年來,隨著預(yù)訓(xùn)練語言模型技術(shù)引發(fā)人工智能領(lǐng)域性能革命,大規(guī)模預(yù)訓(xùn)練模型技術(shù)的成熟標(biāo)志著?“大模型時(shí)代”?的到來。然而在大模型的具體應(yīng)用與落地中,卻存在著?“訓(xùn)練難、微調(diào)難、應(yīng)用難”?三大挑戰(zhàn)。為此,我們發(fā)起了 OpenBMB 開源社區(qū),旨在?打造大規(guī)模預(yù)訓(xùn)練語言模型庫與相關(guān)工具,加速百億級(jí)以上大模型的訓(xùn)練、微調(diào)與推理,降低大模型使用門檻,實(shí)現(xiàn)大模型的?標(biāo)準(zhǔn)化、普及化和實(shí)用化,讓大模型飛入千家萬戶。

OpenBMB 所有項(xiàng)目已在 GitHub 收獲了 3k+ star,為國內(nèi)開發(fā)者提供了良好的服務(wù)體驗(yàn),吸引了大批感興趣的開發(fā)者參與其中,總共有超過?1500 名感興趣人員加入了 OpenBMB 開源社區(qū)各大交流群。



從大數(shù)據(jù)到大模型

近年來人工智能和深度學(xué)習(xí)技術(shù)飛速發(fā)展,極大改變了我們的日常工作與生活。伴隨人類社會(huì)信息化產(chǎn)生海量數(shù)據(jù),人工智能技術(shù)能夠有效學(xué)習(xí)數(shù)據(jù)的分布與特征,對(duì)數(shù)據(jù)進(jìn)行深入分析并完成復(fù)雜智能任務(wù),產(chǎn)生巨大的經(jīng)濟(jì)與社會(huì)價(jià)值,人類社會(huì)步入了?“大數(shù)據(jù)時(shí)代”。

當(dāng)前人工智能算法的典型流程為:準(zhǔn)備數(shù)據(jù)、訓(xùn)練模型和部署模型。其挑戰(zhàn)在于,針對(duì)給定任務(wù)人工標(biāo)注訓(xùn)練數(shù)據(jù)費(fèi)時(shí)費(fèi)力,數(shù)據(jù)規(guī)模往往有限,需要承擔(dān)算法性能不達(dá)標(biāo)、模型泛化能力差等諸多風(fēng)險(xiǎn),導(dǎo)致人工智能面臨研發(fā)周期長、風(fēng)險(xiǎn)大、投入成本高的困局,阻礙了人工智能算法的落地與推廣。

2018 年預(yù)訓(xùn)練語言模型技術(shù)橫空出世,形成了?“預(yù)訓(xùn)練-微調(diào)”?的新研發(fā)范式,極大地改變了上述困局。在這個(gè)新范式下,我們可以非常容易地搜集大規(guī)模?無標(biāo)注?語料,采用自監(jiān)督學(xué)習(xí)技術(shù)?預(yù)訓(xùn)練?語言模型;然后可以利用特定下游任務(wù)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù),進(jìn)一步?微調(diào)?更新模型參數(shù),讓該模型掌握完成下游任務(wù)的能力。大量研究結(jié)果證明,預(yù)訓(xùn)練語言模型能夠在自然語言處理等領(lǐng)域的廣大下游任務(wù)上取得巨大的性能提升,并快速成長為人工智能生態(tài)中的基礎(chǔ)設(shè)施。

預(yù)訓(xùn)練 - 微調(diào)范式對(duì)比傳統(tǒng)范式


通過充分利用互聯(lián)網(wǎng)上近乎無窮的海量數(shù)據(jù),預(yù)訓(xùn)練模型正在引發(fā)一場人工智能的性能革命。研究表明,更大的參數(shù)規(guī)模為模型性能帶來質(zhì)的飛躍。對(duì)十億、百億乃至千億級(jí)超大模型的探索成為業(yè)界的熱門話題,引發(fā)國內(nèi)外著名互聯(lián)網(wǎng)企業(yè)和研究機(jī)構(gòu)的激烈競爭,將模型規(guī)模和性能不斷推向新的高度。除 Google、OpenAI?等國外知名機(jī)構(gòu)外,近年來國內(nèi)相關(guān)研究機(jī)構(gòu)與公司也異軍突起,形成了大模型的研究與應(yīng)用熱潮。圍繞大模型展開的"軍備競賽"日益白熱化,成為對(duì)海量數(shù)據(jù)、并行計(jì)算、模型學(xué)習(xí)和任務(wù)適配能力的全方位考驗(yàn),人工智能進(jìn)入?“大模型時(shí)代”。

國內(nèi)外知名機(jī)構(gòu)在大模型訓(xùn)練中持續(xù)投入

然而在“大模型時(shí)代”,因?yàn)榇竽P途薮蟮膮?shù)量和算力需求,在大范圍內(nèi)應(yīng)用大模型仍然存在著較大的挑戰(zhàn)。如何讓更多開發(fā)者方便享用大模型,如何讓更多企業(yè)廣泛應(yīng)用大模型,讓大模型不再“大”不可及,是實(shí)現(xiàn)大模型可持續(xù)發(fā)展的關(guān)鍵。與普通規(guī)模的深度學(xué)習(xí)模型相比,大模型訓(xùn)練與應(yīng)用需要重點(diǎn)突破三大挑戰(zhàn):

???訓(xùn)練難:訓(xùn)練數(shù)據(jù)量大,算力成本高。

???微調(diào)難:微調(diào)參數(shù)量大,微調(diào)時(shí)間長。

???應(yīng)用難:推理速度慢,響應(yīng)時(shí)間長,難以滿足線上業(yè)務(wù)需求。

為了讓大模型技術(shù)更好地普及應(yīng)用,針對(duì)這些挑戰(zhàn),我們成立了OpenBMB開源社區(qū)。


OpenBMB讓大模型飛入千家萬戶

OpenBMB全稱為Open Lab for Big Model Base,旨在打造大規(guī)模預(yù)訓(xùn)練語言模型庫與相關(guān)工具,加速百億級(jí)以上大模型的訓(xùn)練、微調(diào)與推理,降低大模型使用門檻,與國內(nèi)外開發(fā)者共同努力形成大模型開源社區(qū),推動(dòng)大模型生態(tài)發(fā)展,實(shí)現(xiàn)大模型的標(biāo)準(zhǔn)化、普及化實(shí)用化讓大模型飛入千家萬戶。



OpenBMB能力體系

謀定而動(dòng),OpenBMB將從?數(shù)據(jù)、工具、模型、協(xié)議?四個(gè)層面構(gòu)建?應(yīng)用便捷、能力全面、使用規(guī)范?的大規(guī)模預(yù)訓(xùn)練模型庫。

OpenBMB能力體系


???數(shù)據(jù)層?

構(gòu)建大規(guī)模數(shù)據(jù)?自動(dòng)收集、自動(dòng)清洗、高效存儲(chǔ)?模塊與相關(guān)工具,為大模型訓(xùn)練提供數(shù)據(jù)支持。


???工具層?

聚焦?模型訓(xùn)練、模型微調(diào)、模型推理、模型應(yīng)用?四個(gè)大模型主要場景,推出配套開源工具包,提升各環(huán)節(jié)效率,降低計(jì)算和人力成本。


???模型層?

構(gòu)建 OpenBMB 工具支持的開源大模型庫,包括 BERT、GPT、T5?等通用大模型和?CPM、EVA、GLM?等悟道開源大模型,并不斷完善添加新模型,形成覆蓋全面的模型能力。


???協(xié)議層

發(fā)布?通用模型許可協(xié)議,規(guī)范與保護(hù)大模型發(fā)布使用過程中發(fā)布者與使用者權(quán)利與義務(wù),目前協(xié)議初稿已經(jīng)開源(https://www.openbmb.org/license)。


大模型相關(guān)工具在OpenBMB能力體系中發(fā)揮著核心作用。OpenBMB?將努力建設(shè)?大模型開源社區(qū),團(tuán)結(jié)廣大開發(fā)者不斷完善大模型從訓(xùn)練、微調(diào)、推理到應(yīng)用的全流程配套工具?;诎l(fā)起人團(tuán)隊(duì)前期工作,OpenBMB 設(shè)計(jì)了大模型全流程研發(fā)框架,并初步開發(fā)了相關(guān)工具,這些工具各司其職、相互協(xié)作,共同實(shí)現(xiàn)大模型從訓(xùn)練、微調(diào)到推理的全流程高效計(jì)算。

- 圖 OpenBMB 工具架構(gòu)


OpenBMB工具

? ?模型訓(xùn)練套件

BMData:大模型“原料”收集器BMData進(jìn)行高質(zhì)量數(shù)據(jù)清洗、處理與存儲(chǔ),為大模型訓(xùn)練提供全面、綜合的數(shù)據(jù)支持。

BMTrain大模型訓(xùn)練“發(fā)動(dòng)機(jī)”BMTrain進(jìn)行高效的大模型預(yù)訓(xùn)練與微調(diào)。與DeepSpeed等框架相比,BMTrain訓(xùn)練模型成本可節(jié)省90%。

BMCook:大模型“瘦身”工具庫BMCook進(jìn)行大模型高效壓縮,提升運(yùn)行效率。通過量化、剪枝、蒸餾、專家化等算法組合,可保持原模型90%+效果,模型推理加速10倍。?? ?模型微調(diào)套件

OpenPrompt:大模型提示學(xué)習(xí)利器OpenPrompt提供統(tǒng)一接口的提示學(xué)習(xí)模版語言,2021年發(fā)布以來在GitHub獲得1.3k星標(biāo),每周訪問量10K+

OpenDelta:“小”參數(shù)撬動(dòng)“大”模型OpenDelta進(jìn)行參數(shù)高效的大模型微調(diào),僅更新極少參數(shù)(小于5%)即可達(dá)到全參數(shù)微調(diào)的效果。

Delta Center:“人人為我,我為人人” -?Delta Object分享中心Delta Center提供Delta?Object的上傳、分享、檢索、下載功能,鼓勵(lì)社區(qū)開發(fā)者共享大模型能力。?


? ?模型推理套件

BMInf:千元級(jí)顯卡玩轉(zhuǎn)大模型推理BMInf實(shí)現(xiàn)大模型低成本高效推理計(jì)算,使用單塊千元級(jí)顯卡(GTX 1060)即可進(jìn)行百億參數(shù)大模型推理。2021年發(fā)布以來在GitHub獲得200+星標(biāo)。

BMInf、OpenPrompt、OpenDelta?已于前期發(fā)布,并得到了開源社區(qū)用戶的廣泛關(guān)注與應(yīng)用。接下來,OpenBMB將發(fā)布?大模型訓(xùn)練 / 微調(diào)加速工具包 BMTrain、大模型后處理工具包 BMCook、大模型 Model Center,進(jìn)一步完善大模型高效計(jì)算的工具鏈。未來,OpenBMB將依托開源社區(qū)力量,與廣大開發(fā)者一道共同打磨和完善大模型相關(guān)工具,助力大模型應(yīng)用與落地。期待廣大開發(fā)者關(guān)注和貢獻(xiàn) OpenBMB!



發(fā)起團(tuán)隊(duì)介紹

OpenBMB開源社區(qū)由?清華大學(xué)自然語言處理實(shí)驗(yàn)室智源研究院語言大模型加速技術(shù)創(chuàng)新中心?共同支持發(fā)起。

發(fā)起團(tuán)隊(duì)擁有深厚的自然語言處理和預(yù)訓(xùn)練模型研究基礎(chǔ),曾最早提出知識(shí)指導(dǎo)的預(yù)訓(xùn)練模型?ERNIE?并發(fā)表在?自然語言處理頂級(jí)國際會(huì)議 ACL?2019?上,累計(jì)被引?超過 600 次,被學(xué)術(shù)界公認(rèn)為融合知識(shí)的預(yù)訓(xùn)練語言模型的代表方法,被美國國家醫(yī)學(xué)院院士團(tuán)隊(duì)用于研制醫(yī)學(xué)診斷領(lǐng)域的自動(dòng)問答系統(tǒng);團(tuán)隊(duì)依托智源研究院研發(fā)的?“悟道·文源”中文大規(guī)模預(yù)訓(xùn)練語言模型 CPM-1、CPM-2,參數(shù)量最高達(dá)到?1980 億,在眾多下游任務(wù)中取得優(yōu)異性能;團(tuán)隊(duì)近年來圍繞模型預(yù)訓(xùn)練、提示學(xué)習(xí)、模型壓縮技術(shù)等方面在頂級(jí)國際會(huì)議上發(fā)表了數(shù)十篇高水平論文,2022年面向生物醫(yī)學(xué)的預(yù)訓(xùn)練模型KV-PLM發(fā)表在著名綜合類期刊?Nature Communications?上,并入選該刊亮點(diǎn)推薦文章,相關(guān)論文列表詳見文末;團(tuán)隊(duì)還有豐富的自然語言處理技術(shù)的開源經(jīng)驗(yàn),發(fā)布了?OpenKE、OpenNRE、OpenNE?等一系列有世界影響力的工具包,在GitHub上累計(jì)獲得超過?5.8?萬星標(biāo),位列?全球機(jī)構(gòu)第 148 位,曾獲?教育部自然科學(xué)一等獎(jiǎng)、中國中文信息學(xué)會(huì)錢偉長中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)?等成果獎(jiǎng)勵(lì)。發(fā)起團(tuán)隊(duì)面向OpenBMB開源社區(qū)研制發(fā)布的?BMInf、OpenPrompt?等工具包已陸續(xù)發(fā)表在自然語言處理頂級(jí)國際會(huì)議?ACL 2022?上。



結(jié)語

無論你正在從事大模型研究,研發(fā)大模型應(yīng)用,還是對(duì)大模型技術(shù)充滿興趣,歡迎使用OpenBMB開源工具和模型庫,你的每一份意見和建議,都為我們指明前進(jìn)的方向。

在OpenBMB開源社區(qū),我們?推崇簡潔,追求極致,相信數(shù)據(jù)與模型的力量。歡迎志同道合的你加入,共同為大模型應(yīng)用落地添磚加瓦,早日?讓大模型飛入千家萬戶 !



關(guān)注我們

微信搜索關(guān)注?OpenBMB開源社區(qū)”

獲取更多大模型干貨知識(shí)和前沿資訊!


??傳送門|相關(guān)鏈接

????官方網(wǎng)站:https://www.openbmb.org

????GitHub:https://github.com/OpenBMB

????交流QQ群:735930538

????啟智社區(qū)https://git.openi.org.cn/OpenBMB

????微博http://weibo.cn/OpenBMB

????知乎:https://www.zhihu.com/people/OpenBMB

????Twitter:https://twitter.com/OpenBMB



OpenBMB:讓大模型飛入千家萬戶的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
绥化市| 海城市| 海口市| 康平县| 博客| 额尔古纳市| 镇江市| 辉南县| 郓城县| 当雄县| 平果县| 夏邑县| 外汇| 定州市| 武夷山市| 黔江区| 巩留县| 惠安县| 平原县| 浮山县| 华蓥市| 越西县| 永福县| 祁门县| 昭通市| 万年县| 舟曲县| 峨眉山市| 赤壁市| 广饶县| 五河县| 隆林| 凤凰县| 泰州市| 沈丘县| 白山市| 安仁县| 高雄县| 潜山县| 绥宁县| 江油市|