中國(guó)人工智能學(xué)會(huì)主辦!真實(shí)AIGC業(yè)務(wù)數(shù)據(jù)驅(qū)動(dòng),歡迎全球開發(fā)者參加
近期,由百度商業(yè)聯(lián)合中國(guó)人工智能學(xué)會(huì)舉辦、NVIDIA提供戰(zhàn)略支持,百度飛槳承辦的“百度商業(yè)AI技術(shù)創(chuàng)新大賽”正式啟動(dòng),啟動(dòng)會(huì)現(xiàn)場(chǎng),中國(guó)工程院院士、中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)、清華大學(xué)信息科學(xué)技術(shù)學(xué)院院長(zhǎng)戴瓊海院士通過視頻方式對(duì)大賽啟動(dòng)表示祝賀。

戴瓊海院士線上致辭中國(guó)人工智能學(xué)會(huì)副理事長(zhǎng)、清華大學(xué)教授孫富春代表中國(guó)人工智能學(xué)會(huì)表示,本次競(jìng)賽將為激發(fā)年輕人想象力和創(chuàng)新能力提供重要平臺(tái),推動(dòng)AIGC領(lǐng)域的人才培養(yǎng)。

孫富春教授祝賀大賽啟動(dòng)作為本次賽事的戰(zhàn)略合作伙伴NVIDIA,NVIDIA全球副總裁劉念寧表示,作為在AIGC領(lǐng)域從業(yè)的女性代表,希望能有更多女性投身到AIGC技術(shù)研究領(lǐng)域中,為國(guó)內(nèi)人工智能、科技浪潮推動(dòng)貢獻(xiàn)一份力量。

NVIDIA全球副總裁劉念寧現(xiàn)場(chǎng)寄語(yǔ)女性開發(fā)者本次大賽聚焦 “AIGC推理性能優(yōu)化”與“商業(yè)轉(zhuǎn)化行為預(yù)測(cè)兩大熱點(diǎn)議題,賽事面向全社會(huì)開放,重點(diǎn)聚焦高校人才。本次大賽設(shè)有豐厚的獎(jiǎng)金機(jī)制,獎(jiǎng)池共計(jì)63萬元(其中賽道一獎(jiǎng)池總計(jì)42萬元,賽道二獎(jiǎng)池總計(jì)21萬元),最高級(jí)別獎(jiǎng)金高達(dá)20萬元。同時(shí),針對(duì)表現(xiàn)優(yōu)異的高校參賽者,百度還將提供校招直通機(jī)會(huì),為職業(yè)發(fā)展奠定基礎(chǔ)。
參賽階段
本屆大賽分為區(qū)域賽、復(fù)賽、決賽三個(gè)階段,區(qū)域賽將由四大賽區(qū)獨(dú)立排名及頒獎(jiǎng),復(fù)賽及決賽將依據(jù)總排名進(jìn)行選拔和評(píng)比。
各賽段時(shí)間安排
區(qū)域賽:5月18日官網(wǎng)上線起-7月13日11:59:59
復(fù)賽:7月18日12:00:00-8月3日11:59:59
總決賽:8月14日、8月15日
賽題介紹:AIGC推理性能優(yōu)化
產(chǎn)業(yè)背景
百度商業(yè)引擎依托深厚的AIGC技術(shù)積累,通過落地ERNIE文心大模型,為客戶帶來了顯著的營(yíng)銷效果提升。在商業(yè)大模型的工業(yè)化部署實(shí)踐中,針對(duì)復(fù)雜生成模型的高性能推理優(yōu)化,對(duì)于保障客戶營(yíng)銷投放體驗(yàn)、控制算力成本至關(guān)重要。
賽題任務(wù)
本賽題提供了一個(gè)典型的ERNIE生成模型,參賽者可以基于該模型,通過各種優(yōu)化技術(shù),在百度飛槳AI Studio配置的NVIDIA V100 32G上實(shí)現(xiàn)最優(yōu)的模型推理性能。
數(shù)據(jù)集簡(jiǎn)介
訓(xùn)練數(shù)據(jù)集使用的是百度商業(yè)真實(shí)脫敏數(shù)據(jù)。其中,測(cè)試集數(shù)據(jù)約2000條左右,區(qū)域賽驗(yàn)證集1萬左右,復(fù)賽驗(yàn)證集5萬左右,驗(yàn)證集數(shù)據(jù)無summary字段。
測(cè)試集數(shù)據(jù)樣列
樣本輸入:每條樣本數(shù)據(jù)一行,其中數(shù)據(jù)格式為json主要分兩部分輸入內(nèi)容為content,答案為summary。
驗(yàn)證集數(shù)據(jù)樣列
樣本輸入:每條樣本數(shù)據(jù)一行,其中數(shù)據(jù)格式為json輸入內(nèi)容只有content。
評(píng)價(jià)指標(biāo)
模型效果:模型效果以效果指標(biāo)評(píng)估損失3%以內(nèi),可通過BLEU評(píng)估模型的效果指標(biāo)。
模型性能:測(cè)試集完成推理的耗時(shí)評(píng)估考慮真實(shí)應(yīng)用場(chǎng)景,本賽題對(duì)于離線推理GPU資源占用不能超過V100單卡32G限制,所有優(yōu)化都是基于單卡為基礎(chǔ)。
結(jié)果提交
目錄格式,環(huán)境會(huì)自動(dòng)準(zhǔn)備默認(rèn)的模型文件,如果使用標(biāo)準(zhǔn)模型,不需要上傳,路徑通過參數(shù)傳入run.sh。
具體執(zhí)行方式如下:
注:驗(yàn)證環(huán)境不能訪問外網(wǎng),不支持在線安裝軟件,所有依賴需要打包上傳編譯安裝。
報(bào)名鏈接
https://aistudio.baidu.com/aistudio/competition/detail/913/0/introduction
Baseline鏈接-基于PaddleNLP
https://aistudio.baidu.com/aistudio/projectdetail/598805454
賽題介紹:商業(yè)轉(zhuǎn)化行為預(yù)測(cè)
賽題任務(wù)
本次比賽提供了百度真實(shí)的廣告數(shù)據(jù)集,包含了海量的用戶行為數(shù)據(jù)和廣告特征。希望參賽者使用深度學(xué)習(xí)模型,建模轉(zhuǎn)化率預(yù)估模型。?給定用戶及廣告信息,預(yù)估轉(zhuǎn)化概率,即pcvr = p(cv=1 | user, ad)。
數(shù)據(jù)集
本次比賽提供N天廣告日志抽樣數(shù)據(jù):
訓(xùn)練集:前N-1天數(shù)據(jù),供參賽者訓(xùn)練/調(diào)試模型。
測(cè)試集:第N天數(shù)據(jù)。
?注:首次發(fā)布內(nèi)容包含初賽測(cè)試數(shù)據(jù)集,復(fù)賽測(cè)試數(shù)據(jù)集將在復(fù)賽階段發(fā)布。
評(píng)估指標(biāo)
最終排名綜合考慮auc及pcoc指標(biāo)。
結(jié)果提交
參賽選手需要提交一個(gè)命名為xxx.zip(eg : tests.zip)的壓縮包,且壓縮包包含一個(gè)txt文件:
其中test-1.txt中包含樣本的key及預(yù)估值,用逗號(hào)分割,每條樣本占用一行。eg:
報(bào)名鏈接
https://aistudio.baidu.com/aistudio/competition/detail/877/0/introduction
Baseline鏈接-基于PaddleRec
https://aistudio.baidu.com/aistudio/projectdetail/6120125
飛槳護(hù)航,助力選手參賽
大賽將以百度飛槳產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開源開放平臺(tái)為技術(shù)基座,為參賽者提供豐富的產(chǎn)業(yè)級(jí)模型庫(kù)與工具組件,進(jìn)一步降低AI技術(shù)應(yīng)用門檻。飛槳AI Studio將為大賽報(bào)名及訓(xùn)練提供關(guān)鍵平臺(tái),并提供免費(fèi)算力支持。