王卓然AI 大模型全棧工程師培養(yǎng)計(jì)劃
一是中文友好的代碼生成。目前諸多大模型的預(yù)訓(xùn)練語料數(shù)據(jù)都是以英文為主,中文語料占比僅為 3% 至 5%。在 IDE 中采用對話式交互時(shí),中文的表現(xiàn)要遠(yuǎn)遠(yuǎn)遜色于英文。如何在語料有限的情況下,在保障模型性能的條件下,增強(qiáng)中文語義的理解能力,滿足利用中文 / 英文描述同等的代碼生成能力,是當(dāng)前一大關(guān)注點(diǎn)。
二是 Prompt 優(yōu)化與交互式 Input 改進(jìn)。大模型一大特性就是,在交互時(shí)描述越精準(zhǔn), Prompt 寫得越好,生成的內(nèi)容質(zhì)量就越好。如何在用戶意圖表達(dá)不那么明確的情況下,也能判斷用戶輸入的任務(wù)描述完整性和合理性,并通過交互明確意圖,提高代碼生成準(zhǔn)確率很是關(guān)鍵。
三是集成學(xué)習(xí)探索。當(dāng)前大模型動(dòng)輒就是百億級、千億級、萬億級參數(shù),要把如此大規(guī)模的數(shù)據(jù) “吃下去”,推斷成本非常高。因此,能否結(jié)合預(yù)訓(xùn)練模型,在滿足推斷準(zhǔn)確率的情況下,利用參數(shù)量更小的模型達(dá)到更大規(guī)模模型的推斷效果,達(dá)到提升推斷效率的目的呢?
四是體驗(yàn)評估與優(yōu)化。構(gòu)建客觀且貼近真實(shí)工程的評估指標(biāo) / 手段,能夠更好地幫助行業(yè)良性發(fā)展。
五是模型在線學(xué)習(xí)。用戶的數(shù)據(jù)反饋對于模型能力的提升非常有幫助。在保護(hù)用戶隱私的前提下,基于用戶的顯式和隱式反饋對在線的大模型進(jìn)行微調(diào),實(shí)現(xiàn)在線模型實(shí)時(shí)更新,都是業(yè)內(nèi)要探討的問題。
六是低成本 SFT。如何實(shí)現(xiàn)各種研發(fā)場景的訓(xùn)練 / 驗(yàn)證數(shù)據(jù)集快速低成本建設(shè),以及模型的訓(xùn)練及自動(dòng)驗(yàn)證部署也很關(guān)鍵。
七是后處理。后處理對于提升模型在實(shí)際應(yīng)用場景的效果非常關(guān)鍵。根據(jù)項(xiàng)目上下文,檢查和修復(fù)所生成代碼的編譯運(yùn)行錯(cuò)誤;結(jié)合單元測試,修復(fù)生成程序中的邏輯性錯(cuò)誤。雖然解決的都是小問題、小錯(cuò)誤,但是能讓整個(gè)代碼的生成質(zhì)量更上一層樓。尤其是未來,將會(huì)有更多大模型將同步生成代碼和生成測試,兩兩匹配,在閉環(huán)中提升代碼整體質(zhì)量。在這種情況下,后處理對于大模型整體能力的提升非常有幫助。