ChatGPT激起的火種,正在中國科技公司急速蔓延。國內(nèi)的各個(gè)大廠內(nèi),算法工程師們紛紛開啟沖刺倒計(jì)時(shí),迎來一個(gè)個(gè)不眠夜。而在創(chuàng)投圈的飯桌上,到處都能聽到「誓要做中國第一個(gè)ALL in GPT的VC」的聲音。興奮者有之,觀望者有之,唱衰者有之。所有人都在翹首以盼:誰能成為中國的第一個(gè)ChatGPT?而如今,這股ChatGPT熱潮中,忽然涌現(xiàn)了一股清流——小冰鏈。小冰鏈給了我們這樣一個(gè)答案:除了做中國版ChatGPT,還有沒有別的選項(xiàng)?
根據(jù)官方內(nèi)測頁面的介紹,此次demo展示了小冰鏈(X-Chain of Thought & Action)的新特性,也就是說,AI Being不再只是單純地給出回復(fù),而是將她的思考過程完整透明地呈現(xiàn)在你面前,由此揭開大模型的黑盒。更重要的是,她能真正實(shí)施某種行動(dòng)(Action),例如:在你提出問題后,她經(jīng)過思考,發(fā)現(xiàn)自己得去搜索一下,或是實(shí)時(shí)編寫一段代碼并真的加以運(yùn)行,或是自主決定她應(yīng)當(dāng)控制物理世界的一系列設(shè)備或交通工具,來更好地滿足你的需求。
小冰鏈并非小冰在大模型時(shí)代的唯一創(chuàng)新。自2014年以來,小冰始終伴隨技術(shù)迭代而成長,經(jīng)歷了檢索模型、生成模型、大模型和X-CoTA等多個(gè)周期。其中在大模型領(lǐng)域,自2019年至今,小冰已經(jīng)形成了不同規(guī)模的模型訓(xùn)練和調(diào)優(yōu),并在安全性評估之后依次放出。小冰鏈只是其中之一。盡管如此,在小冰看來,大模型的安全性和倫理仍是至關(guān)重要的考量因素。因此,盡管國內(nèi)市場非?;鸨?,但小冰團(tuán)隊(duì)不會為了秀肌肉而貿(mào)然放出各種不安全的產(chǎn)品,這次的小冰鏈,是唯一的一次例外。從CoT到CoTA技術(shù)方面,小冰鏈——X-CoTA的實(shí)現(xiàn),少不了作為基礎(chǔ)的「思維鏈」(Chain of Thought, CoT)。簡單來說:1. CoT可以讓語言模型將復(fù)雜的多步驟問題分解成一連串的步驟2. CoT可以讓開發(fā)者看到模型的推理過程,便于確定錯(cuò)誤并進(jìn)行修復(fù)3. CoT可以解決數(shù)學(xué)應(yīng)用以及常識性推理問題在此之前,標(biāo)準(zhǔn)的提示會在模型預(yù)測答案之前,給出輸入-輸出對的例子(格式化為問題和答案)。而在思維鏈提示中,模型會得到一個(gè)問題推理的過程。也就是說,在處理多步驟推理問題時(shí),模型產(chǎn)生的思維鏈將模仿直觀的思維過程。
研究人員發(fā)現(xiàn),只需要在prompt中加入「Let's think step by step」就能讓GPT-3的推理性能大幅提升,比如在MultiArith中就將推理準(zhǔn)確率從之前的17.7%一下提升到了78.7%。下面的例子取自「Scaling Instruction-Finetuned Language Models」。其中,橙色突出了指令,粉色顯示了輸入和輸出,藍(lán)色是CoT推理。
論文的結(jié)果顯示,采用CoT微調(diào)的模型,在涉及常識、算術(shù)和符號推理的任務(wù)中表現(xiàn)得更好。不難看出,思維鏈提示(chain of thought prompting)可以讓模型更好地理解自然語言提示和示例,從而能夠執(zhí)行需要復(fù)雜推理的任務(wù),并且顯著提高模型處理新任務(wù)的能力。除此之外,CoT微調(diào)在敏感話題方面也非常有效(有時(shí)比RLHF做得更好),尤其是可以避免模型擺爛——「對不起,我無法回答」。