手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 科技 »學(xué)習(xí) » 國(guó)內(nèi)“誰(shuí)”能實(shí)現(xiàn)chatgpt，類ChatGPT簡(jiǎn)評(píng)（算法側(cè)角度為主），以及對(duì)MOSS簡(jiǎn)評(píng)

國(guó)內(nèi)“誰(shuí)”能實(shí)現(xiàn)chatgpt，類ChatGPT簡(jiǎn)評(píng)（算法側(cè)角度為主），以及對(duì)MOSS簡(jiǎn)評(píng)

2023-02-24 14:34 作者:汀丶人工智能 0人讀過(guò) | 我要投稿

1.ChatGPT簡(jiǎn)介【核心技術(shù)、技術(shù)局限】

ChatGPT（全名：Chat Generative Pre-trained Transformer），美國(guó)OpenAI 研發(fā)的聊天機(jī)器人程序，于2022年11月30日發(fā)布。ChatGPT是人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具，它能夠通過(guò)學(xué)習(xí)和理解人類的語(yǔ)言來(lái)進(jìn)行對(duì)話，還能根據(jù)聊天的上下文進(jìn)行互動(dòng)，真正像人類一樣來(lái)聊天交流，甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼，寫論文等任務(wù)。

1.1 核心競(jìng)爭(zhēng)力

ChatGPT受到關(guān)注的重要原因是引入新技術(shù)RLHF (Reinforcement Learning with Human Feedback，即基于人類反饋的強(qiáng)化學(xué)習(xí))。RLHF 解決了生成模型的一個(gè)核心問(wèn)題，即如何讓人工智能模型的產(chǎn)出和人類的常識(shí)、認(rèn)知、需求、價(jià)值觀保持一致。ChatGPT是AIGC（AI- Generated Content，人工智能生成內(nèi)容）技術(shù)進(jìn)展的成果。**該模型能夠促進(jìn)利用人工智能進(jìn)行內(nèi)容創(chuàng)作、提升內(nèi)容生產(chǎn)效率與豐富度。 **

1.2 技術(shù)局限性

ChatGPT 的使用上還有局限性，模型仍有優(yōu)化空間。ChatGPT模型的能力上限是由獎(jiǎng)勵(lì)模型決定，該模型需要巨量的語(yǔ)料來(lái)擬合真實(shí)世界，對(duì)標(biāo)注員的工作量以及綜合素質(zhì)要求較高。ChatGPT可能會(huì)出現(xiàn)創(chuàng)造不存在的知識(shí)，或者主觀猜測(cè)提問(wèn)者的意圖等問(wèn)題，模型的優(yōu)化將是一個(gè)持續(xù)的過(guò)程。若AI技術(shù)迭代不及預(yù)期，NLP模型優(yōu)化受限，則相關(guān)產(chǎn)業(yè)發(fā)展進(jìn)度會(huì)受到影響。此外，ChatGPT盈利模式尚處于探索階段，后續(xù)商業(yè)化落地進(jìn)展有待觀察。

2.國(guó)內(nèi)外ChatGPT發(fā)展情況

2.1 國(guó)內(nèi)外ChatGPT技術(shù)布局

上述圖為引用圖片，如有侵權(quán)請(qǐng)聯(lián)系。

2.2 目前已知產(chǎn)品

文心一言（英文名：ERNIE Bot）是百度基于文心大模型技術(shù)推出的生成式對(duì)話產(chǎn)品，將于2023年3月完成內(nèi)測(cè)，面向公眾開放
Bard是谷歌在一個(gè)大型語(yǔ)言模型基礎(chǔ)上，推出的聊天機(jī)器人
MOSS是復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室發(fā)布的對(duì)話式大型語(yǔ)言模型。

2023年2月20日，解放日?qǐng)?bào)·上觀新聞?dòng)浾邚膹?fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室獲悉，MOSS已由邱錫鵬教授團(tuán)隊(duì)發(fā)布，邀公眾參與內(nèi)測(cè)。2月21日，該平臺(tái)發(fā)布公告，感謝大家的關(guān)注，同時(shí)也指出，MOSS還是一個(gè)非常不成熟的模型，距離ChatGPT還有很長(zhǎng)的路需要走

ChatYuan：元語(yǔ)智能團(tuán)隊(duì)

首個(gè)中文版 ChatGPT——ChatYuan 即在人工智能社區(qū)引發(fā)了廣泛的討論。如今 ChatYuan 又迎來(lái)了升級(jí)版本，支持中英雙語(yǔ)交互、多次編輯、上下文關(guān)聯(lián)交互、模擬情景設(shè)定等多種新功能。

國(guó)產(chǎn)自研功能對(duì)話大模型元語(yǔ) ChatYuan 于 2022 年 12 月發(fā)布測(cè)試版本后，引起社會(huì)各界人士的廣泛討論，并且收到了用戶的大量反饋和寶貴建議。元語(yǔ)智能團(tuán)隊(duì)已于近日對(duì)元語(yǔ) ChatYuan 進(jìn)行了模型效果優(yōu)化和版本功能升級(jí)，現(xiàn)已開放內(nèi)測(cè)。

3.簡(jiǎn)評(píng)ChatGPT技術(shù)路線以及目前公測(cè)產(chǎn)品

對(duì)于ChatGPT實(shí)現(xiàn)首先從要素上介紹

3.1 ChatGPT技術(shù)實(shí)現(xiàn)要素

簡(jiǎn)單認(rèn)為以下三點(diǎn)比較重要：

充足的數(shù)據(jù)集（已標(biāo)注）
具備大模型能力（公司、實(shí)驗(yàn)室）
豐富的算力機(jī)器
算法技術(shù)能力

首先針對(duì)數(shù)據(jù)集問(wèn)題：?先天優(yōu)勢(shì)的是百度、字節(jié)跳動(dòng)等公司；其次才是各大公司研究室。細(xì)化一下就是百度、字節(jié)跳動(dòng)有高質(zhì)量數(shù)據(jù)集（信息量足，結(jié)構(gòu)化等優(yōu)勢(shì)）簡(jiǎn)化標(biāo)注數(shù)據(jù)獲取環(huán)節(jié)，有利于模型訓(xùn)練得到高質(zhì)量模型。

其次具備大模型能力（公司、實(shí)驗(yàn)室）?在NLP領(lǐng)域AI大模型能力也是有所共見，開創(chuàng)新紀(jì)元。所以擁有自己的大模型是至關(guān)重要的（千億參數(shù)量）

再者豐富的算力機(jī)器?模型訓(xùn)練依賴算力，沒(méi)有充足AI加速卡，時(shí)不待我啊。

最后也就是具備先進(jìn)的算法技術(shù)能力?這個(gè)是至關(guān)重要的，1.針對(duì)數(shù)據(jù)集其他公司可以通過(guò)爬蟲方式拿到部分原生數(shù)據(jù)再加工，也算解決數(shù)據(jù)集問(wèn)題吧。2.針對(duì)大模型因?yàn)槟壳皹I(yè)界開源了很多NLP各個(gè)領(lǐng)域的大模型任何一個(gè)人都可以獲取某個(gè)領(lǐng)域的多任務(wù)預(yù)訓(xùn)練大模型。3.算力嘛，花錢可以解決，只要你足夠富有。但是回歸到先進(jìn)的算法技術(shù)能力這里就是要出差距了，做一個(gè)“ChatGPT”外殼產(chǎn)品難度不大，但是要做一個(gè)真正ChatGPT難度很大。

3.2 ChatGPT技術(shù)宏觀實(shí)現(xiàn)路徑

下面從宏觀實(shí)現(xiàn)路徑進(jìn)行簡(jiǎn)單講解

3.2.1.堆砌式（封閉）模型：級(jí)別一

框架大致如下：

ChatGPT（智能問(wèn)答）

信息抽取大模型
推薦系統(tǒng)大模型
生成代碼大模型
智能問(wèn)答大模型（單輪多輪對(duì)話）
等等
任務(wù)分類大模型分類（把問(wèn)題分到到對(duì)應(yīng)模型去處理）

主要以語(yǔ)義搜索推薦系統(tǒng)技術(shù)下給到你索引答案，只是包裝了一個(gè)前端展示（對(duì)話形式）

3.2.2.堆砌式（開放）模型：級(jí)別二

ChatGPT（智能問(wèn)答）

信息抽取大模型
推薦系統(tǒng)大模型
生成代碼大模型
開放式智能問(wèn)答大模型（單輪多輪對(duì)話）
等等
任務(wù)分類大模型分類（把問(wèn)題分到到對(duì)應(yīng)模型去處理）

引用：Datafun圖片

開放域?qū)υ捈夹g(shù)屬于人機(jī)對(duì)話的一種。除了開放域?qū)υ?，人機(jī)對(duì)話還包括面向任務(wù)的對(duì)話和問(wèn)答對(duì)話。面向任務(wù)的對(duì)話類似于訂票、查天氣等，這也是大家用得比較多的一種。

問(wèn)答就是有明確的需求，用戶直接詢問(wèn)系統(tǒng)找答案。

開放域?qū)υ捙c前面兩者不同，前兩者用戶要么有明確的需求、要么有明確的場(chǎng)景。但開放域?qū)υ捠窃谝粋€(gè)很開放的場(chǎng)景中進(jìn)行擬人的對(duì)話，可以進(jìn)行任意的對(duì)話。同時(shí)，要求對(duì)話系統(tǒng)有人設(shè)、有人格和情感。

可以簡(jiǎn)單理解為AI模型更智能，算法技術(shù)更厲害了。

3.2.3.基于RLHF的AIGC的堆砌式模型：級(jí)別三

簡(jiǎn)介：?RLHF (Reinforcement Learning with Human Feedback，即基于人類反饋的強(qiáng)化學(xué)習(xí))?RLHF 解決了生成模型的一個(gè)核心問(wèn)題，即如何讓人工智能模型的產(chǎn)出和人類的常識(shí)、認(rèn)知、需求、價(jià)值觀保持一致。?AIGC（AI- Generated Content，人工智能生成內(nèi)容）技術(shù)進(jìn)展的成果。該模型能夠促進(jìn)利用人工智能進(jìn)行內(nèi)容創(chuàng)作、提升內(nèi)容生產(chǎn)效率與豐富度。

ChatGPT（智能問(wèn)答）

信息抽取大模型
推薦系統(tǒng)大模型
生成代碼大模型
開放式智能問(wèn)答大模型（單輪多輪對(duì)話）
等等
任務(wù)分類大模型分類（把問(wèn)題分到到對(duì)應(yīng)模型去處理）
RLHF多智能體強(qiáng)化學(xué)習(xí)

講一下級(jí)別三和級(jí)別二的區(qū)別：RLHF多智能體強(qiáng)化學(xué)習(xí) 級(jí)別二的各個(gè)大模型之前是獨(dú)立的，級(jí)別三通過(guò)強(qiáng)化學(xué)習(xí)算法把各個(gè)模型耦合起來(lái)，同時(shí)模型的產(chǎn)出和人類的常識(shí)、認(rèn)知、需求、價(jià)值觀的模型。控制產(chǎn)出好壞也就是獎(jiǎng)勵(lì)模型決定，答案滿意給出正向反饋，反之給出負(fù)分。這個(gè)設(shè)計(jì)難度也很大。

總結(jié)一下就是技術(shù)上升級(jí)了，模型更加智能輸出結(jié)果更佳貼近用戶。具體用戶側(cè)感受就是你可以“調(diào)教chatgpt”，產(chǎn)生個(gè)性化定制。當(dāng)然這種和搜索推薦系統(tǒng)給到的個(gè)性化也是不一樣的。

3.2.4.基于RLHF的AIGC的多任務(wù)完美模型模型：終極形態(tài)

ChatGPT（智能問(wèn)答）

基于RLHF強(qiáng)化學(xué)習(xí)的多任務(wù)完美模型模型

簡(jiǎn)單來(lái)說(shuō)就是所有任務(wù)一個(gè)模型都能解決，下游任務(wù)兼容性完美！期待一手！

3.2.5 小結(jié)

從上面四個(gè)級(jí)別可以看出，難度一次上升。個(gè)人認(rèn)為openAI的chatgpt應(yīng)該是第三種方案，因?yàn)榻K極形態(tài)相比級(jí)別三來(lái)說(shuō)，難度難以想象（一個(gè)模型完成所有任務(wù)，只能說(shuō)太強(qiáng)了）。換一個(gè)角度，我們作為用戶從產(chǎn)品側(cè)看是很難感知出兩者區(qū)別，從目前的業(yè)界開源模型情況來(lái)看方案三更加靠譜，落地也會(huì)更快，但技術(shù)難度還是很大的！

下面通過(guò)分析一下國(guó)內(nèi)目前公測(cè)的MOSS和ChatYuan

4.對(duì)MOSS、ChatYuan給出簡(jiǎn)評(píng)

4.1 ChatYuan

它具備的功能：

1.【支持多次編輯】第一次輸入后，可以進(jìn)一步提出要求，修正生成內(nèi)容，快速更新所需內(nèi)容。
2.【支持上下文關(guān)聯(lián)交互】支持多輪次交互，提升上下文關(guān)聯(lián)理解能力，更加自然的人機(jī)交互模式。
3.【模擬情景設(shè)定】支持模擬情景設(shè)定，如模擬對(duì)話、模擬小說(shuō)背景、模擬人物性格。
4.【基礎(chǔ)代碼 / 表格生成】?初步實(shí)現(xiàn)生成代碼功能，代碼結(jié)構(gòu)相對(duì)完整，部分代碼邏輯持續(xù)優(yōu)化中，表格生成能力初步實(shí)現(xiàn)。
5.【支持中英文交互】支持中英切換交互，如輸入中文可以回復(fù)英文內(nèi)容
6.【基礎(chǔ)生成任務(wù)效果提升】內(nèi)容生成效果顯著提升，寫公文、寫故事、寫論文提綱、寫特定主題含關(guān)鍵詞的詩(shī)歌等，效果較之前有比較明顯的提升。

官方開源：https://github.com/clue-ai/ChatYuan
碼源：https://colab.research.google.com/drive/1lEyFhEfoc-5Z5xqpEKkZtiMaojH1MP?usp=sharing#scrollTo=EPcJ68xtskZC

在這個(gè)notebook中我們將使用transformers庫(kù)結(jié)合GPU訓(xùn)練ChatYuan模型，使用的是pCLUE多任務(wù)提示學(xué)習(xí)數(shù)據(jù)集。

首先從這個(gè)開源項(xiàng)目中，使用的數(shù)據(jù)集是pCLUE: Large-scale Prompt-based Dataset for Multi-task and Zero-shot Learning in Chinese

pCLUE：基于提示的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集，用于多任務(wù)學(xué)習(xí)和零樣本學(xué)習(xí)

數(shù)據(jù)集情況：

1.單分類tnews 2.單分類iflytek 3.自然語(yǔ)言推理ocnli 4.語(yǔ)義匹配afqmc 5.指代消解-cluewsc2020 6.關(guān)鍵詞識(shí)別-csl 7.閱讀理解-自由式c3 8.閱讀理解-抽取式cmrc2018 9.閱讀理解-成語(yǔ)填空chid 數(shù)據(jù)量： 120萬(wàn)訓(xùn)練數(shù)據(jù)，73個(gè)Prompt1. 訓(xùn)練集 train.json: 1,200,7052. 驗(yàn)證集 dev.json: 100,0003. 公開測(cè)試集 test_public.json: 129,5564. 測(cè)試集 test.json: 250,461 具體數(shù)據(jù)，見：./datasetsinput:模型的輸入target:模型的輸出type:任務(wù)類型，閱讀理解(mrc),分類(classify)，生成(generate)，自然語(yǔ)言推理(nli)評(píng)價(jià)標(biāo)準(zhǔn)：閱讀理解(em),分類(acc)，生成(em)，自然語(yǔ)言推理(acc)answer_choices:選項(xiàng)（只有分類、推理類任務(wù)有）

預(yù)測(cè)任務(wù)輸出情況

6300 input_string: 3號(hào)型蒸汽機(jī)車是全臺(tái)鐵路商務(wù)總局購(gòu)入的飽合式蒸汽機(jī)車，其特征是披覆在車體上的水柜，如同馬鞍般。臺(tái)灣清治時(shí)期的全臺(tái)鐵路商務(wù)總局向英國(guó)(Hawthorn Leslie and Company)，訂購(gòu)馬鞍型水柜式機(jī)車。1889年與1893年各制造3部，總共6部。1895年甲午戰(zhàn)爭(zhēng)清朝戰(zhàn)敗后日本成立臨時(shí)臺(tái)灣鐵道隊(duì)來(lái)代管臺(tái)灣鐵路，最初將3號(hào)型全配北部線。1899年臺(tái)灣總督府交通局鐵道部成立后于1904年將2部機(jī)車轉(zhuǎn)配彰化段。進(jìn)入大正時(shí)代后又集合北部、在基隆段1部、臺(tái)北段5部。1918年為了宜蘭線的工程和營(yíng)運(yùn)而將2部機(jī)車海運(yùn)至宜蘭段、1920年全數(shù)轉(zhuǎn)配宜蘭段。隨著機(jī)車逐漸老化與過(guò)時(shí)，至1926年3號(hào)機(jī)車報(bào)廢。1927年在臺(tái)北段2部宜蘭段3部，1929年全部停止運(yùn)用，1931年報(bào)廢。今已無(wú)一部保存。3號(hào)-5號(hào)無(wú)另取名。參考上述上下文，3號(hào)型蒸汽機(jī)車什么時(shí)候全部被停用？答案： ;predict: 1929年6400 input_string: 看購(gòu)影豆原影豆是看購(gòu)電影集團(tuán)旗下的一個(gè)集在線購(gòu)票、電影資訊、互動(dòng)社區(qū)及影迷福利等服務(wù)于一體的一站式電影平臺(tái)。我們致力于打造好玩的電影APP,讓更多人享受電影帶來(lái)的樂(lè)趣。影片資訊搶鮮看電影導(dǎo)讀、電影解析、熱映電影精彩預(yù)告片,為您提供更多精彩的電影資訊。影迷圈看有意思的內(nèi)容影迷圈為您提供影迷精選內(nèi)容、影迷動(dòng)態(tài),看看他們都在看什么會(huì)員享特權(quán)積分兌好禮升級(jí)會(huì)員,享受專屬特權(quán),購(gòu)票更優(yōu)惠。每天做任務(wù),積分好禮隨心換支付便捷看購(gòu)卡購(gòu)票更簡(jiǎn)單紅包賬戶、看購(gòu)卡余額、第三方支付,用戶可隨心組合購(gòu)買影票。持有看購(gòu)卡用戶可直接綁卡購(gòu)買,也可以使用多種支付形式組合購(gòu)買影票。聯(lián)系我們看購(gòu)電影客服熱線每天90021004006776501看購(gòu)影豆熱線工作日830173001057228847看購(gòu)影豆APP新版開通了自助客服功能,歡迎點(diǎn)擊我的在線客服體驗(yàn)小秘書服務(wù)。官方微信訂閱號(hào)影豆生活官方微信服務(wù)號(hào)看購(gòu)電影更新內(nèi)容更新日志1.修改部分Bug 這個(gè)是關(guān)于哪方面的App應(yīng)用程序的描述？選項(xiàng)：銀行,社區(qū),電商,支付,經(jīng)營(yíng),卡牌,借貸,駕校,理財(cái),職考,新聞,旅游,交通,魔幻,醫(yī)療,影像,動(dòng)作,工具,體育,小說(shuō),運(yùn)動(dòng),相機(jī),工具,快遞,教育,股票,菜譜,行車,仙俠,親子,購(gòu)物,射擊,漫畫,小學(xué),同城,成人,求職,電子,藝術(shù),賺錢,約會(huì),經(jīng)營(yíng),兼職,視頻,音樂(lè),英語(yǔ),棋牌,攝影,養(yǎng)生,辦公,政務(wù),視頻,論壇,彩票,直播,其他,休閑,策略,通訊,買車,違章,地圖,民航,電臺(tái),語(yǔ)言,搞笑,婚戀,超市,養(yǎng)車,雜志,在線,家政,影視,裝修,資訊,社交,餐飲,美顏,掛號(hào),飛行,預(yù)定,票務(wù),筆記,買房,外賣,母嬰,打車,情侶,日程,租車,博客,百科,繪畫,鐵路,生活,租房,酒店,保險(xiǎn),問(wèn)答,收款,競(jìng)技,唱歌,技術(shù),減肥,工作,團(tuán)購(gòu),記賬,女性,公務(wù),二手,美妝,汽車,行程,免費(fèi),教輔,兩性,出國(guó),婚慶,民宿。答案： ;predict: 電影資訊6500 input_string: 你會(huì)把這個(gè)新聞推薦給關(guān)注哪方面的人：故事，文化，娛樂(lè)，體育，財(cái)經(jīng)，房產(chǎn)，汽車，教育，科技，軍事，旅游，國(guó)際，股票，農(nóng)業(yè)，游戲？疫情下我國(guó)高校應(yīng)屆畢業(yè)生創(chuàng)業(yè)現(xiàn)狀調(diào)查1500 input_string: 來(lái)到云南紅河，有中國(guó)最美的山嶺雕刻，還有小巴黎之稱的碧色寨哪個(gè)類別最好的描述了這篇新聞？選項(xiàng)：故事，文化，娛樂(lè)，體育，財(cái)經(jīng)，房產(chǎn)，汽車，教育，科技，軍事，旅游，國(guó)際，股票，農(nóng)業(yè)，游戲答案： ;predict: 旅游

從訓(xùn)練數(shù)據(jù)集以及處理的下游任務(wù)可以看出這是在做一個(gè)多任務(wù)學(xué)習(xí)的自然語(yǔ)言模型，關(guān)于生成式模型以及生成式多輪智能對(duì)話大模型基本不太沾邊，我覺得是我在第三節(jié)里講的級(jí)別一！

這里也就是展現(xiàn)了算法技術(shù)的瓶頸，當(dāng)然也不排除只是對(duì)方?jīng)]開源。但從目前獲取信息來(lái)看，肯定沒(méi)有用到強(qiáng)化學(xué)習(xí)算法技術(shù)，距離真正AI還有差距。

當(dāng)然第三節(jié)提到的四種方案，從用戶側(cè)來(lái)看相對(duì)比較難感受到的，畢竟國(guó)內(nèi)語(yǔ)義搜索智能推薦等算法很發(fā)達(dá)，通過(guò)前端包裝好。用戶還是很難發(fā)現(xiàn)的，最多會(huì)覺得 “這個(gè)AI有點(diǎn)不太聰明呀”

4.2 MOSS

網(wǎng)上看了很多測(cè)評(píng)，暴露問(wèn)題和chatyuan一樣，就不在贅述了。

5.未來(lái)應(yīng)用和期待

5.1 未來(lái)應(yīng)用

結(jié)合ChatGPT的底層技術(shù)邏輯，有媒體曾列出了中短期內(nèi)ChatGPT的潛在產(chǎn)業(yè)化方向：歸納性的文字類工作、代碼開發(fā)相關(guān)工作、圖像生成領(lǐng)域、智能客服類工作

5.2 期待

個(gè)人比較期待百度的文言一心以及字節(jié)跳動(dòng)，在通用領(lǐng)域優(yōu)勢(shì)比較大，同時(shí)技術(shù)也比較前沿，百度飛槳在開源方面做的也比較好，值得期待。希望實(shí)現(xiàn)的是級(jí)別三的方案。

標(biāo)簽：人工智能 MOSS 自然語(yǔ)言處理 chatgpt chatyuan