最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

中文版GPT-3來了?智源研究院發(fā)布清源 CPM —— 以中文為核心的大規(guī)模預訓練模型

2020-11-16 15:50 作者:智源社區(qū)  | 我要投稿

清源 CPM(Chinese Pretrained Models)是北京智源人工智能研究院和清華大學研究團隊合作開展的大規(guī)模預訓練模型開源計劃,清源計劃是以中文為核心的大規(guī)模預訓練模型。首期開源內(nèi)容包括預訓練中文語言模型和預訓練知識表示模型,可廣泛應用于中文自然語言理解、生成任務以及知識計算應用,所有模型免費向學術界和產(chǎn)業(yè)界開放下載,供研究使用。


1. 背景介紹

語言模型是指對自然語言文本進行概率建模的模型,它不僅可以估計任意一個給定文本序列的概率,也可以用來預測文本序列中某個位置上詞的出現(xiàn)概率,是自然語言處理中最基本的問題。

2018年以來,預訓練語言模型 (Pretrained Langauge Model, PLM) 的研究風起云涌。與此前有監(jiān)督學習范式不同的是,預訓練語言模型能夠充分利用大規(guī)模的無標注數(shù)據(jù)學習通用的語言模型,然后再使用下游任務的少量有標注數(shù)據(jù)進行模型微調(diào)。與直接訓練具體任務模型相比,在預訓練語言模型基礎上微調(diào)得到的模型在自然語言處理各大任務上均取得了顯著的性能提升。

在 GPU 多機多卡并行算力和海量無標注文本數(shù)據(jù)的雙重支持下,預訓練模型實現(xiàn)了參數(shù)規(guī)模與性能齊飛的局面,取得了人工智能和深度學習領域的革命性突破。國際著名互聯(lián)網(wǎng)企業(yè)和研究機構互相競爭,將模型規(guī)模和性能不斷推向新的高度。BERT之后,短短兩年時間,最新發(fā)布的 GPT-3 已經(jīng)達到1750億參數(shù)規(guī)模、上萬塊 GPU 的驚人訓練規(guī)模。在人工智能與深度學習領域圍繞超大規(guī)模預訓練模型展開的“軍備競賽”日益白熱化,成為對海量數(shù)據(jù)、并行計算、模型學習能力的全方位考驗。

預訓練模型規(guī)模以平均每年10倍的速度增長 (最后一列計算時間為使用單塊NVIDIA V100 GPU訓練的估計時間。M-百萬,B-十億)
預訓練模型研究發(fā)展圖

在這一態(tài)勢下,亟需建立以中文為核心的超大規(guī)模預訓練模型。為此,北京智源人工智能研究院和清華大學研究團隊合作開展大規(guī)模預訓練模型,并發(fā)布清源 CPM (Chinese Pretrained Models) 研究計劃,旨在推動中文自然語言處理的研究與應用。清源 CPM 計劃將依托智源研究院新建的人工智能算力平臺,建立以中文為核心的超大規(guī)模預訓練模型,進行基于超大規(guī)模預訓練語言模型的少次學習能力以及多任務遷移能力研究,探索更具通用能力的語言深度理解技術。2020 年 11 月中旬,CPM 開放第一階段的26 億參數(shù)規(guī)模的中文語言模型 (CPM-LM) 和217億參數(shù)規(guī)模的結構化知識表示模型 (CPM-KM) 下載,以及相應的系統(tǒng)演示。

關于預訓練模型的大量實驗表明,更大的模型參數(shù)和更多的預訓練數(shù)據(jù),通常能夠帶來更好的下游任務效果,這類模型被證明在各種少樣本學習 NLP 任務中十分有效。傳統(tǒng)預訓練模型往往需要經(jīng)過有監(jiān)督訓練數(shù)據(jù)微調(diào) (Fine-tuning),才能解決各種自然語言處理任務。而第一版 CPM 中文語言模型與 GPT-3 等預訓練模型類似,僅需要通過少次、單次學習甚至零次學習,就能完成不同自然語言處理任務,具備一定的常識和認知的泛化能力。CPM 模型從大規(guī)模的中文語料庫中學習了通用的語言模式,有望顯著提升中文自然語言處理各任務的性能。初步的實驗表明,CPM 模型能夠用于問題解答、摘要和對話以及生成各種文本包括隨筆、小說、代碼、電子表格等。

2. 模型特點

與已有的中文預訓練模型相比,本次發(fā)布的清源 CPM 大規(guī)模預訓練模型具有以下特點:?

1. 學習能力強:能夠在多種自然語言處理任務上,進行零次學習或少次學習達到較好的效果。

2. 語料豐富多樣:收集大量豐富多樣的中文語料,包括百科、小說、對話、問答、新聞等類型。

3. 行文自然流暢:基于給定上文,模型可以續(xù)寫出一致性高、可讀性強的文本,達到現(xiàn)有中文生成模型的領先效果。

4. 模型規(guī)模大:本次發(fā)布的 CPM-LM 的參數(shù)規(guī)模為 26 億,預訓練中文數(shù)據(jù)規(guī)模100 GB,使用了 64 塊 V100 GPU 訓練時間約為 3 周。CPM-KG 的參數(shù)規(guī)模分別為217億,預訓練結構化知識圖譜為 WikiData 全量數(shù)據(jù),包含近 1300 個關系、8500萬實體、4.8 億個事實三元組,使用了 8 塊 V100 GPU 訓練時間約為 2 周。

3. 模型訓練方法

目前預訓練模型的模型參數(shù)與數(shù)據(jù)規(guī)模均在不斷增長,給訓練任務帶來極大的挑戰(zhàn)。具體而言,數(shù)據(jù)規(guī)模的增大導致訓練時間成倍數(shù)增長,模型參數(shù)規(guī)模的增大導致單卡無法容納整個模型的參數(shù)。面對這些挑戰(zhàn),則需要設計高效的大規(guī)模訓練框架,能夠支持龐大的訓練規(guī)模并有效降低訓練時間。

本次發(fā)布的大規(guī)模預訓練模型,單塊 GPU 上的存儲與計算單元難以承受其訓練過程。因此,需要將模型在多個 GPU 之間分配參數(shù),進行并行化訓練。CPM 模型預訓練過程分布在多塊 GPU 上,采用層內(nèi)并行的方法進行訓練,并基于當前已有的成熟技術,減少同步提高通訊速率。

在硬件設施方面,為訓練該 CPM 模型,共有 64 塊 V100 顯卡投入使用。經(jīng)過預訓練的 CPM 模型可以用來促進諸多下游中文任務,例如對話,論文生成,完形填空和語言理解等等。

當前主流的并行策略主要分為數(shù)據(jù)并行、模型并行和流水并行,具體來說:

●? 數(shù)據(jù)并行是將每一批次的數(shù)據(jù)切分成幾部分,分別發(fā)送到模型的多個鏡像中進行訓練。這些模型的參數(shù)保持一致,且在計算梯度時進行同步,保證梯度更新之后參數(shù)的一致性。數(shù)據(jù)并行主要解決了訓練數(shù)據(jù)過大,單個設備無法存放的問題。

●? 模型并行主要是為解決模型參數(shù)規(guī)模過大無法被單卡存放的問題。模型并行會將模型中的參數(shù)矩陣切分成幾塊,分別存放在不同的設備上,同時將訓練中的超大規(guī)模矩陣計算分布到多塊卡上。通過對模型中矩陣操作的分塊,一方面可以降低單個設備上的模型存儲負擔;另一方面,并行執(zhí)行也能極大優(yōu)化計算時間,減少每張卡的計算量。

流水并行則是針對訓練批次進行優(yōu)化,將訓練數(shù)據(jù)在不同層間的計算流水化,以提高計算集群的利用效率。在實際的訓練中,以上三種并行模型常常會一起使用。與模型并行相比,流水并行能夠降低并行執(zhí)行過程中產(chǎn)生的設備之間的通信量,降低通信時間。

在利用上述三種成熟優(yōu)化的基礎上,CPM計劃對模型并行中的通信進行進一步優(yōu)化,削減通信時間,提升運行效率。這部分優(yōu)化將在下一階段工作中體現(xiàn)。

4. 模型實驗結果

清源 CPM 使用新聞、百科、對話、網(wǎng)頁、故事等不同類型中文語料數(shù)據(jù)進行預訓練。在多個公開的中文數(shù)據(jù)集上的實驗表明,清源 CPM 在少樣本或無樣本的情況下都能夠達到較好的效果。

4.1. 中文成語填空 ChID

ChID 是 2019 年清華大學對話交互式人工智能實驗室(CoAI)收集的中文成語填空數(shù)據(jù)集,其目標是對于給定的段落,在 10 個候選項中選擇最符合段意的成語進行填空。

其中有監(jiān)督設定是指在 ChID 的訓練集上進行訓練,隨后在測試集上測試;無監(jiān)督設定是指不經(jīng)過任何額外訓練,直接使用預訓練模型進行測試。具體做法是,將候選項依次填入段落中,計算填充后段落的困惑度 (Perplexity),選擇困惑度最小的候選項作為預測結果。表中匯報了預測的準確率,可以看到,CPM(大) 在無監(jiān)督的設定下甚至達到了比有監(jiān)督的 CPM (小) 更好的結果,反應了清源 CPM 強大的中文語言建模能力。

4.2. 對話生成 STC

STC 是2015年華為諾亞方舟實驗室提出的短文本對話數(shù)據(jù)集,要求在給定上文多輪對話的條件下預測接下來的回復。

其中 CDial-GPT 是清華大學對話交互式人工智能(CoAI)實驗室 2020 年提出的中文對話預訓練模型。用于衡量多樣性的 Dist-n 指標的兩個數(shù)字分別是所有不重復的 N-Gram 的數(shù)量及占所有 N-Gram 的比例??梢钥吹?,在無監(jiān)督的設定下,清源 CPM 具有更好的泛化性,在有監(jiān)督設定下,清源 CPM 能達到比 CDial-GPT 更優(yōu)的效果,尤其在多樣性指標上表現(xiàn)更佳。以下為生成的對話樣例。

4.3. 文本分類

清源 CPM 使用頭條新聞標題分類 (TNEWS,采樣為4分類),IFLYTEK應用介紹分類 (IFLYTEK,采樣為4分類),中文自然語言推斷 (OCNLI,3分類) 任務作為文本分類任務的基準。具體做法是,先輸入分類樣本,再輸入“該文章的類別為/該介紹的類別為/兩句話的關系為”,要求模型直接生成標簽,四個標簽中概率最高的標簽作為預測結果。在無監(jiān)督設定下,不同規(guī)模的清源 CPM 在文本分類任務上的精確度如下表所示。

清源 CPM 能夠在無監(jiān)督的設定下達到比隨機預測 (TNEWS/IFLYTEK/OCNLI 隨機預測精確度分別為0.25/0.25/0.33) 好得多的精確度。

4.4. 自動問答

CPM 使用 DuReader 和CMRC2018 作為自動問答任務的基準,要求模型從給定的段落中抽取一個片段作為對題目問題的答案。其中DuReader 由百度搜索和百度知道兩部分數(shù)據(jù)組成。在無監(jiān)督的設定下,不同規(guī)模的 CPM 模型的表現(xiàn)如下表所示。

其中單樣本是指在測試時,從數(shù)據(jù)集中隨機抽取一個正確的 “(段落,問題,答案)” 三原組,插入到用于評價的樣例前,作為 CPM 模型生成答案的提示。零樣本是指直接使用 CPM 模型預測給定段落和問題的答案。在單樣本設定下,CPM 能從給定的樣本中學習到生成答案的模式,因此效果總是比零樣本設定更好。由于模型的輸入長度有限,多樣本輸入的場景將在未來進行探索。

4.5. 實體生成

CPM 采用 XLORE 中的幾種常見的關系三元組作為實體生成任務的基準。在少樣本設定 (把少量真實樣本拼在待預測樣本前作為提示) 下,不同規(guī)模的 CPM 模型的 BLEU-1 值如下表所示。我們針對同一種關系類別 (表格中的類別) ,給定 N 個三元組 (實體,關系,實體),再拼接待預測樣本,讓模型預測對應的尾實體。

表格匯報了 XLORE 中十種常見關系模型預測結果的 BLEU-1 值,可以看出參數(shù)量越大時,模型對于預測實體效果越好。同時,模型在給定 2 個樣本時就可以達到不錯的效果,大部分時候 N=2 和 N=4 的效果是接近的。

5. 樣例展示

這里提供一些模型生成文本的樣例,更直觀地展示清源 CPM 第一階段預訓練中文語言模型和知識表示模型的效果。

在“故事生成”演示中,用戶可以任意填寫一段初始文本,讓模型去預測后續(xù)內(nèi)容。這些初始文本可以是任意文體:例如小說、說明文、議論文、天氣預報、體育報道、新聞報道,甚至是對話、知識問答以及數(shù)字推理,清源 CPM 都能仿照前文的風格和規(guī)律行文如流。在此舉幾個例子驗證此單一預訓語言練模型的多功能性:?

CPM 預訓練語言模型只需要對一個常識性問題的學習,就能依照規(guī)律提問和正確回答:

能夠根據(jù)前文真實的天氣預報,像模像樣地繼續(xù)報道天氣預報(不保證正確性):


還能做一定的數(shù)理推理,模型的自動推理特性完全可以應用在電子表格軟件中:

甚至可以續(xù)寫紅樓夢片段:

6. 團隊介紹與研究計劃

清源 CPM 計劃由北京智源人工智能研究院 (簡稱“智源研究院”) 和清華大學研究團隊合作開展。智源研究院是在科技部和北京市委市政府的指導和支持下,由北京市科委和海淀區(qū)政府于2018年11月推動成立的新型研發(fā)機構。智源研究院通過設立“智源學者計劃”,在多個重大研究方向重點支持人工智能科學家挑戰(zhàn)人工智能最基礎的問題和最關鍵的難題。

“自然語言處理”是智源研究院重點支持的重大研究方向之一。近年來,該研究方向的智源學者在預訓練模型方面積累了豐富的研究成果,如清華大學孫茂松、劉知遠團隊和李涓子、唐杰團隊提出了知識指導的預訓練模型 ERNIE 和 KEPLER,循環(huán)智能楊植麟團隊提出了性能顯著優(yōu)于 BERT 的 XLNet 模型,清華大學朱小燕和黃民烈團隊提出了面向情感分析的預訓練模型 SentiLARE,融合常識知識的預訓練語言生成模型 StoryGPT,面向中文對話生成的 CDial-GPT模型,等等。

正是意識到預訓練模型對中文自然語言處理研究和應用的重要意義,智源研究院和清華大學研究團隊在已有研究的基礎上,決定聯(lián)合開展以中文為核心的預訓練模型研究和開源共享,研究團隊包括清華大學自然語言處理與社會人文計算實驗室 (THUNLP)、對話交互式人工智能課題組 (CoAI)、清華大學并行與分布式計算機系統(tǒng)實驗室 (PACMAN)、清華大學知識工程研究室 (THUKG)。研究團隊將在智源研究院大規(guī)模算力平臺的支持下,開展以中文為核心的超大規(guī)模預訓練模型研究,包括跨語言學習、文本生成、知識融合、模型并行和壓縮等前沿課題,并將相關模型及時通過智源社區(qū)開源共享。

清源 CPM 未來一年的研究和開源計劃為:

階段1 (2020年10月-12月):中文大規(guī)模預訓練語言模型,含約 30 億參數(shù),訓練數(shù)據(jù)包括 100GB 中文數(shù)據(jù)。

階段2 (2021年01月-06月):以中文為核心多語言大規(guī)模預訓練語言模型,含約 200 億參數(shù),訓練數(shù)據(jù)包括 500GB 以中文為核心的多語言數(shù)據(jù)。

階段3 (2021年07月-09月):知識指導的大規(guī)模預訓練語言模型,含約 1000 億參數(shù),訓練數(shù)據(jù)包括 1TB 以中文為核心的多語言數(shù)據(jù)和億級實體關系圖譜。

清源 CPM 計劃將積極配備算力、數(shù)據(jù)和人力,注重開展原創(chuàng)研究,盡早實現(xiàn)與國際頂尖機構在超大規(guī)模預訓練模型技術方面并跑,提升中文自然語言的深度理解和生成能力。在此基礎上,清源 CPM 計劃探索超大規(guī)模預訓練模型學習機制與人腦學習機制之間的聯(lián)系與區(qū)別,支持認知神經(jīng)科學、心理學和語言學等跨學科交叉研究,從數(shù)據(jù)驅動深度學習無法回避的可解釋性差、魯棒性差、容易受到攻擊的瓶頸入手,以離散符號表示的知識指導與數(shù)據(jù)驅動的神經(jīng)網(wǎng)絡有機融合、人腦認知機制啟發(fā)等原始創(chuàng)新為突破口,建立下一代人工智能的技術體系。

與此同時,基于清源 CPM 模型的文本深度理解和智能生成能力,智源研究院也將積極與產(chǎn)業(yè)界合作,在智能客服、個性推薦、文本生成、自動編程等方面,探索新型的人工智能應用和商業(yè)模式。

7. 相關資源

清源CPM 主頁:https://cpm.baai.ac.cn/


清源CPM Github 托管代碼主頁:https://github.com/TsinghuaAI/


預訓練模型必讀論文列表:https://github.com/thunlp/PLMpapers

相關論文清單:

[1] ERNIE: Enhanced Language Representation with Informative Entities. ACL 2019.

[2] KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. TACL 2020.

[3] A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation. TACL 2020.

[4] SentiLARE: Sentiment-Aware Language Representation Learning with Linguistic Knowledge. EMNLP 2020.

[5] Train No Evil: Selective Masking for Task-Guided Pre-Training. EMNLP 2020.

[6] A Large-Scale Chinese Short-Text Conversation Dataset. NLPCC 2020.

[7] Language Generation with Multi-Hop Reasoning on Commonsense Knowledge Graph. EMNLP 2020.


中文版GPT-3來了?智源研究院發(fā)布清源 CPM —— 以中文為核心的大規(guī)模預訓練模型的評論 (共 條)

分享到微博請遵守國家法律
东阳市| 荣成市| 商城县| 成武县| 晴隆县| 莱西市| 包头市| 时尚| 高陵县| 象州县| 荥经县| 炎陵县| 星子县| 当涂县| 桐柏县| 桐庐县| 闻喜县| 延寿县| 延长县| 红桥区| 河间市| 南和县| 镇宁| 克拉玛依市| 三江| 玉龙| 易门县| 资源县| 横峰县| 福海县| 柯坪县| 白水县| 喀什市| 旅游| 江川县| 永川市| 凤台县| 宁武县| 温泉县| 西平县| 常熟市|