【直播預(yù)告】SFFAI 121 文本表示專題
語言和知識(shí)的表示學(xué)習(xí)在其各自領(lǐng)域一直以來都是非常重要且基礎(chǔ)的研究方向,因?yàn)檎Z言和知識(shí)任務(wù)存在的相似性和互補(bǔ)性,兩者的方法經(jīng)?;ハ嘟梃b、交互發(fā)展。在非上下文表示的時(shí)代(如語言表示學(xué)習(xí)的word2vec、知識(shí)表示學(xué)習(xí)的TransE),就有工作聯(lián)合學(xué)習(xí)語言和知識(shí)的表示以增強(qiáng)在模型在兩類任務(wù)上的性能。近年來隨著ELMo、BERT等預(yù)訓(xùn)練語言模型的發(fā)展,上下文表示開始在語言和知識(shí)的表示學(xué)習(xí)中占據(jù)主導(dǎo)地位。因此,如何聯(lián)合兩者的上下文表示學(xué)習(xí)方法來緩解語言模型的知識(shí)匱乏問題同時(shí)增強(qiáng)知識(shí)模型的語言理解能力成為一個(gè)重要的研究問題。本期論壇我們邀請(qǐng)到來自復(fù)旦大學(xué)的孫天祥同學(xué),分享他提出的統(tǒng)一語言和知識(shí)聯(lián)合表示的學(xué)習(xí)模型CoLAKE。

講者介紹
孫天祥,復(fù)旦大學(xué)博士生,師從邱錫鵬教授和黃萱菁教授,主要關(guān)注自然語言處理中的多任務(wù)學(xué)習(xí)、知識(shí)融入、高效推理等方向,研究成果發(fā)表于AAAI, COLING, ACL, NAACL等會(huì)議。
會(huì)議題目
CoLAKE:一種語言和知識(shí)聯(lián)合表示學(xué)習(xí)模型
會(huì)議摘要
我們提出CoLAKE將語言和知識(shí)的數(shù)據(jù)組織成一種統(tǒng)一的圖結(jié)構(gòu),在這種新型的圖數(shù)據(jù)上進(jìn)行MLM預(yù)訓(xùn)練,在學(xué)習(xí)語言表示的同時(shí)也得到了超過三百萬個(gè)實(shí)體和若干關(guān)系的表示。實(shí)驗(yàn)表明CoLAKE在關(guān)系抽取、實(shí)體分類、知識(shí)探測(cè)等任務(wù)上都取得了顯著提升。

論文標(biāo)題:CoLAKE: Contextualized Language and Knowledge Embedding
會(huì)議亮點(diǎn)
1、使用圖結(jié)構(gòu)統(tǒng)一了語言和知識(shí)的數(shù)據(jù)結(jié)構(gòu),通過應(yīng)用在圖上的MLM目標(biāo)同時(shí)學(xué)習(xí)了語言和知識(shí)的上下文表示;
2、將Transformer編碼器進(jìn)行適當(dāng)修改使其應(yīng)用于圖結(jié)構(gòu)數(shù)據(jù)的預(yù)訓(xùn)練,針對(duì)語言-知識(shí)圖數(shù)據(jù)提出一種行之有效的預(yù)訓(xùn)練手段;
3、使用CPU-GPU混合訓(xùn)練方式同時(shí)學(xué)習(xí)大規(guī)模語言模型和上百萬個(gè)實(shí)體表示。
直播時(shí)間
2021年9月5日(周日)20:00—21:00?線上直播
關(guān)注微信公眾號(hào):人工智能前沿講習(xí),對(duì)話框回復(fù)“SFFAI121”,獲取入群二維碼
注:直播地址會(huì)分享在交流群內(nèi)

