Talk預告 | 阿里達摩院多語言NLP算法團隊劉林林: 基于語言模型的低資源序列標注數(shù)據(jù)增
本周為TechBeat人工智能社區(qū)第288期線上Talk,這也是阿里巴巴達摩院-多語言NLP算法團隊系列Talk第③期。
北京時間3月25日(周四)晚8點,新加坡南洋理工大學&阿里巴巴聯(lián)合培養(yǎng)博士生—劉林林的Talk將準時在TechBeat人工智能社區(qū)開播!
他與大家分享的主題是: “基于語言模型的低資源序列標注數(shù)據(jù)增強方法”,屆時將介紹有關低資源命名實體識別的相關研究與近期的一些進展和思考。

Talk·信息
▼
主題:基于語言模型的
低資源序列標注數(shù)據(jù)增強方法
嘉賓:新加坡南洋理工大學&阿里巴巴?
聯(lián)合培養(yǎng)博士生 劉林林
時間:北京時間?3月25日 (周四) 20:00
地點:TechBeat人工智能社區(qū)
http://www.techbeat.net/
完整版怎么看?
掃描下方二維碼,或復制鏈接https://datayi.cn/w/3oLaAVq9至瀏覽器,一鍵完成預約!上線后會在第一時間收到通知哦~

Talk·提綱
▼
講者團隊提出了一種新的基于語言模型的數(shù)據(jù)增強方法,可以在低資源情況下用于命名實體識別、詞性標注、端到端基于目標的情感分析等序列標注任務。相比于計算機視覺,語音識別,數(shù)據(jù)增強當前在自然語言處理的序列標注任務上目前并沒有很多有效的應用,以往提出的同義詞替換等等方法都過于簡單,且效果并不顯著。而其他的數(shù)據(jù)增強方法,如反向翻譯等等僅適用于翻譯或者分類的任務,并不適用于序列標注任務。
研究團隊提出的基于語言模型的數(shù)據(jù)增強方法,是指把原有的序列標注數(shù)據(jù)集,通過線性化的方式把文本數(shù)據(jù)和序列標注變成語言模型的輸入數(shù)據(jù),從而通過語言模型,生成更多的可用于序列標注訓練的數(shù)據(jù),以此達到數(shù)據(jù)增強的目的。
本次分享的主要內(nèi)容如下:
1. ?介紹:目前常見的數(shù)據(jù)增強方法
2. ?序列標注任務
3. ?框架:基于語言模型的低資源序列標注數(shù)據(jù)增強方法
4. ?實驗結果
Talk·參考資料
▼
這是本次分享中將會提及的資料,建議提前預習哦!
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks
https://www.aclweb.org/anthology/2020.emnlp-main.488.pdf
Talk·提問交流
▼
通過以下兩種方式提問都將獲得微信現(xiàn)金紅包獎勵哦!
方式 ①
在Talk界面下的【交流區(qū)】參與互動!留下你的打call??和問題??,和更多小伙伴們共同討論,被講者直接翻牌解答!

你的每一次貢獻,我們都會給予你相應的i豆積分,還會有驚喜獎勵哦!
方式 ②
在本文留言區(qū)直接提出你的問題,或掃描下方二維碼提問!

Talk·嘉賓介紹
▼

新加坡南洋理工大學&阿里巴巴 聯(lián)合培養(yǎng)博士
劉林林,本科畢業(yè)于新加坡國立大學,目前是新加坡南洋理工大學和阿里巴巴的聯(lián)合培養(yǎng)博士生。他剛開始博士第三年的學習,主要研究方向是跨語言知識遷移學習和低資源命名實體識別,現(xiàn)有兩篇文章發(fā)表在自然語言學習頂會EMNLP。目前正在進行跨語言情境詞向量對齊方面的研究,通過更加細粒度的詞義級別詞向量對齊來提高跨語言知識遷移任務的表現(xiàn)。
阿里巴巴達摩院-多語言NLP算法團隊
系列Talk
▼
*點擊標題跳轉(zhuǎn)詳情
第①彈

第②彈

關于TechBeat人工智能社區(qū)
▼
TechBeat(www.techbeat.net)是一個薈聚全球華人AI精英的成長社區(qū)。我們希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其學習成長。期待這里可以成為你學習AI前沿知識的高地,分享自己最新工作的沃土,在AI進階之路上的升級打怪的根據(jù)地!
更多詳細介紹>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ