【喜訊】擎盾在信息檢索領(lǐng)域頂級國際會議SIGIR發(fā)表的論文被收錄
近期,擎盾集團(tuán)在信息檢索領(lǐng)域的頂級國際會議SIGIR(Special Interest Group on Information Retrieval)上發(fā)表了一篇題為《Improving News Recommendation via Bottlenecked Multi-task Pre-training》的研究論文。該論文提出了一種基于信息瓶頸多任務(wù)預(yù)訓(xùn)練的方法,旨在提高推薦系統(tǒng)的性能。
SIGIR專注于信息存儲、檢索和傳播的各個方面,包括研究戰(zhàn)略、輸出方案和系統(tǒng)評估。每年,SIGIR會議吸引來自世界各地的研究者和工程師匯聚一堂,分享他們最新的研究成果。作為該領(lǐng)域的重要交流平臺,SIGIR會議已經(jīng)成為了全球信息檢索領(lǐng)域內(nèi)的一個不可或缺的重要組成部分。
論文的研究內(nèi)容
該論文提出了一種基于信息瓶頸多任務(wù)預(yù)訓(xùn)練的方法。這種方法在預(yù)訓(xùn)練階段使用多個訓(xùn)練任務(wù),以迫使模型學(xué)習(xí)有關(guān)新聞的稠密向量表示,并將更豐富的語義信息壓縮到該向量中。具體來講,首先使用一個transformer類型的Encoder結(jié)構(gòu)將新聞編碼表征成一個稠密向量,然后使用一個transformer類型的Decoder結(jié)構(gòu)從該稠密向量和掩碼過的新聞中恢復(fù)新聞。在該過程中,通過控制Encoder和Decoder的掩碼率迫使模型將更豐富的語義信息壓縮到新聞的稠密向量表示中。最后,新聞推薦系統(tǒng)將使用這個稠密向量作為新聞的表征來給出候選新聞的排序。該方法設(shè)計了三種任務(wù):Masked News Recovering、Masked Co-occurring News Recovering 和 Masked Topic-Similar News Recovering,簡稱為MNR、MCR和MTR。
其中,MNR任務(wù)通過重建新聞本身的方法,著重將更多語義信息從新聞本身捕捉到新聞的稠密向量表示中。該任務(wù)在Encoder部分會隨機(jī)mask掉新聞的部分token,然后使用Decoder從Encoder獲得的稠密向量和被mask后的新聞文本中恢復(fù)新聞本身。
MCR任務(wù)通過重建與該新聞共現(xiàn)的新聞的方式,旨在表征頻繁同時出現(xiàn)的新聞之間的關(guān)系,因為同時出現(xiàn)的新聞可以很好地反映用戶對兩篇不同新聞文章的潛在偏好。該任務(wù)首先從用戶瀏覽歷史里挑選出新聞的共現(xiàn)新聞,在Encoder部分會隨機(jī)mask掉原新聞的部分token,在Decoder時候會mask掉共現(xiàn)新聞的部分token,然后從原新聞的稠密向量表示和被mask后的共現(xiàn)新聞的文本中恢復(fù)共現(xiàn)新聞。
MTR任務(wù)通過重建有著相似主題的新聞,來捕獲相似新聞之間的共性特征。通常,新聞文章可以分為幾個主題類別(例如政治),這些也是描述用戶偏好的重要特征。一般來說,用戶可能更喜歡閱讀自己感興趣的主題相關(guān)的新聞。所以該方法設(shè)計了(MTR)任務(wù)來捕捉這樣的關(guān)系。由于新聞文章中的實體可以反映主題信息,因此可以依靠一個簡單的度量方法,即兩篇新聞提及的實體重疊率,來估計它們的主題相似度。在挑選出相似新聞之后,在Encoder部分會隨機(jī)mask掉原新聞的部分token,在Decoder時候會mask掉相似新聞的部分token,然后從原新聞的稠密向量表示和被mask后的相似新聞的文本中恢復(fù)相似新聞。
在預(yù)訓(xùn)練完成后,使用fine-tuning的方法將預(yù)訓(xùn)練得到的模型參數(shù)應(yīng)用于新聞推薦任務(wù)中。與其他基于預(yù)訓(xùn)練模型的推薦方法相比,該方法在數(shù)據(jù)集MIND上表現(xiàn)出了不錯的效果。Table1是與RetroMAE、Condenser的對比,Table2是加入不同訓(xùn)練任務(wù)的對比。Figure2是NARM(原始版本Encoder)與NARM(將Encoder替換為本文的預(yù)訓(xùn)練模型)在MIND上的效果對比。
論文的意義
該論文的方法受到了 RetroMAE 和 Condenser 兩個模型的啟發(fā),方法的思想也很容易理解。訓(xùn)練任務(wù)實際上并不局限于文中提到的三種任務(wù),在具體的使用場景中可以適當(dāng)擴(kuò)展或修改。文中僅展示了該方法在新聞檢索領(lǐng)域上的實驗效果,但是這種預(yù)訓(xùn)練方法并不局限于該領(lǐng)域,與稠密文本檢索相關(guān)的自然語言處理領(lǐng)域,如信息檢索、問答系統(tǒng)、文本分類、推薦系統(tǒng)等,也可以使用該方法。
本篇論文全程由擎盾算法團(tuán)隊李慶主要投入、劉松林協(xié)助,并由算法工程師周昆及肖熊鋒指導(dǎo)完成。擎盾集團(tuán)長期以來對前沿科技保持高度關(guān)注,在眾多課題上也與北京大學(xué)、南京大學(xué)及東南大學(xué)等高校展開合作研究,期待更多優(yōu)秀的小伙伴加入團(tuán)隊共同推進(jìn)相關(guān)課題的研究,擎盾集團(tuán)也將持續(xù)提供算法實習(xí)及全職崗位。