武漢大學(xué)本科生研究成果首次被ACM SIGIR錄用
(通訊員瞿成雄)日前,第44屆國際計算機(jī)學(xué)會信息檢索領(lǐng)域會議(ACM Special Interest Group on Information Retrieval,ACM SIGIR2021)官方發(fā)布了論文錄用結(jié)果。武漢大學(xué)國家網(wǎng)絡(luò)安全學(xué)院2017級本科生田雨、計算機(jī)學(xué)院2018級本科生楊雨豪分別以第一作者、第二作者撰寫的論文被錄用,成為我校首篇以本科生作為第一作者在SIGIR上錄用的長文論文。
論文題目為“Joint Knowledge Pruning and Recurrent Graph Convolution for News Recommendation”(聯(lián)合知識剪枝和遞歸圖卷積的新聞推薦算法),指導(dǎo)老師為國家網(wǎng)絡(luò)安全學(xué)院副教授李晨亮(通訊作者)和教授王騫,與微軟亞洲研究院吳方照博士和北京郵電大學(xué)副教授王鵬飛合作完成。
該論文針對新聞推薦服務(wù),設(shè)計了一種利用知識圖譜來識別用戶閱讀興趣的深度學(xué)習(xí)算法。該算法結(jié)合新聞的文章內(nèi)容,從中抽取重要的實(shí)體作為節(jié)點(diǎn),結(jié)合用戶的歷史新聞瀏覽記錄,建立用戶興趣圖,并提出一種新的圖卷積網(wǎng)絡(luò),即“遞歸圖卷積”,用于從知識圖譜中(Knowledge Graph)中識別與用戶興趣相關(guān)的實(shí)體來進(jìn)一步豐富和修正用戶興趣圖,最終實(shí)現(xiàn)用戶閱讀興趣的精準(zhǔn)識別。該項(xiàng)工作解決了現(xiàn)有方法在結(jié)合知識圖譜的環(huán)節(jié)會引入無關(guān)噪聲的缺陷,以及無法捕捉不同用戶對于同一新聞的不同興趣點(diǎn)等關(guān)鍵問題。

圖1

圖2
與現(xiàn)有基于知識圖譜的推薦方法相比,該項(xiàng)研究主要解決了圖1所示的問題:對于新聞中的實(shí)體“Kevin Spacey”,存在較廣的語義信息(如圖1右側(cè)所示);而根據(jù)用戶的點(diǎn)擊歷史可以看到User1和User2的興趣對應(yīng)在“Kevin Spacey”的不同語義空間(如圖1左側(cè)所示),也就是說,當(dāng)學(xué)習(xí)用戶的興趣表示時,我們需要刪減知識圖譜中所關(guān)聯(lián)的部分知識,以便用戶的興趣得到很好的匹配。本文設(shè)計了一種遞歸圖卷積(RGC如圖2所示),利用從知識圖譜中提取的相關(guān)上下文實(shí)體,對用戶興趣圖進(jìn)行遞歸補(bǔ)充。作者在兩個大型新聞數(shù)據(jù)集(英語和挪威語)上對該項(xiàng)研究做了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果充分驗(yàn)證了該工作的有效性。
近年來,研究者們針對新聞推薦相繼提出了各種解決方案。早期的研究主要集中在利用文本信息來提取新聞的表示。與商品和電影相比,新聞文章的語義空間要廣泛得多。近期最新研究試圖利用知識圖譜中的外部知識來增強(qiáng)新聞的表示學(xué)習(xí),并且取得了比較明顯的收益。然而外部知識圖譜的使用、新聞數(shù)據(jù)集的實(shí)體對齊和算法的驗(yàn)證非常耗費(fèi)時間和精力。本研究在提出先進(jìn)新聞推薦算法的同時,也公開發(fā)布了基于實(shí)驗(yàn)數(shù)據(jù)集的知識圖譜對齊語料,以進(jìn)一步促進(jìn)學(xué)術(shù)界深入研究和相關(guān)產(chǎn)業(yè)界發(fā)展。
據(jù)悉,本屆SIGIR會議共收到有效投稿720篇,長文錄用僅151篇,錄用率21%,被錄用的稿件反映了信息檢索領(lǐng)域國際最前沿的研究水平。