基于50W攜程出行攻略構建事件圖譜:交通工具子圖譜、事件圖譜等

基于50W攜程出行攻略構建事件圖譜(含碼源):交通工具子圖譜、訂酒店吃飯事件圖譜等
項目構成
本項目由兩個部分的組成,具體包括語料的獲取以及基于語料的事件挖掘兩個部分,具體項目目錄包括:news_spider:基于scrapy的游記采集腳本event_graph:基于依存句法與順承模式的順承事件抽取腳image:游記順承事件圖譜效果圖
1.出行領域語料的獲取
1) 語料來源:攜程出行攻略
2) 時間范圍:2018年7月14日之前
3) 采集方式:使用scrapy編寫爬蟲腳本進行抓取
4) 采集規(guī)模:共采集505767篇,量級50W 5) 采集腳本目錄:news_spider/travelspider
6) 語料舉例:
? ? ? ?107330 一路向南——第二篇相逢南通(自駕游) - 游記攻略【攜程攻略】
? ? ? ?107331 彩云之南—云上的蜜月之旅 - 麗江游記攻略【攜程攻略】
? ? ? ?107332 甘肅游記之瑪曲郎木寺 - 碌曲游記攻略【攜程攻略】
? ? ? ?
2.基于出行語料的順承事件圖譜構建
2.1, 順承事件的抽取
event_extract.py, 思想步驟如下:
1) 輸入游記文本
2) 對游記進行長句切分
3) 基于構造的順承關系模板,進行順承前后部分提取, 轉(zhuǎn)入4)
4) 對3)得到的部分進行短句處理,轉(zhuǎn)入5)
5) 對4)得到的短句進行謂詞性短語提取
6) 對5)得到的謂詞性短語向上匯聚,得到一個長句的謂詞性短語有序集合
7) 對6)步驟得到的謂詞性短語集合,以滑窗方式構造順承關系事件對
8) 對步驟7)得到的順承事件對進行匯總,最終得到順承事件庫
9) 對8)進行事件進行整合,去除過低頻次的事件,構造標準順承關系庫
2.2, 順承事件圖譜的展示
10)使用VIS插件進行順承關系圖譜構建與展示, eventgraph.py 11)由于VIS作為一個封裝的JS庫,因此生成的順承圖譜在項目中暫時設置到500,見travelevent_graph.html
3.順承關系圖譜效果
3.1 總體圖譜樣式
以500個順承事件, 進行順承事件圖譜展示,結(jié)果是一張事件網(wǎng)絡,這是一個大的順承關系圖譜,由眾多小子圖譜構成

3.2 去麗江子圖譜
該子圖譜圍繞"去麗江旅游"這一出行事件為核心形成的事件群:

3.3飛機路線子圖譜
該子圖譜顯示了選擇飛機進行出行形成的事件序列

3.4火車路線子圖譜
該子圖譜顯示了選擇火車進行出行形成的事件序列

3.5訂酒店事件圖譜
該子圖譜描述了一個"預定酒店不愉快事件",從預定到失望到總結(jié),在這條順承事件鏈表現(xiàn)出來

3.6做飯事件圖譜
該子圖譜表示了一個"做飯"場景下的順承事件,感覺也很有意思
4.總結(jié)
1) 該項目只是一個基于50W文章領域語料,運用簡單提取方式形成的順承關系圖譜demo,還有很多不足
2) 該項目目前是形成了事件節(jié)點為326781個, 順承事件對為543580條,分別為30W和50W的圖譜規(guī)模
3) 對于謂詞性短語進行事件表示是事件表示的一種方式,本方法只采用VOB關系進行提取,這種方式還有待改進
4) 以3)得到的結(jié)果中,還存在大量噪聲,這一方面準確率受依存句法的準確性限制,另一方面該依存關系可能還相對單一,不夠準確 5) 在構造順承事件序列的方法,本項目采用的是長句為單位下的滑窗方式進行構造,這個方式還有待改進
6) 基于目前形成的順承關系圖譜還有待于進一步挖掘,可以在此基礎上完成更多有價值的信息挖掘
項目碼源鏈接
[鏈接跳轉(zhuǎn)] (https://blog.csdn.net/sinat_39620217/article/details/131824583)
