根据50W携程出行攻略构建事情图谱(含码源):交通工具子图谱、订酒店吃饭事情图谱等
- 项目构成
- 本项目由两个部分的组成,具体包括语料的获取以及根据语料的事情发掘两个部分,具体项目目录包括:
- news_spider:根据scrapy的行记收集脚本
- event_graph:根据依存句法与顺承形式的顺承事情抽取脚
- image:行记顺承事情图谱效果图
1.出行领域语料的获取
-
语料来源:携程出行攻略
-
时间规划:2018年7月14日之前
-
收集办法:使用scrapy编写爬虫脚本进行抓取
-
收集规划:共收集505767篇,量级50W
-
收集脚本目录:news_spider/travelspider
-
语料举例:
107330 一路向南——第二篇相逢南通(自驾游) - 行记攻略【携程攻略】 107331 彩云之南—云上的蜜月之旅 - 丽江行记攻略【携程攻略】 107332 甘肃行记之玛曲郎木寺 - 碌曲行记攻略【携程攻略】 107333 拍客白沙行 - 舟山行记攻略【携程攻略】 107334 九华山-沐浴在佛恩下的XXX - 九华山行记攻略【携程攻略】 107335 垦丁夏季活动 - 垦丁行记攻略【携程攻略】 107336 行走在台湾(向隅版)---世外桃源之我们的家(九份民宿) - 九份行记攻略【携程攻略】 107337 卫赛节马来西亚行 - 马六甲州行记攻略【携程攻略】 107338 蓝全国的嘉峪关 - 嘉峪关行记攻略【携程攻略】 107339 人生一定要登一次雪山---都日峰 - 四川行记攻略【携程攻略】 107340 八月,青海湖不远 - 海北行记攻略【携程攻略】 107341 #冬天北京# 帝都极冷天去首富的酒店避避寒 - 北京行记攻略【携程攻略】 107342 圣地西藏 - 青海湖行记攻略【携程攻略】 107343 孩子,妈妈想让你才智更多的繁华世界 - 深圳行记攻略【携程攻略】 107344 顶级豪华,舍我其谁! - 澳门行记攻略【携程攻略】 107345 游览、不需要走远!美景就在身边 - 江门行记攻略【携程攻略】 107346 安安静静,不言不语都是好风景 - 厦门行记攻略【携程攻略】 107347 邂逅则天故里 行走美丽利州 体会师带你看我国女儿节 - 广元行记攻略【携程攻略】 107348 台湾,可以这样玩--15日环岛自在行全记录 - 台北行记攻略【携程攻略】 107349 让我记忆深入的厦门--具体版 - 厦门行记攻略【携程攻略】 107350 上海地鐵站 - 上海行记攻略【携程攻略】 107351 逃离雾霾,带着“马拉多纳”去腾冲 - 腾冲行记攻略【携程攻略】 107352 在我心上用力地开一 - 四川行记攻略【携程攻略】 107353 冬天到鄱阳湖边的余干县看鸟,多张美图记录环湖游全过程 - 余干行记攻略【携程攻略】 107354 2014.十一沈阳,本溪老边沟,枫叶大道,丹东,不走重复路,古迹,景色5日穷游 - 沈阳行记攻略【携程攻略】 107355 库不齐老牛湾之野外行走 - 库布齐沙漠行记攻略【携程攻略】
2.根据出行语料的顺承事情图谱构建
2.1, 顺承事情的抽取
- event_extract.py, 思维过程如下:
- 输入行记文本
- 对行记进行长句切分
- 根据结构的顺承联系模板,进行顺承前后部分提取, 转入4)
- 对3)得到的部分进行短句处理,转入5)
- 对4)得到的短句进行谓词性短语提取
- 对5)得到的谓词性短语向上会聚,得到一个长句的谓词性短语有序调集
- 对6)过程得到的谓词性短语调集,以滑窗办法结构顺承联系事情对
- 对过程7)得到的顺承事情对进行汇总,最终得到顺承事情库
- 对8)进行事情进行整合,去除过低频次的事情,结构标准顺承联系库
2.2, 顺承事情图谱的展现
10)使用VIS插件进行顺承联系图谱构建与展现, event_graph.py
11)因为VIS作为一个封装的JS库,因而生成的顺承图谱在项目中暂时设置到500,见travel_event_graph.html
3.顺承联系图谱效果
3.1 整体图谱款式
以500个顺承事情, 进行顺承事情图谱展现,成果是一张事情网络,这是一个大的顺承联系图谱,由很多小子图谱构成
3.2 去丽江子图谱
该子图谱环绕”去丽江旅行”这一出行事情为核心构成的事情群:
3.3飞机路线子图谱
该子图谱显示了挑选飞机进行出行构成的事情序列
3.4火车路线子图谱
该子图谱显示了挑选火车进行出行构成的事情序列
3.5订酒店事情图谱
该子图谱描述了一个”预定酒店不愉快事情”,从预定到失望到总结,在这条顺承事情链表现出来
3.6煮饭事情图谱
该子图谱表明了一个”煮饭”场景下的顺承事情,感觉也很有意思
4.总结
- 该项目只是一个根据50W文章领域语料,运用简略提取办法构成的顺承联系图谱demo,还有很多不足
- 该项目现在是构成了事情节点为326781个, 顺承事情对为543580条,分别为30W和50W的图谱规划
- 关于谓词性短语进行事情表明是事情表明的一种办法,本办法只选用VOB联系进行提取,这种办法还有待改善
- 以3)得到的成果中,还存在很多噪声,这一方面准确率受依存句法的准确性限制,另一方面该依存联系或许还相对单一,不行准确
- 在结构顺承事情序列的办法,本项目选用的是长句为单位下的滑窗办法进行结构,这个办法还有待改善
- 根据现在构成的顺承联系图谱还有待于进一步发掘,可以在此基础上完成更多有价值的信息发掘
项目码源链接
链接跳转