科大讯飞2020完整事件抽取系统(bert+数据集)
向AI转型的程序员都关注了这个号????????????
机器学习AI算法工程 公众号:datayx
事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中,由于文本中可能存在句式 复杂,主被动转换,多事件主客体共享等难点,因此“事件抽取”是一项极具挑战的抽取任 务。
本事任务旨在从通用新闻文本中抽取事件触发词、事件论元以及事件属性。在传统的事件定义中,事件由事件触发词( Trigger) 和描述事件结构的元素 (Argument)构成。事件触发词标识着事件的发生。事件论元为事件主体(Subject)、客体(Object)、时间(Time)、地点(Location)等,是表达事件重要信息的载体。
事件属性包括事件极性(Polarity)、时态(Tense),是衡量事件是否真实发生的重要依据。通过极性,事件分为肯定、否定、可能事件。通过时态,事件分为过去发生的事件、现在正 在发生的事件、将要发生的事件以及其他无法确定时态的事件。
本赛事任务一为初赛任务,任务二为复赛任务,在任务一的基础上增加了事件属性识别。为 了模拟真实场景,数据中包含了非实际发生的事件。
任务一:事件触发词及论元抽取
该任务旨在从文本中抽取标识事件发生的触发词和论元,触发词往往为动词和名词。触发词 对应的事件论元,主要为主体、客体、时间、地点,其中主体为必备论元。
示例 1:
文本:北京时间 3 月 27 日晚上 7 点 15 分,英国首相鲍里斯约翰逊确诊感染了新冠肺炎。
任务二:事件属性抽取
该任务旨在从文本中抽取表达事件发生状态的属性,包括极性、时态。极性分为:肯定、否
定、可能;时态分为:过去、现在、将来、其他。
示例 1:
文本:中国驻俄罗斯大使张汉晖 4 月 7 日向媒体回应称,经向俄有关强力部门了解,目前
在俄没有一起中国公民遭到拘留或受到俄强力部门限制的案例。
抽取结果:
示例 4:
文本:看守政府总理迈赫迪打算驱逐约 5300 名美国士兵。
抽取结果:
事件抽取系统,包含触发词(trigger),事件论元(role),事件属性(attribution)的抽取。基于 pytorch 的 pipeline 解决方案。
主要思路
将任务分割为触发词抽取,论元抽取,属性抽取。具体而言是论元和属性的抽取结果依赖于触发词,因此只有一步误差传播。因 time loc 并非每个句子中都存在,并且分布较为稀疏,因此将 time & loc 与 sub & obj 的抽取分开(role1 提取 sub & obj;role2 提取 time & loc)
模型先进行触发词提取,由于复赛数据集的特殊性,模型限制抽取的事件仅有一个,如果抽取出多个触发词,选择 logits 最大的 trigger 作为该句子的触发词,如果没有抽取触发词,筛选整个句子的 logits,取 argmax 来获取触发词;
然后根据触发词抽取模型抽取的触发词,分别输入到 role1 & role2 & attribution 模型中,进行后序的论元提取和属性分类;四种模型都是基于 Roberta-wwm 进行实验,加入了不同的特征。
最后将识别的结果进行整合,得到提交文件。
代码运行教程 获取:
关注微信公众号 datayx 然后回复 事件抽取 即可获取。
AI项目体验地址 https://loveai.tech
阅读过本文的人还看了以下文章:
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
机大数据技术与机器学习工程
搜索公众号添加: datanlp
长按图片,识别二维码
更多推荐
所有评论(0)