突发事件领域事件抽取技术的研究

被引量 : 0次 | 上传用户:hytsxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息爆炸,信息数量呈指数级增长。如何准确有效地从这些大量且无结构的信息中提取用户感兴趣的事件信息便成了急需解决的问题。为了从不同的信息源中抽取不同层次和粒度的信息,人们研究了各种不同的信息抽取技术。事件通常被认为是特定时间特定地点发生的事情。中文文本事件的识别与抽取目的是利用自动抽取技术从各种不同的非结构化的文本数据中抽取出事件信息,是一系列基于事件的信息组织技术的基础。随着信息技术的发展,语料库日益成为自然语言处理和研究的重要工具,它是计算机可读文本一定量的集合,包含人们感兴趣的典型样本。我们构建出了面向事件的中文语料库CEC-2。本文主要是基于该语料库对事件进行信息抽取研究。事件抽取的目的是从非结构化文档中抽取出用户感兴趣的事件,同时用结构化或者半结构化的形式描述,供用户进一步分析利用。事件识别也常常被当作事件抽取的一个子任务。事件识别是事件抽取的基础,其效果直接影响了事件抽取的结果。在本文中事件识别是基于事件触发词的识别。在事件本体中,事件类语言表现包含触发词,有触发词的句子不一定是事件描述。本文采用基于依存语法树的频繁子树挖掘算法对事件识别进行了规则获取。事件要素抽取是事件抽取中又一核心任务。在本文中该任务主要从已识别出的事件描述中识别出真正的事件要素描述。本文中的事件由六要素组成,我们的任务是识别出除了语言表现外的剩余五个要素。我们首先对大量的语料进行基于依存语法树的频繁子树挖掘,进而获得模式,从而能用这些模式将非标注文本中的事件要素描述抽取出来。实验结果得到较好的召回率R、精确率P和F测度。
其他文献
本文以GPS产业1984-2013年美国专利数据库中GPS相关专利数据为研究对象,使用UCINET对其进行专利中心度、中心势等相关指标计算并绘制专利引证关系图谱,分析在产业发展的不同
从终端角度出发,阐述了中国电信4G双卡终端的待通场景,以及终端业务处理能力的要求,最后还简单介绍了双卡终端卡槽发展的趋势。
公序良俗原则是现代民法一项重要的法律概念与法律原则,作为一个极为抽象的民法原则,它的应用尚无确定的判断标准,经常会出现相似的案例不同的判决结果。本文将以一起遗赠案(
随着集约化程度的逐步提高,水域环境的污染日趋严重,鲟鱼养殖病害逐年增多,危害程度逐渐加大。分析了目前鲟鱼养殖病害发生的原因,提出了病害防控对策。
<正> Met-L-Chek探伤药是我国从西德进口的冷轧成套设备带来的金属表面探伤用显色染料,也可用于塑料、玻璃的表面探伤。分红色渗透剂和白色显色剂两种。用法简单,无毒性,能够
期刊
本文介绍了一种开放式激光甲烷气体探测系统。该系统采用先进的可调谐半导体激光吸收光谱技术,具有响应速度快、灵敏度高、抗电磁干扰能力强、抗其它气体干扰等优点。该系统
随着移动互联网的快速发展,基于位置服务的需求倍受人们关注,特别是在大型、复杂、动态多变的室内场景,如博物馆、会馆场所、百货超市等,常常需要知道室内所在的位置以及相关
<正>如何充分发挥职能作用,加强农资市场管理,维护农民的合法权益,保障农业生产安全,促进农村改革发展,是各级工商部门创新监管方式,提高执法效能,实现履职到位的重要课题。
财务管理是否有效对企业经济效益和社会效益的充分发挥有着决定性的影响,因此,要促进中小型企业健康持续的发展,必须不断加强中小型企业的财务管理,提高其财务管理水平。本文
文言文作为一种定型化的书面语,是文字、文章、文学以及文化的统一,是中国文化历史传承的重要载体,从中可以透视华夏民族的文化心态、审美趣味、思维方式以及价值取向。入选