【摘 要】
:
在自然语言处理领域,事件抽取和追踪一直是一个非常重要的研究方向。如何准确高效地从大量繁杂无序的信息中提取到感兴趣的事件信息,是事件抽取研究领域的关键问题。本课题选
论文部分内容阅读
在自然语言处理领域,事件抽取和追踪一直是一个非常重要的研究方向。如何准确高效地从大量繁杂无序的信息中提取到感兴趣的事件信息,是事件抽取研究领域的关键问题。本课题选择抽取的对象文本来源于著名的中文微博媒体——新浪微博。微博,即“Microblog”,是一个基于用户关系的分享,传播以及获取信息的平台。人们每天发布上百万条微博。作为一种新兴媒体,微博中蕴含了海量的信息,是当前各类大数据研究的绝佳平台。与城市交通信息有关的微博常常提及诸如事故信息,堵车信息,道路施工信息。这些微博蕴含的信息往往具有很高的准确性和时效性,通过有针对性的抓取,排除噪音,事件抽取,我们将能得到覆盖整个城市交通网的实时信息来源。然而,传统的标准自然语言处理工具针对中文微博文本的处理不尽人意,因此,本文描述了本课题构建的一整套系统方案,实现从抓取微博,去除噪音,微博话题限定,句子分割,词性标注,命名实体识别,事件抽取到事件展示的过程。本课题使用了基于条件随机场概率模型CRF和基于规则的正则表达式相结合的办法进行自然语言处理,使用python作为主要开发语言。实验结果表明,经测评分析得出的最优方案能以达83%的准确率提取微博文本中的事件要素;微博文本标准化处理方法能够有效的提升后期事件抽取的准确率;系统最终能能实时的展示出所提取的信息。
其他文献
马克思恩格斯早就指出,农业在国民经济中居于基础地位,这不是反映农业的一般的自然规律,也不是某个国家在某个特定时期的经济政策,而是一个普遍的客观经济规律。但同时,马克思也指
水资源危机已成为21世纪全球资源环境领域面临的首要问题,直接威胁人类的生存和发展。解决水资源危机,不仅是一个水资源可持续发展问题,而且是一个国家安全战略问题。科学合理的
提高农村剩余劳动力外出就业能力、增加农村人力资本投资是加速我国农村剩余劳动力转移和增加农民收入、提高农村经济发展水平的一项重要途径。但是目前我国农村剩余劳动力转
MOOC、SPOC等线上教学模式的出现,给线下传统的课堂教学模式带来了巨大的挑战。O2O教学模式是一种融合线上教学和线下教学优点的新型教学模式,文章从O2O教学模式的概念入手,
新疆维吾尔自治区草原面积辽阔,生态群落丰富,而近年来,由于人为和自然的因素,草原退化较严重。自2011年起,国家和自治区政府不断的加大对草原生态环境的保护,实行草原生态补
林地资源是森林资源、土地资源的重要组成部分,是林业发展的最基本的物质基础,而林地产权制度是提高林地资源利用率和生产力的重要保障。同时,从实施森林碳汇项目的角度来看,
目的探讨液基薄层细胞学(thinPrep cytologytest,TCT)筛查宫颈上皮内瘤变的价值。方法回顾性分析11 922例妇女(年龄范围为17~84岁)宫颈TCT检查结果 ,与宫颈活检和术后组织学比
<正>草原在我国生态环境保护和经济社会发展中具有重要战略地位。加强草原生态保护,促进牧民增收,对于保障国家生态安全,加快牧区经济社会发展,促进构建和谐社会具有重大意义
我国是世界上最大的杂交水稻种子生产国和消费国,杂交水稻推广应用为我国粮食生产做出了巨大贡献,杂交水稻种子产业的发展关系到国家粮食安全,具有非常重要的战略意义。开展“杂
“三农问题”是制约我国经济发展的一个重大问题,实现我国农业的发展和农民增收更是这一问题的重中之重。近年来,伴随着农业结构调整的不断深入、农业进入新的发展阶段后,作为农