BBS信息的命名实体与实体关系的识别

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:fancylhs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
BBS(Bulletin Board System)作为一种在拨号网络时代就已经出现的网络应用,随着Internet和技术的发展,因为其开放、自由、交互性强等特点,应用极为广泛。目前国内通常所说的网络论坛、社群等形式也都属于这种应用,可以说BBS已经成为一种具有代表性的网络异步交互活动。   而随着信息时代的到来和Internet的发展,用自然语言作为人机交互已是必然趋势,这对自然语言处理的深度和广度提出了越来越高的要求。自命名实体识别技术在1995年的MUC-6(Message Understanding Conference)会议上提出以来,越来越受到自然语言处理研究者的关注,并成为很多应用中的关键技术。   命名实体(Named Entity,简称NE)识别是信息抽取工作中非常重要并且必不可少的关键技术,时至今日已经发展成一个独立的研究分支。在一篇文章中,实体名字是基本的信息元素,往往指示了文章的主要内容。   命名实体识别是对文本进行理解的前提工作,命名实体识别的质量会直接影响到后续的一系列工作,例如在信息抽取中如果没有先识别出实体,就根本不可能识别实体关系,更无法解决识别实体关系和情景模板的问题。命名实体识别就是判断一个文本串是否代表一个命名实体,并确定它的类别。在信息抽取技术的研究中,命名实体识别是目前最成功、最有价值的一项技术。根据MUC评测结果,英文命名实体识别任务的F指数最高能达到97%以上。   本文正是以中文BBS中的大量信息为研究对象,在对BBS组织结构及信息特点进行分析的基础上,探讨对BBS信息进行命名实体与实体关系识别的方法,以为正确理解BBS信息以及对BBS信息进行信息抽取打下基础。   本文将命名实体和实体关系识别的方法应用到BBS信息中,并改进了原有命名实体识别的方法,使其更适用并且服务于对产品、招聘信息进行信息抽取的搜索引擎。该方法同样可应用于对其它网页进行产品、招聘信息的抽取。
其他文献
分子影像是一门新兴的前沿综合交叉学科,融合了分子生物学、化学、数据处理、图像处理等技术,它应用影像学方法,对活体状态下的生物过程进行细胞和分子水平的定性和定量研究,可以
学位
作为微重力科学的研究手段,空间站被用于进行大量的空间科学实验,包括蛋白质晶体生长、燃烧、材料和流体力学实验,这些实验在一个很宽的频率范围内都需要静态的加速度环境。振动隔离系统的基本目标是隔离空间站上的各种振动,抑制实验过程中的加速度环境,以实现空间科学实验所需要的低加速度环境。由于我国微重力科学研究的发展,特别是未来空间站的建立,对振动隔离系统的需求也日益迫切。本文对微重力隔振系统进行了力学分析。
为了保证柔性软件的质量,改善软件柔性,本文以柔点为核心要素,建立了面向用户的软件柔点的测试模型。本文借鉴了黑盒测试用例的一些设计方法,包括等价类划分、边界值分析、错
在基于划分方法的聚类算法中,k-means算法因为简单易实现的特点而得到广泛的应用。然而它存在诸多的缺点特别是对于大规模数据不能进行有效的聚类分析。本文主要研究了如何在
20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量数据。数据大多以文本形式存在。如何从大规模的文本中快速获取所需要的信息呢?文本
近年来随着网络技术不断发展,互联网在政治、经济、文化、冶金等各个领域的作用越来越重要,成为社会和经济发展的强大动力。尤其是基于Web的信息发布和检索技术、以及网络分布
当今,用户界面交互设计已经成为人机交互研究领域的重要组成部分,同时也是设计阶段最容易发生变化的部分。而原型设计作为目前交互设计中的主要设计方法,使得对其的研究工作引起
随着中国保险业的迅速发展和保险总资产的快速增长,寿险资金的运用对于寿险公司的稳定发展起到关键性作用,而寿险投资风险的度量和管理是其核心问题。由于国家对于保险业投资政
本文详细的研究了基于SOA的设备管理系统设计与实现过程。面向服务的体系结构(Service-Oriented Architecture,SOA)是一个组件模型,它将应用程序的不同功能单元(称为服务)通过
热轧是钢铁企业重要的生产工序之一。其调度技术则是热轧生产管理中的核心内容和关键。热轧调度的好坏将直接影响到热轧前后工序的物流畅通、轧线产能的提高和轧辊的工作寿命