论文部分内容阅读
BBS(Bulletin Board System)作为一种在拨号网络时代就已经出现的网络应用,随着Internet和技术的发展,因为其开放、自由、交互性强等特点,应用极为广泛。目前国内通常所说的网络论坛、社群等形式也都属于这种应用,可以说BBS已经成为一种具有代表性的网络异步交互活动。
而随着信息时代的到来和Internet的发展,用自然语言作为人机交互已是必然趋势,这对自然语言处理的深度和广度提出了越来越高的要求。自命名实体识别技术在1995年的MUC-6(Message Understanding Conference)会议上提出以来,越来越受到自然语言处理研究者的关注,并成为很多应用中的关键技术。
命名实体(Named Entity,简称NE)识别是信息抽取工作中非常重要并且必不可少的关键技术,时至今日已经发展成一个独立的研究分支。在一篇文章中,实体名字是基本的信息元素,往往指示了文章的主要内容。
命名实体识别是对文本进行理解的前提工作,命名实体识别的质量会直接影响到后续的一系列工作,例如在信息抽取中如果没有先识别出实体,就根本不可能识别实体关系,更无法解决识别实体关系和情景模板的问题。命名实体识别就是判断一个文本串是否代表一个命名实体,并确定它的类别。在信息抽取技术的研究中,命名实体识别是目前最成功、最有价值的一项技术。根据MUC评测结果,英文命名实体识别任务的F指数最高能达到97%以上。
本文正是以中文BBS中的大量信息为研究对象,在对BBS组织结构及信息特点进行分析的基础上,探讨对BBS信息进行命名实体与实体关系识别的方法,以为正确理解BBS信息以及对BBS信息进行信息抽取打下基础。
本文将命名实体和实体关系识别的方法应用到BBS信息中,并改进了原有命名实体识别的方法,使其更适用并且服务于对产品、招聘信息进行信息抽取的搜索引擎。该方法同样可应用于对其它网页进行产品、招聘信息的抽取。