基于搜索日志的名词短语词典构建研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:Jeanneyli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的飞速发展,现有的搜索引擎虽然采用了各种方法来提高信息的检索精度,但是相关的文档和不相关的文档仍相互混杂,给用户带来了很大的负担。因此,如何快速准确的获取有价值的信息一直以来是搜索引擎富有挑战性的课题。本文在基于搜索日志的基础上,对名词短语词典的构建进行了研究。  首先,介绍了名词短语的基本知识,对日志中的名词短语进行了定义,同时描述了搜索同志语料的特点,并给出了系统结构及流程。  其次,根据现有的方法,从理论和实际的角度出发,提出了一种基于统计和规则相结合的名词短语识别方法,即二元统计模型、互信息和具体的规则知识。人工校对是语言资源建设必不可少的一个环节,在计算机自动统计的基础上,制定了名词短语校对过程中的加工规范,确保名词短语词典加工的一致性。实验取得了很好的识别效果,F1值达到85.49%,从而也进一步证明了统计方法和规则方法相结合的有效性。  最后,提出了“N1+N2”型名词短语的识别方法和校对方法:提出了“A+N”型名词短语的识别方法和校对方法;提出了“B+N”型名词短语的识别方法和校对方法。研究了“N1+N2”型、“A+N”型和“B+N”型名词短语中各组成要素的特点,详细地描述了这三种类型名词短语在搜索日志中所体现的句法功能。通过列举搜索日志中的大量例子,分析了用户的行为以及用户的检索规律。搜索日志中名词短语的研究,为搜索引擎用名词短语词典构建奠定了坚实的理论基础。
其他文献
“微博客(Micro-Blog)”是对小型/迷你型博客的一种称呼,是可以即时发布和共享消息的网络服务。由于微博客内容简短、更新率高、传播渠道多、速度快等的特点,使其在左右或主导
本文结合863计划“水稻精准作业系统构建与应用示范”的子项目“自动土壤采样装备的开发与研制”课题,进行了土壤采样器测控管理系统的研究开发工作。   论文研究了国内外
多机器人协作技术的研究是多机器人系统研究中最基本的问题,是机器人学在新的应用需求驱动下提出的具有重要理论价值和应用前景的研究方向。类人机器人的研究和发展代表了机器
入侵检测系统是在计算机网络中的若干关键节点收集网络通信数据,根据设定的规则以及有关安全策略对收集到的信息进行解析、分析,查看是否有网络攻击、违反安全策略等行为,并对这
多视点视频编码技术(Multi-view Video Coding,MVC)是一种能提供更加真实的场景再现、具有立体感的新型视频技术。由于视点数目的增加,多视点视频与传统单视点视频相比,需要进行
多视点视频(Multi-View Video,MVV)是由一系列摄像机处在不同位置从不同角度同时拍摄同一场景得到的一组视频信号,其蕴含丰富的深度信息,对自然场景更具有真实感。MVV的数据量随
随着电信事业的不断发展,加剧了电信业务的广泛普及,因此电信研究院针对电信投资项目的统计评估工作也越来越繁重,加之对数据管理的复杂性和难维护,加剧了投资效益评估这项工
计算机的使用改变了我们的世界,并且也使得我们对它的依赖性越来越大,每天有大量的重要信息被存储在其中,一旦数据丢失或损坏,人们将蒙受巨大的损失。数据恢复技术就是信息安全的
在Web2.0时代,网络已逐渐由用户单纯地浏览信息发展到更加侧重用户的交互,这产生了一类重要的用户数据:大规模富含情感信息的Web资源。面对如此大规模的情感文本,如何能通过计算
多参数监护仪可以对病人进行长时间的、连续的自动实时监护,能提供多种生理参数的测量和分析,有利于医生及时了解患者的病情变化,是现代化医院不可缺少的医疗设备。由于我国