基于WEB页面的关键词与关键概念提取技术

被引量 : 10次 | 上传用户:pankun001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词技术是文本信息处理的一项重要技术。目前,由于计算机在自然语言理解方面还有很大的不足,关键词提取是在进行文本自动摘要、文本自动分类、主题词提取、主题提取等凡是涉及到文本信息理解的工作时,都要应用到的一项关键技术。本论文详细介绍了一种基于Web页面的关键词与关键概念提取技术及其实验系统的设计与实现,并对该技术在搜索引擎中的应用进行了探讨。论文的核心内容包含以下三部分:首先,关键词提取系统介绍。围绕着Web页面的特殊性开始,依据Web页面不同于一般文本的特殊性,介绍了一种基于Web页面的关键词提取技术。该技术的实现充分利用了Web页面中的各种标记。然后,关键概念提取系统介绍。语言是一种不断发展的文化,新概念层出不穷,同时还存在很多人名、地名、机构名等专有名词。这些概念的存在影响了关键词的提取质量。从常用的N元语法入手,分析该方法存在的问题——N元截断效应,提出了一种基于上下文和互信息的关键概念提取方法。该方法的实现克服了N元算法的截断效应,实现了可变长的概念提取方法。同时,本文又结合规则选词的方法,对提取结果进行了优化,取得较好的实验效果。最后,论文对该技术在搜索引擎中的应用在理论进行了简单的探讨。通过对搜索引擎中“相关性(系统角度的相关性与用户角度的相关性)”问题的分析,提出了一种改进的系统角度的“相关性”模型,并对该模型的系统实现进行了构想与设计。
其他文献
南宋江西诗派中人多为理学中人,或为理学家,或为尊崇理学的人,江西诗学与理学的关系比较密切。江西诗学的演变有其自身的内在逻辑,但理学家的批评也使他们思考在发展中出现的
作为我国第三产业主体,流通最终通道的零售业对上游产业的拉动作用和主导化趋势开始显现,对产业结构调整的相关作用不断增强,对国民经济增长的贡献率稳步提高。我国第三产业加速
目的:探究急性脑血管病康复治疗时机,并给出有效的康复治疗方法。方法:从2015年2月-2017年2月在我院接受治疗的记性脑血管患者中抽取200例作为研究对象,将其随机分为两组,分
菌种的性能直接关系到酸奶质量的好坏,筛选出产酸力、感观、粘度等性能指标优良的菌种,对生产高质量的酸奶意义重大。本试验以生产酸奶的两种常用乳酸菌——保加利亚乳杆菌和嗜
目的:本文旨在运用中医和中西医结合理论,对小儿哮喘的病因病机和治法方药进行深入探讨,以寻求治疗本病的有效方药。导师多年临床研究认为哮喘是外因作用于内因的结果,痰瘀伏肺为
期刊
<正>1.引言繁昌窑遗址位于安徽省芜湖市繁昌县境内,其窑址散布在县城南郊和西郊的柯家冲、骆冲等多个地点,是我国长江下游地区一处专烧青白瓷
<正>安徽繁昌青白瓷窑址位于皖南北部、长江之畔的繁昌县境内,其窑址散落在县城周围的丘陵山坡上。该遗址发现于上世纪50年代,安徽省文物考古部门曾先后四次对其进行小规模的
本文采用接种鉴定和RAPD标记两种方法对来源于烟草不同生长时期的6个赤星病菌株进行了毒力测定和DNA多态性分析,同时对影响赤星病病斑扩展的因素进行了系统定量研究,测定了菌核