【摘 要】
:
随着科技的不断发展,人们与网络的联系已经变得十分紧密,网络的交流和分享给人们的生活带来了极大的便利。而网络信息的迅猛增长,使得用户在查找资料时不得不从搜索引擎返回
论文部分内容阅读
随着科技的不断发展,人们与网络的联系已经变得十分紧密,网络的交流和分享给人们的生活带来了极大的便利。而网络信息的迅猛增长,使得用户在查找资料时不得不从搜索引擎返回的结果列表中仔细查找,如果用户输入的查询词带有歧义,很可能要查看很多页后才能找到满意的答案,这就给用户的使用带来了不便。比如搜索“美洲虎”时,用户可能是想查找一种武器、或者是汽车,更或者是一种动物,然而在返回的结果列表中这几类信息相互参杂着呈现给用户,如果用户需要查找某一类信息的详细情况,就需要翻很多页才能找到。基于此,本文在传统搜索引擎的基础上设计了检索结果聚类系统。系统流程主要包括三步:首先,利用HTML分析器获取搜索引擎返回的结果项标题和摘要,用分词工具对获取到的文本进行分词、标注词性并且记录词语的位置和词频,去除停用词,剩下的词语构成每一个结果项的关键词集;然后,用各结果项的关键词集统一构建一颗后缀树,以词语为单位插入后缀树各节点,通过位置、词频、词性和词长几项约束条件计算各节点词语得分;最后,合并基类取得分高的节点词作标签。实验结果显示本方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。
其他文献
搜索引擎技术能帮助人们寻找到他们想要的信息,但随着目前的搜索引擎技术和互联网技术的飞速发展,网络信息呈明显的爆炸性增长的上升趋势,有时不能帮助人们快速、准确地获得他们
无线胶囊内镜(Wireless Capsule Endoscopy,WCE)是一种全新的医疗诊断技术,它能够方便医生观察病人的消化道信息。该胶囊是一种可吞服的小型摄像设备,病人吞服胶囊之后,胶囊拍摄
在自然生态环境与人类的关系越来越密切的今天,随着虚拟现实技术的迅速发展,虚拟植物可视化研究方向被人们广泛重视,成为了众多研究热点之一。虽然植物形态结构十分复杂,与环
在确定性微分包含的基础上加入Gaussian噪声或更一般的Lévy噪声,则成为带多值算子的随机微分方程,是近一二十年随机方程和随机分析领域的新兴问题之一,引起了广泛关注。这类特
随着计算机网络技术的飞速发展,计算机已不再是遥不可及的高科技产品。如今,计算机已经普及到了千家万户,成为了大多数人工作、学习、生活不可或缺的工具之一。由于网络已经渐渐
信息技术的快速发展使计算机软件的执行效率和硬件的性能都得到了很大的提升。在当今时代,很多设备都具有计算能力与数字通信能力,而且这些设备之间可以互相交换信息和使用对
近年来,社交网站、微博、微信、博客、论坛等社会媒体作为人们用来分享意见、经验和观点的平台,受到网民的热烈追捧,浏览社会媒体传播的信息已经成为网民日常生活不可或缺的部分
经过数十年发展,尤其是随着近几年高速通信网络的普及,信息产业已经开始由“提供应用”向“提供服务”转变。在这种转变中,一个明显的特征是直接面向用户的应用开发者急剧减少,绝
在人机交互领域,传统的单语音识别技术在相对安静的环境下对连续的单词或短语能够达到较高的识别率。然而,将其应用到真实环境时,其识别能力通常会由于背景噪声等因素的影响受到
在网络数据量急速增长的现代社会,大数据存储处理技术正在蓬勃发展,其中HDFS(Hadoop Distributed File System)系统是大数据存储处理技术中应用最广泛的。由于HDFS的存储机制