【摘 要】
:
计算机和网络技术的进展使信息的发布与共享不再受到时空限制,同时也给我们带来了“信息过载”的问题,即信息资源极大丰富,而真正有用的信息和知识却相对匮乏。作为一个全球
论文部分内容阅读
计算机和网络技术的进展使信息的发布与共享不再受到时空限制,同时也给我们带来了“信息过载”的问题,即信息资源极大丰富,而真正有用的信息和知识却相对匮乏。作为一个全球化信息空间,Web为信息检索提供了一个前所未有的实验环境和应用情景,同时也给信息检索带来了新的挑战。搜索引擎等Web信息检索系统虽然部分地满足了人们的需要,但在精度、易用性等方面仍存在诸多问题,其效果远不能使人满意。据此,本文对“聚类Web信息检索”,尤其是聚类搜索上的文档及关键词索引的建立、文档的候选主题抽取、类别主题的归类及排序、主题的最终显示形式等课题进行研究和探索。速度是聚类检索系统需要考虑的首要因素,因此,传统的一些文档聚类方法都不太适合了。本文采用的是基于主题词的聚类方法,首先在文档预处理时进行文档主题词的抽取,为每篇文档确立几个候选主题,等到进行检索操作时,便根据检索到的文档的候选主题,将文档归入到对应的主题中形成候选类别,最后通过合并这些候选类别得到最终类别。本文重点研究了文档的候选主题的提取算法,结合统计及语义等信息,综合考虑了词语的词性、长度、位置、频度、词汇链权重等因素,并将这些因素作为支持向量机的特征,利用非线性回归方法训练模型,最后用训练出来的模型进行候选主题的抽取。同时,文中利用若干中文关键词短语的词性构成规则,对文档进行了词组抽取,将所抽取的词组加入到候选主题中,从而丰富了文档主题的表现形式。最后,本文还探索了聚类操作后最终类别主题的显示形式,利用了《同义词词林》等资源,提出了对类别主题进行排序和分类相结合的方法,使主题显示更加合理,更加方便用户进行查找。在本文的各小节中穿插了一些实验来说明上述提到的各种方法的有效性。同时,本文也设计了一种合理的评测方法对聚类检索系统的最终效果进行了评测,并对实验结果进行了深入的分析。
其他文献
网格和P2P计算是当前分布式计算领域的两个研究热点。网格是即因特网和万维网之后的新一代的网络应用,试图实现互联网上所有资源的全面连通,将互联网上的资源整合成一台超级
解决图中受顶点数限制的最短路径问题在交通工程、通信网络等方面有重要的实际意义。本文主要是针对K顶点数限制最短路径问题提出求解算法。在实际应用中,除希望得到最短路径
微粒群算法最早是在1995年由James Kennedy和Russell Eberhart共同提出的,其基本思想是受对鸟群行为进行建模和仿真的研究结果启发。微粒群优化算法是一种基于种群搜索策略的
下一代搜索引擎的一个突出特点是个性化,个性化信息检索是以用户为中心的信息检索技术,它获取以多种形式表达的用户需求(包括显式的、隐式的以及相关用户的需求),并综合利用
近年来,随着音视频数字产品的不断呈现,使得视频信息使用量将大于静态图像使用量,从而视频数字产品的安全问题如数字版权问题日益突出。通过数字水印技术可以有效起到版权保
随着网格技术的深入研究与发展,地理上分布的异构资源可以通过网格工具整合成一个完整的计算平台,而高效的网格任务调度则成为研究的热点和亟待解决的问题,其难点在于综合考
近年来,随着社会经济和工业技术的高速发展,各行业对电力系统提出更高的要求,所以,电力系统高效稳定运行,已经成为各行业发展的基础。配电系统作为电力系统中与用户联系最直接的环节,其智能化的发展更为迫切,与此同时电力系统中装置的发展也要趋于网络化、智能化。而其中微机保护装置更是保证整个智能化配电系统供电稳定、可靠运行的重要组成部分。本文通过分析国内外智能化配电系统及其微机保护装置的现状,根据微机保护装置
随着信息技术的发展,人们可用的数据资源呈爆炸式增长。在面对这些海量数据时,用户需要有强大的检索工具来帮助自己找到所需的信息。开放域问答(Question Answering,QA)研究
本文通过研究目前试题库软件的应用技术和发展现状,并根据机械制造工艺学课程的特点,进行了机械制造工艺学课程试题库软件的需求分析,建立了软件模型,提出了软件的解决方案。
随着互联网的快速发展,网络中产生的数据量呈指数级增长趋势,如何对海量数据进行高效的存取已经成了计算机领域的一个研究热点。HDFS(HadoopDistributed File System)是Hadoop