基于词关联度的信息检索系统

来源 :复旦大学 | 被引量 : 0次 | 上传用户:jackieWXM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文回顾了通用的信息检索技术,尤其是向量空间模型及其改进、倒排索引技术。分析了现有方法的长处和不足。基于对语料的统计分析,提出了词关联度的概念。通过对文本库中词语出现的频率,以及任意两个词语共同出现的频率进行统计,获得了各个词语之间的关联度。通过这一参数对语义向量进行调整,可以有效地解决单词依赖问题。按照提出的关联度算法,并结合倒排索引技术,实际建立了一个信息检索系统,包含有一定规模的文本库。系统提供关键字检索,文本检索,相似文章检索等多种访问方式。通过测试表明,系统具有较好的效果和良好的性能,具备实用价值。本文详细讨论了系统建立的步骤以及多个方面的问题。
其他文献
本文以某工程项目为背景,研究了极化敏感阵列的卫星导航信号极化域-空域抗干扰算法并在该项目中完成了空域、空时联合抗干扰方法的硬件设计和调试。主要工作包括:   ⑴研究
近年来,数字化和互联网技术的快速发展,为人们复制和传输各种数字音频提供了有利途径,使得网络上出现了海量的音频多媒体信息。技术的进步为我们的生活带来了极大的便利,但也引起
分布式光纤传感技术在分布式多点温度、压力等测量领域有着举足轻重的地位,它不仅能克服传统传感器对环境要求较高的限制,还能避免传统传感器多点安装所带来的不便。为了满足
当今社会面对着两大趋势,一是快速发展的科学技术,二是人口结构迅速老化。我国已经进入老龄化社会,其带来的问题也日益严重。由于社会的压力,子女多因忙于工作,不能够全方位
无线通信系统需要采用有效的复用技术来提高频谱利用率,同时也需要采用分集技术来克服无线移动信道的衰落,提高传输的可靠性,同时提高系统容量。本文研究了一种新型的扩频组
IPTV相关技术的飞速发展推动着IPTV业务逐渐走出试验网络,正式步入商业运营阶段。向终端用户提供具有QoS和QoE保障的综合业务是IPTV业务评估中的最终目标,为此,业务运营商必须要
传统的基于C/S模式的流媒体服务将大部分的功能都集中放在服务器端。对于数据量大、实时性高的视频点播业务来说,这种C/S模式中的服务器很容易成为系统的瓶颈,限制系统的扩展性
无线定位技术,在民用商业、军事通信等领域都有广泛的应用。随着“无线城市”的快速发展,Wi Fi网络的布局也随之增大,Wi Fi网络的接入点遍布于商场、学校、医院、车站等公共
容迟网络是一种通用的、面向消息的、具有可靠体系结构的网络模型。这种网络模型适用于全球移动网,卫星通信网,长距离无线链路,水下声学调制通信,自由空间光通信、军用Ad-Hoc网、
波分复用(WDM,Wavelength Division Multiplexing)技术的发展为下一代网络带来了巨大的传输容量优势,以此为核心的光网络已经取代了传统网络成为最有竞争力的传输网络。由于每