基于内容的全文检索方法研究及其在数据库eBaseⅢ系统中的实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:aaajansen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文对各种特征项抽取方式进行了详细的论述,通常是选取词作业特征项,但对于中文文本而言,因为词与词之间没有天然的分隔符,所以传统的中文全文检索系统大多是以字为特征项.我们提出了基于中文字串预分割的二元语法策略,它既保留了以字为特征的各种优点,同时又在一定程度上解决了以字为特征项进行检索的误组配问题.查询与文档的匹配也是全文检索的一个关键部分,基于字面的匹配是最为直接简单的方法,而且被实践证明是有效的,而我们结合了隐含语义索引和自组织神经网络索引方法,则在基于字面检索的基础上,实现了基于内容的检索,实验结果表明,该方法能够有效地提高检索的速度和性能.我们对自行开发的数据库管理系统eBASEⅢ进行扩展以实现全文检索功能.
其他文献
中国手语的构成是以手势语为主,适当配合手指语,包括30个手指字母,大约5500个基本手势词.手指语是从字母语言发展起来的,用一个指式代表一个汉语拼音字母,按照汉语拼音方案拼
一个完整的网络分析软件的体系结构必须由以下几个部分组成:稳定、高效的分组捕捉机制,强大、健全的分组过滤机制,清晰、全面的分组解释、解码机制和友好的用户界面.该文将讨
该文从因特网及数据库理论的发展和现状着手,首先简要介绍了系统的总体结构、功能及特点,并介绍了陕西省软科学网的设计、实现、功能以及所采用的技术;然后对系统开发过程中
随着计算机网络技术的应用和普及,利用网络快速安全的传递、分发和回收公文,并逐步实现无纸化办公已成为一种不可阻挡的趋势。设计一种基于工作流的网络办公软件已成为各单位的
该文主要研究基于图像颜色特征的检索.提出了一种基于代表色块的特征的图像检索方法.我们在HSL色彩空间提取出能够良好再现原图像主色调的n种颜色(称为代表色),再计算出表征
该文论述了针对方正eBook阅读器ApabiReader的应用背景,基于组件对象模型的插件体系结构的设计和实现技术,并提出了相应的设计模式.该论文充分研究了Windows系统平台上的组件
随着模型驱动技术在软件开发中的广泛应用,以UML为代表的大量可视化建模语言不断涌现,但它们中的大部分目前还没有严格的形式语义,所建立的模型存在很多潜在不一致性等问题,
该文作者的主要工作如下:(1)通过引入渐进学习和分布式计算的机制,设计了PG和PG两种优化的PageGather算法,明显降低了输入数据量和算法复杂度,使得PageGather算法在电信级网
语音识别技术,经过了近半个世纪的发展,已经越来越成熟,内容也越来越丰富,然而无论人们在为让机器听懂并理解人类语言方面花了多大的努力,人们距离让机器能够理解任何人口述任何内
在网络管理中,信息建模一般指的是对网络管理信息进行建模,得到的模型是管理信息模型.管理信息模型仅仅描述了管理系统与被管理系统之间的信息流,而完全没有描述管理系统内部