论文部分内容阅读
倒排文档是信息检索系统中最普遍使用的索引机制,而索引文件的压缩能大大提高检索速度和节约磁盘空间.倒排文件压缩的传统做法是文档(标识号)间距法(d-gaps).然而,剧烈变化的间距值并不能被著名的前缀自由代码有效编码压缩.为了使间距值得到有效的压缩,本文设计了一个文档标识号重置法.模拟试验表明能更有效压缩d-gaps倒排文档.