论文部分内容阅读
传统后缀树算法对于中文场景的适用性较差并且有着空间占用大的缺点。面向中文分词改造后缀树索引的构建,以适用于中文的短语检索和域搜索。改进域搜索的索引结构以加快检索速度,将文档ID从索引中剥离出来以减少空间占用,选取最合适的压缩算法对索引进行压缩。实验结果表明,该索引的检索速度至少较Lucene快约37%,空问占用相较啄算法可以减少约82%。