论文部分内容阅读
针对汉语语音文档检索中最优识别单元和检索单元不一致的问题,提出一种基于子词(position specific posterior lattices, PSPL)的语音文档索引方法;该方法以词为识别单元对语音文档进行解码,得到PSPL;然后对PSPL进行子词切分,并根据子词弧与原始词弧的后验概率关系,将PSPL转换为相应的子词PSPL,以子词PSPL为索引进行查询项检索.实验结果表明,所提出的方法在利用丰富语言信息的同时,解决了词解码器存在的边界分割不正确的问题,检索性能明显优于目前普遍使用的识别单元和检