论文部分内容阅读
在语音研究的各个领域,都涉及到语音质量评价的问题,它早已为语音传输系统研究、设计、生产以及使用者所关心和重视。各种语音通信系统或通信网络在规划、开发、研制以及投入运营之时,都必须进行音质的评价。有效的音质评价手段除了可以评价编码器的性能优良以外,还可以用来测试信道通信质量的好坏。由于语音质量的好坏最终是由人通过人耳来评判的,因此,近代的音质评价方法主要采用的是主观评价方法。然而,主观评价只能在条件允许的情况下才能进行,而且还会受到人对音质反应的不重复性的影响。这样,人们就对音质客观评价提出了要求。 本文首先介绍了音质客观评价的发展简史。由于音质评价的研究不仅涉及到信号处理领域,还涉及到心理声学知识,因此,本文在研究音质客观评价以前,对人类的发音系统和听觉系统作了详细介绍。关于语音信号谱失真测度的研究,本文主要深入研究了Mel倒谱系数失真测度和Bark谱失真测度,并将其用于汉语连续语句语音和数字串汉语语音的客观评价,得到了比以往的谱失真测度与主观MOS更高的统计相关度。同时,针对汉语连续语句语音,作者在深入研究改进的Bark谱失真测度的情况下,提出了广义的瞬时掩蔽矩阵的概念,并将其用于该测度方法中,使其与主观MOS的统计相关度提高了1到2个百分点。对于数字串汉语语音,考虑到数字汉语语音特征的特殊性,在做短时截取的时候,借鉴了语音识别中的方法,将矩形窗代替常用的汉明窗,使Mel倒谱系数失真测度与主观MOS的统计相关度提高了接近1个百分点。最后,作者对本文的工作做了总结。