论文部分内容阅读
书卷字是指现代汉语普通话口语中没有即成读音的字,大都已被现代有关字词典等注上了今音。目前对书卷字定音为人工定音方法,考虑的因素比较单一,也容易受定音者主观因素影响;另外通过我们的调研发现今音歧异数量远比已有研究所估计的要多,仅依靠人工定音工作量巨大。鉴于以上原因,我们将利用韵书资料,结合字形字义信息,采用统计方法和人工智能技术,研究书卷字今音的自动推导,在一定程度上克服人工推定今音的局限性。我们的研究主要包含基于韵书注音的书卷字今音候选生成基础模型和引入汉字字形字义的书卷字定音模型。基于韵书注音的今音候选生成模型主要是利用反切、异体字信息来定音。首先通过古代韵书资料收集反切、异体字信息,然后再基于这些数据构造今音推导规则库,同时通过统计方法计算不同规则成立的概率,我们将利用这些概率表来推导今音。形声字是汉字的主要构成方式,声旁对研究汉字今音具有重要参考意义。因此我们引入汉字的偏旁部首序列信息,尝试构建带有注意力机制的神经网络架构来实现书卷字今音自动推导。我们先使用已有今音的非书卷字数据训练该模型,然后再用训练好的模型预测待定音汉字的的字音并估算其概率。另外我们还提出了综合多方面信息的今音优选模型,采用自动学习的方法计算置信度,在推导今音时综合考虑多种因素来进行优选。该方法可以在一定程度上克服目前人工推导今音时仅凭少数线索和主观因素造成的误注。对于无法获取到反切、异体字信息及声旁等偏旁部首序列的待定音汉字,我们进一步提出了基于汉字图像特征的今音候选生成模型。该方法主要是利用汉字图像特征信息来定音,通过计算图像特征向量之间的相似度找到相似字,将相似字及其异体字的今音作为候选音。实验结果表明,通过该方法可以提高定音召回率。