论文部分内容阅读
汉字输入技术是中文信息处理领域中特有的一项基础性关键技术。虽然目前有一些不依赖键盘的汉字输入产品和不少基于汉字字形的输入法,但是毋庸置疑拼音输入法是互联网用户最常用的汉字输入工具。
在互联网高速发展的今天,尤其在Web2.0提出以用户为中心的思想后,用户参与互联网的热情在不断增加,随之对中文输入效率的要求也在不断提高。为了进一步改善拼音输入法的性能,在分析目前拼音输入法现状的基础上,我们从以下几个方面开展了研究工作:
●实现了一个基于词汇搭配的拼音输入法。针对统计语言模型对词间长程依赖关系描述能力的不足,我们提出利用词汇搭配来获取远距离的词间关系以提高拼音输入法的效率。
●实现了基于主题预测的拼音输入法。从词汇本身存在主题特性的角度出发,在输入法系统中集成分类引擎,利用用户输入的历史对当前输入信息的主题进行判断,利用主题信息预测用户的后续输入以提高拼音输入法的性能。
●研究用户的个性化因素(用户输入历史、IE浏览历史)对拼音输入法系统性能的改善。一方面通过对用户输入的历史信息进行在线学习,发现用户特有的词汇和词汇搭配关系,实时用于输入法系统。另一方面定时挖掘用户的IE浏览历史,利用客户端数据建立个性化语言模型,再和原有的3-gram模型结合后共同用于输入法系统。