基于词汇关系的个性化拼音输入法研究与实现

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:ADAM129XU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字输入技术是中文信息处理领域中特有的一项基础性关键技术。虽然目前有一些不依赖键盘的汉字输入产品和不少基于汉字字形的输入法,但是毋庸置疑拼音输入法是互联网用户最常用的汉字输入工具。   在互联网高速发展的今天,尤其在Web2.0提出以用户为中心的思想后,用户参与互联网的热情在不断增加,随之对中文输入效率的要求也在不断提高。为了进一步改善拼音输入法的性能,在分析目前拼音输入法现状的基础上,我们从以下几个方面开展了研究工作:   ●实现了一个基于词汇搭配的拼音输入法。针对统计语言模型对词间长程依赖关系描述能力的不足,我们提出利用词汇搭配来获取远距离的词间关系以提高拼音输入法的效率。   ●实现了基于主题预测的拼音输入法。从词汇本身存在主题特性的角度出发,在输入法系统中集成分类引擎,利用用户输入的历史对当前输入信息的主题进行判断,利用主题信息预测用户的后续输入以提高拼音输入法的性能。   ●研究用户的个性化因素(用户输入历史、IE浏览历史)对拼音输入法系统性能的改善。一方面通过对用户输入的历史信息进行在线学习,发现用户特有的词汇和词汇搭配关系,实时用于输入法系统。另一方面定时挖掘用户的IE浏览历史,利用客户端数据建立个性化语言模型,再和原有的3-gram模型结合后共同用于输入法系统。
其他文献
服装动画是角色动画的重要组成部分。利用服装动画技术,能够生成逼真的服装运动,使得虚拟角色整体具有非常细腻真实的动画效果。目前,服装动画技术在电影电视、游戏娱乐、虚拟现
随着互联网的蓬勃兴起,企业应用从传统的客户机/服务器模式开始面向互联网。作为企业级应用程序解决方案之一,J2EE被认为是当今可用于企业软件开发的最佳平台,J2EE简化了基于工
随着机群系统规模的扩大,可靠性问题已成为制约机群系统应用的重要障碍.目前,针对机群系统可靠性的相关研究主要分为两类.一类以部件冗余为基础,以提供不间断服务为目的的高
“存储墙”问题一直是制约计算机系统性能的关键因素。随着多核处理器成为主流,单个芯片上可以同时运行的线程个数越来越多,这些线程同时竞争有限的访存资源,使得内存控制器面临
科学数据库经过二十多年发展,积累了大量科学数据资源。如何对这些分布、异构的数据资源进行集成和互操作,成为一个亟待解决的问题。由于传统元数据以及异构数据集成技术的局限
学位
视频运动分析试图赋予计算机对视频中出现的运动目标进行自动检测、识别、跟踪,进而对其运动行为进行智能推理的能力.该研究具有重要的学术研究价值和广阔的商业应用前景,本
虚拟机技术将操作系统与硬件资源隔离开来,在很多方面极大的方便了人们对计算机软硬件资源的管理。虚拟机在线迁移技术,是基于虚拟机技术的典型应用,能够将操作系统实例透明地在
随着网络技术的发展,互联网上的信息呈指数快速增长。人们利用搜索引擎,例如baidu,google从海量的信息中查找所需。然而,当前的搜索引擎只是把互联网上的网页收集到本地数据库,并
微粒群算法是一种基于群体智能的随机优化算法。其思想来源于人工生命和演化计算理论。微粒群算法通过微粒追随自己找到的最好解和群体找到的最好解来完成优化。该算法由于容
土地档案管理是国家档案的重要组成部分。土地档案管理不仅是土地管理工作的一项重要内容和基础工作,也是全面、科学用好土地的重要保证。随着社会主义市场经济的不断发展,土地