用户输入行为在中文分词中的应用研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:jimmyreagan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户输入行为是指用户在使用中文输入法进行文本输入时所发生的击键、修改、查找、选择和确认等操作,以及这些操作背后所蕴含的规律的总和。用户输入行为中蕴含了丰富的信息,但这些信息却一直没有被很好地记录和利用。本文对中文输入行为展开分析和研究,发现其中隐藏着宝贵的分词标注信息。这些标注信息可以用于实时、便捷地构建分词语料,并为解决中文分词任务中现有的诸多问题提供了新的视角和思路。论文的主要工作包括:(1)提出了自然输入标记文本的概念,并归纳出三种用户输入模式。通过大量实验数据的观察和分析,发现用户在使用输入法进行文本输入时会大量用到数字键、空格键等辅助输入键来选择需要的词条。在选择词条的过程中,用户实际上是使用辅助输入键对输入文本进行了分词。传统的文本保存格式并没有保存这些用户在输入过程留下的分词标记,而我们设计了新的文本保存格式将输入文本连同输入过程产生的分词信息都记录下来,并命名为自然输入标记文本。本文归纳出了不同用户在输入自然输入标记文本时的三种模式,而且发现符合其中一种模式的自然输入标记文本的分词结果接近或等于标准分词结果,此类型的文本被称为高质量自然输入标记文本。产生高质量自然输入标记文本的用户称为优秀输入用户,他们可以源源不断地产生高质量的标注文本,用来快速构建分词语料。(2)研究了影响高质量自然输入标记文本形成的因素,发现产生分词作用的短片段输入方式是熟练用户的自然选择。本文从语言发展、理论推导、实践应用三个层面研究了影响用户输入习惯的原因,并揭示了基于词和短语的短片段输入是“经济且高效”的输入方式,并且这种方式也正是优秀输入用户的自然选择。由此解释了熟练用如何产生高质量自然输入标记文本,同时也说明了为什么可以将高质量自然输入标记文本作为可靠的分词语料来使用。(3)提出了高质量自然输入标记文本的筛选算法。采用协同过滤的方案来迅速有效地筛选高质量自然输入标记文本,并发现输入习惯良好的优秀输入用户。通过“以文选人,依人产文”的思想,不断地跟踪和保留优秀输入用户公开发表的带有自然输入标记的文本,可以获得大量由用户在输入过程中非刻意标注产生的分词语料。(4)将高质量自然输入标记文本的优势与深度学习中的“表示学习”和双向长短期记忆网络等融合,提出了一种新型的自动分词架构。此分词架构的核心特点和作用是:可使用户参与到分词器的进化过程中,让分词器完成了“用户→数据→算法→系统→用户”的循环连接,赋予了分词器不断进化的能力。
其他文献
随着工业技术的发展,多机器人系统目前已在工业操作、巡逻侦察、灾情救援、环境勘探、智能物流、智能农业,和消费娱乐等方面有了长足的发展。智能体(Agent)的概念为无人车、
半导体量子点,具有溶液法制备、光谱可调节、发射峰窄等特点,在广色域显示中表现出应用前景。目前正在产业化的CdSe或InP量子点,一般采用“热注入”合成及厚核壳结构,存在制
目标跟踪技术作为计算机视觉领域的关键技术,被广泛应用于视频监控、智能交通、人机交互、军事、医疗以及增强现实等领域。近十年来,国内外研究人员对目标跟踪技术进行了深入
随着互联网技术的发展,以并行、结构化方式构成的分布式、多层次异构的组织主体系统(Orangniational-agent System)得到了广泛的应用,例如:动态构件系统(Dynamic Component O
21世纪中对人类社会影响最大的资源之一就是能源,而开发可再生的清洁能源成为了我们首选的目标之一,与此同时对于这些能源的存储与利用需要大量的电池设备。锂离子电池作为当
本文基于对自然界现象的仿生模拟,结合对表面浸润性的理论研究,在各种基底表面,包括金属材料、碳毡材料、PU海绵等,可控制备了不同浸润性的表面。表面微纳米阶层结构,和较低
在多智能体系统协调控制研究中,随着对线性系统协调控制理论的不断完善,学者们逐步将更多的注意力转移到了非线性系统上。由于Lagrangian系统能够代表许多机械系统,且其模型
百科知识库(如Wikipedia、百度百科)对百科知识的整理和应用具有重大意义。百科知识库不仅成为人们日常搜索知识的主要平台,而且还为许多应用提供知识来源。据统计,相对于实
随着人类深空探测步伐的加快,载人火星任务已经纳入了火星探测日程。面向载人火星任务时,实现对载人登陆火星热点区域的自主通信、导航、观测,始终保持火星与地球地面站之间
随着全球卫星导航系统(GNSS)的发展及其应用领域的增多,对GNSS接收机导航定位性能提出了越来越高的要求。但是,近年来出现了大量的扫频式干扰机,发射GNSS频带内的干扰信号,给