论文部分内容阅读
用户输入行为是指用户在使用中文输入法进行文本输入时所发生的击键、修改、查找、选择和确认等操作,以及这些操作背后所蕴含的规律的总和。用户输入行为中蕴含了丰富的信息,但这些信息却一直没有被很好地记录和利用。本文对中文输入行为展开分析和研究,发现其中隐藏着宝贵的分词标注信息。这些标注信息可以用于实时、便捷地构建分词语料,并为解决中文分词任务中现有的诸多问题提供了新的视角和思路。论文的主要工作包括:(1)提出了自然输入标记文本的概念,并归纳出三种用户输入模式。通过大量实验数据的观察和分析,发现用户在使用输入法进行文本输入时会大量用到数字键、空格键等辅助输入键来选择需要的词条。在选择词条的过程中,用户实际上是使用辅助输入键对输入文本进行了分词。传统的文本保存格式并没有保存这些用户在输入过程留下的分词标记,而我们设计了新的文本保存格式将输入文本连同输入过程产生的分词信息都记录下来,并命名为自然输入标记文本。本文归纳出了不同用户在输入自然输入标记文本时的三种模式,而且发现符合其中一种模式的自然输入标记文本的分词结果接近或等于标准分词结果,此类型的文本被称为高质量自然输入标记文本。产生高质量自然输入标记文本的用户称为优秀输入用户,他们可以源源不断地产生高质量的标注文本,用来快速构建分词语料。(2)研究了影响高质量自然输入标记文本形成的因素,发现产生分词作用的短片段输入方式是熟练用户的自然选择。本文从语言发展、理论推导、实践应用三个层面研究了影响用户输入习惯的原因,并揭示了基于词和短语的短片段输入是“经济且高效”的输入方式,并且这种方式也正是优秀输入用户的自然选择。由此解释了熟练用如何产生高质量自然输入标记文本,同时也说明了为什么可以将高质量自然输入标记文本作为可靠的分词语料来使用。(3)提出了高质量自然输入标记文本的筛选算法。采用协同过滤的方案来迅速有效地筛选高质量自然输入标记文本,并发现输入习惯良好的优秀输入用户。通过“以文选人,依人产文”的思想,不断地跟踪和保留优秀输入用户公开发表的带有自然输入标记的文本,可以获得大量由用户在输入过程中非刻意标注产生的分词语料。(4)将高质量自然输入标记文本的优势与深度学习中的“表示学习”和双向长短期记忆网络等融合,提出了一种新型的自动分词架构。此分词架构的核心特点和作用是:可使用户参与到分词器的进化过程中,让分词器完成了“用户→数据→算法→系统→用户”的循环连接,赋予了分词器不断进化的能力。