论文部分内容阅读
社交网络中的文本具有随意性和非正规性等特点,其中一种常见现象是变体词在社交网络中大量存在。人们往往为了避免审查、表达情感、娱乐等将原来的词用变体词替代,替换成相对不规范、不敏感的词,替换的词成为变体词,原来的词成为目标词。变体词的规范化研究以中文社交网络中的变体词为对象,利用社交网络中的文本找到变体词所对应的初始目标词。该任务旨在高效地规范化社交网络中的文本,为下游的自然语言处理任务提供强有力的支撑。 本文将此任务分为两个子问题(变体词候选目标词获取和变体词候选目标词排序)进行研究。 (1)变体词候选目标词获取:对于每一个变体词,根据其所在文本的时间、上下文语义等特征,从社交网络文本中提取一个候选目标词集合。本文分析了变体词和目标词在时间、话题和多数据源分布上的关系,提出了一种基于时间窗口和话题相似的多数据源候选目标词获取方法,从而在降低候选目标词集合规模大小的同时,保证候选目标词集合达到较高的覆盖率,在集合规模和覆盖率上取得平衡。 (2)变体词候选目标词排序:对候选目标词集合进行排序,得到一个按照与变体词相关性高低排序的候选目标词集合。本文分析了变体词和目标词之间的异同之处,使用基于神经网络的字词联合训练词向量方法,利用深度学习技术,结合变体词和候选目标词的上下文以及组成词语的字信息,学习出词语的语义表示,计算变体词和候选目标词之间的相似度,从而根据相似度进行排序。 (3)实验结果表明,本方法是有效的,比现有最好的方法表现出一定的优势,特别是在与目标词具有相同字的那些变体词上表现非常好。 本文的创新点主要有: 提出了一种基于时间窗口和话题相似的多数据源候选目标词获取方法。 提出了一种基于字词联合训练的候选目标词排序方法。 综上,本论文通过变体词候选目标词获取和变体词候选目标词排序两个步骤,实现了中文社交网络的变体词规范化任务,在准确率上达到了一个比较好的效果。