中文社交网络变体词的规范化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:vicky1924
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络中的文本具有随意性和非正规性等特点,其中一种常见现象是变体词在社交网络中大量存在。人们往往为了避免审查、表达情感、娱乐等将原来的词用变体词替代,替换成相对不规范、不敏感的词,替换的词成为变体词,原来的词成为目标词。变体词的规范化研究以中文社交网络中的变体词为对象,利用社交网络中的文本找到变体词所对应的初始目标词。该任务旨在高效地规范化社交网络中的文本,为下游的自然语言处理任务提供强有力的支撑。  本文将此任务分为两个子问题(变体词候选目标词获取和变体词候选目标词排序)进行研究。  (1)变体词候选目标词获取:对于每一个变体词,根据其所在文本的时间、上下文语义等特征,从社交网络文本中提取一个候选目标词集合。本文分析了变体词和目标词在时间、话题和多数据源分布上的关系,提出了一种基于时间窗口和话题相似的多数据源候选目标词获取方法,从而在降低候选目标词集合规模大小的同时,保证候选目标词集合达到较高的覆盖率,在集合规模和覆盖率上取得平衡。  (2)变体词候选目标词排序:对候选目标词集合进行排序,得到一个按照与变体词相关性高低排序的候选目标词集合。本文分析了变体词和目标词之间的异同之处,使用基于神经网络的字词联合训练词向量方法,利用深度学习技术,结合变体词和候选目标词的上下文以及组成词语的字信息,学习出词语的语义表示,计算变体词和候选目标词之间的相似度,从而根据相似度进行排序。  (3)实验结果表明,本方法是有效的,比现有最好的方法表现出一定的优势,特别是在与目标词具有相同字的那些变体词上表现非常好。  本文的创新点主要有:  提出了一种基于时间窗口和话题相似的多数据源候选目标词获取方法。  提出了一种基于字词联合训练的候选目标词排序方法。  综上,本论文通过变体词候选目标词获取和变体词候选目标词排序两个步骤,实现了中文社交网络的变体词规范化任务,在准确率上达到了一个比较好的效果。
其他文献
BLAS(Basic Linear Algebra Subprograms)是一个以向量和矩阵为操作对象的基础函数库。该库中函数分为3个级别,各个级别分别提供了向量-向量(1级)、向量-矩阵(2级)、矩阵-矩阵(3级)
本论文系统分析了J2EE核心技术和OGSA技术,讨论各自的特性,提出集成OGSA和J2EE技术需要系统解决下面问题:1, 扩展J2EE应用服务器功能,支持OGSI1.0规范,可以在J2EE应用服务器上部署
在移动无线因特网中,移动和组播的结合为两者的应用提供更广泛的发展空间,但同时也带来了新的问题.不同的接收用户,特别是移动用户和固定用户可能因为资源差别或不同的服务需
该文主要对普通网络系统和无线通信网络的可靠性问题进行了研究.按照网络的拓扑结构可分为两部分.1.一般计算机通信网络的可靠性,首先我们定义了一类网络—桥网络,给出了无圈
针对JavaScript语言特点,结合自行开发的嵌入式浏览器JLBrowser对JavaScript的实际需求,可以采取语言编译/解释模型构建嵌入式JavaScript解释系统.解释系统中编译器子模块的
辽宁通信运营支撑系统经过多年的建设,建立起了比较全面的各专业计算机管理系统:计费系统、九七系统、专业网管系统、专业资源系统、客服系统.这些已建成的系统在辽宁通信的
数据采集和存储技术的进步导致人们拥有数据的能力急剧提高并且已经捌有的大量数据还在不断地呈指数级的速度增长.隐藏在这些数据之后的更重要的信息是关于这些数据的整体特
随着基因测序技术和人类基因组计划的发展,人们积累了越来越多的生物序列信息.如何分析这些生物序列,从中找到人类和其它生物的遗传规律,并提取有价值的知识,是目前人们面临
随着经济全球化的发展,越来越多的软件组织发现竞争越来越激烈.因此,需要寻找到一个提高产品质量,增加竞争力的办法.于是,开始采用了一种由爱德华·戴明提出的管理方法,这种
软件设计在传统上遵循“黑箱”(black-box)抽象的原则,即一个模块应该呈现其功能而隐藏其本身的实现,这一点已成为处理计算机领域中许多重要问题,如可移植性、可重用性等的基本对