【摘 要】
:
单词向量化是自然语言处理领域中的重要研究课题之一,其核心是对文本中的单词建模,用一个较低维的向量来表征每个单词.生成词向量的方式有很多,目前性能最佳的是基于神经网络
【基金项目】
:
国家重点研发计划(2016YFB1000905);国家自然科学基金广东省联合重点项目(U1401256);国家自然科学基金(61672234,61402177);华东师范大学信息化软课题
论文部分内容阅读
单词向量化是自然语言处理领域中的重要研究课题之一,其核心是对文本中的单词建模,用一个较低维的向量来表征每个单词.生成词向量的方式有很多,目前性能最佳的是基于神经网络语言模型生成的分布式词向量,Google公司在2012年推出的Word2vec开源工具就是其中之一.分布式词向量已被应用于聚类、命名实体识别、词性分析等自然语言处理任务中,它的性能依赖于神经网络语言模型本身的性能,并与语言模型处理的具体任务有关.本文从三个方面介绍基于神经网络的分布式词向量,包括:经典神经网络语言模型的构建方法;对语言模型中存在的多分类问题的优化方法;如何利用辅助结构训练词向量.
其他文献
<正> 郭汉章为骨伤科界知名的老中医。他祖居河南洛阳平乐村。其先代自明末起就以正骨之长而著称乡里,他自幼就受传统正骨的熏陶。郭老现虽已年逾花甲,但精于实践。现就郭老
高技术条件下的现代战争,作战样式已经发展到由指挥控制系统、侦察监视系统、联合火力打击系统等各种系统构成的作战体系的对抗,战场中能否获取信息优势将决定战争的成败。在
针对HXD1B型机车投入运用以来接连发生辅助回路440V接地故障的情况,结合机车电路进行分析,找出了原因,提出了相应的解决措施。
针对转发式卫星欺骗信号传播方向同真实卫星信号的差异,提出一种在惯性信息辅助下,利用载波相位双差观测量进行欺骗信号检测的技术。根据转发式欺骗的特点,推导欺骗条件下的
随着科学技术的发展,科学、文明、健康的生活方式已经成为全社会的追求,也给学生的品德教育带来了更多的挑战与要求。那种重视传授知识、缺乏活动体验、教学活动单一却反情感