论文部分内容阅读
教计算机"学习"并不像听起来那么遥不可及。计算机如何区分手写数字的图片?或者学习将文字分类?这些事情都可以通过将许多简单的单元串起来,建立起一个学习网络来解决。该研究领域称为“人工神经网络”,它能够解决许多非常复杂的问题,本文研究基于人工神经网络的文本分类问题。
本文的第一个贡献是为神经网络引入了一种新颖的激活函数。激活函数是人工神经网络架构的核心,它使人工神经网络能够对输入和响应变量之间的复杂关系进行建模。没有激活函数的神经网络将只是一个线性回归模型,其表现力有限,对于非线性问题的建模能力不足。虽然从理论上讲,激活函数可以是任何可微分的数学运算,但在训练神经网络实际情况中,只出现过少数几个可以很好运行的激活函数。事实上,几十年前,研究者们就已经定义了“理想”激活函数的主要特性,即连续可微分性、非线性、有界(即它应该有一个最小值和最大值)、对称(最好是围绕原点),这些特性解释了为什么人们起初广泛采用西格和双曲正切函数作为激活函数。然而,最近它们已经不受青睐了,而是被新的激活函数所代替,如整流线性单元(ReLU)和maxout。这些新的函数对于在许多现实世界问题上训练深度神经网络表现出了更好的响应,但它们的设计却忽略了上面提到的关于激活函数的许多主要属性。传统的激活函数对于许多现实世界问题的表现不好,特别是在训练深度神经网络时,往往存在消失/爆炸梯度下降的问题。本文精心设计了一个满足“理想”激活函数每一个属性的新激活函数,并使得神经网络在训练速度和精度方面的性能都得到大幅提升。我们将提出的激活函数命名为rectifiedhyperbolicsecant(ReSech)。
本文的第二个贡献是通过基于字符的文本分类来解决“理解语言”的问题。人们常常觉得这是一个自然语言的“理解”问题而不是“分类”问题,后来发现通过文本分类来解决“理解语言”这一艰巨任务是独辟蹊径且可行的。首先,在社交媒体时代,很多用户创建的内容是杂乱无章的、非结构化的,甚至有人会说是无意义的。通过分析凌乱文本的语法结构来提取数据非常具有挑战性,因为凌乱的文本并不遵循标准的语法规则。其次,语言确实会随着时间的推移而发展,人们不断地创造新的流行语和备忘录,尤其是在网络世界里。基于这些原因,以及更多的原因,通过文本分类来解决理解语言的问题是合理的。对文本进行分类编码的方法主要有两种,即文字编码和字符编码。本文主要研究基于字符的文本分类,因为字符(像图像的像素)是句子最基本的结构。此外,与基于字符的文本分类技术不同,基于字符的文本分类有一个好处,它可以学习到错误拼写、表情符号和新词的建模。而且更重要的是,相同的模型可以用于不同的语言,甚至是那些无法细分到单词的语言。
本文的第三个贡献是设计了一种极其轻量级的、记忆效率极高的卷积神经网络架构用于文本分类。所提出的模型是非常精简的,因为它的参数只有一百多个,重量不到1兆字节。它的效率很高,因为它不需要调整参数以适应新的任务,也就是说,同一个模型可以用于不同的文本分类任务,可以在参数设置相同的情况下,在不同的数据集上使用同一个模型。鉴于其特性,我们将提出的模型命名为CharTeC-Net,它最适合于计算能力有限的平台。这个新的架构由四个构建块组成,用于特征提取。除了最后一个之外,每个构件都使用了1×1的点向卷积层来增加网络的非线性,并增加了每个构件内的维度。此外,每个构建块中都使用了快捷连接,以方便梯度在网络中流动,更重要的是确保了训练数据中存在的原始信号在每个构建块中共享。在八个标准的大规模文本分类和情感分析数据集上的实验表明,尽管CharTeC-Net比同类产品轻很多,与最先进的方法相比,CharTeC-Net依然表现出了优于基线方法的性能和很好的准确性。
本文的第一个贡献是为神经网络引入了一种新颖的激活函数。激活函数是人工神经网络架构的核心,它使人工神经网络能够对输入和响应变量之间的复杂关系进行建模。没有激活函数的神经网络将只是一个线性回归模型,其表现力有限,对于非线性问题的建模能力不足。虽然从理论上讲,激活函数可以是任何可微分的数学运算,但在训练神经网络实际情况中,只出现过少数几个可以很好运行的激活函数。事实上,几十年前,研究者们就已经定义了“理想”激活函数的主要特性,即连续可微分性、非线性、有界(即它应该有一个最小值和最大值)、对称(最好是围绕原点),这些特性解释了为什么人们起初广泛采用西格和双曲正切函数作为激活函数。然而,最近它们已经不受青睐了,而是被新的激活函数所代替,如整流线性单元(ReLU)和maxout。这些新的函数对于在许多现实世界问题上训练深度神经网络表现出了更好的响应,但它们的设计却忽略了上面提到的关于激活函数的许多主要属性。传统的激活函数对于许多现实世界问题的表现不好,特别是在训练深度神经网络时,往往存在消失/爆炸梯度下降的问题。本文精心设计了一个满足“理想”激活函数每一个属性的新激活函数,并使得神经网络在训练速度和精度方面的性能都得到大幅提升。我们将提出的激活函数命名为rectifiedhyperbolicsecant(ReSech)。
本文的第二个贡献是通过基于字符的文本分类来解决“理解语言”的问题。人们常常觉得这是一个自然语言的“理解”问题而不是“分类”问题,后来发现通过文本分类来解决“理解语言”这一艰巨任务是独辟蹊径且可行的。首先,在社交媒体时代,很多用户创建的内容是杂乱无章的、非结构化的,甚至有人会说是无意义的。通过分析凌乱文本的语法结构来提取数据非常具有挑战性,因为凌乱的文本并不遵循标准的语法规则。其次,语言确实会随着时间的推移而发展,人们不断地创造新的流行语和备忘录,尤其是在网络世界里。基于这些原因,以及更多的原因,通过文本分类来解决理解语言的问题是合理的。对文本进行分类编码的方法主要有两种,即文字编码和字符编码。本文主要研究基于字符的文本分类,因为字符(像图像的像素)是句子最基本的结构。此外,与基于字符的文本分类技术不同,基于字符的文本分类有一个好处,它可以学习到错误拼写、表情符号和新词的建模。而且更重要的是,相同的模型可以用于不同的语言,甚至是那些无法细分到单词的语言。
本文的第三个贡献是设计了一种极其轻量级的、记忆效率极高的卷积神经网络架构用于文本分类。所提出的模型是非常精简的,因为它的参数只有一百多个,重量不到1兆字节。它的效率很高,因为它不需要调整参数以适应新的任务,也就是说,同一个模型可以用于不同的文本分类任务,可以在参数设置相同的情况下,在不同的数据集上使用同一个模型。鉴于其特性,我们将提出的模型命名为CharTeC-Net,它最适合于计算能力有限的平台。这个新的架构由四个构建块组成,用于特征提取。除了最后一个之外,每个构件都使用了1×1的点向卷积层来增加网络的非线性,并增加了每个构件内的维度。此外,每个构建块中都使用了快捷连接,以方便梯度在网络中流动,更重要的是确保了训练数据中存在的原始信号在每个构建块中共享。在八个标准的大规模文本分类和情感分析数据集上的实验表明,尽管CharTeC-Net比同类产品轻很多,与最先进的方法相比,CharTeC-Net依然表现出了优于基线方法的性能和很好的准确性。