【摘 要】
:
短文本指的是长度较短,通常不超过100个字符,内容精炼内聚的文本,例如新闻标题和手机短信息都是典型的短文本。由于海量信息资源的出现,采用人工方式进行管理越来越不切实际
论文部分内容阅读
短文本指的是长度较短,通常不超过100个字符,内容精炼内聚的文本,例如新闻标题和手机短信息都是典型的短文本。由于海量信息资源的出现,采用人工方式进行管理越来越不切实际。分类可以在一定程度上解决网上信息杂乱的现象,方便用户准确地定位所需的信息和分流信息,文本分类则有助于用户有选择地阅读和处理海量文本。短文本分类与普通文本分类有很大的不同,本文将针对短文本的特殊性,对短文本分类算法进行研究。新闻标题和手机短信这两类典型的短文本将作为本文的研究重点。通过对短文本特有规律以及相关领域的深入分析,本文将包括基于短文本的多分类以及一类分类算法的研究。本文将以具有确定分类标准的短文本分类为应用背景,利用基于统计学方法对短文本进行词频统计,同时利用基于支持向量机(SVM)的分类技术,评价短文本与类别的相关关系。本文将短文本的多分类算法和一类分类算法的算法实现和精度提高作为主要研究方向。多分类算法指的是:对于给定的文本和已知的类别集合(多于一个),确定给定文本所属的类别。一类分类算法指的是:对于给定的文本和一个类别,确定给定文本属于这一类别的概率。在介绍多分类算法的过程中将以文本新闻标题的分类算法作为研究对象;在介绍一类分类算法的时候将以手机短信息的分类算法作为研究对象。本文的特点是充分利用短文本的独有特点,确定短文本与类别相关程度,在现有文本分类方法的基础上做出了适当改进,经过实验和参数调整,多分类算法和一类分类算法在训练集内部的分类准确率超过98%的情况下,多类分类算法平均准确率超过了86%,一类分类算法的平均准确率超过了90%,取得了较好的分类效果。
其他文献
自从Hoey (1991)的《语篇中的词汇模式》一书出版以来,在国内外语言教师和研究者中引起了巨大的反响。与此同时,关于词汇模式的研究也应运而生。但这些研究都局限于理论层次,
论文主要立足于库切小说的思想研究。库切从创作之初到获得诺贝尔文学奖这时期的作品,几乎每部作品都充满了对人的问题的思考,人的生存、以及生存中的困境是他小说中关注的主
搭载柴油机的小型、紧凑型车辆中,每缸两气门设计的柴油机仍然占有相当大的市场份额。论述了对1台1.2L每缸两气门柴油机中气道-气门-缸内气流的数值模拟研究,以描述其进气歧
以激光助视/微光夜间驾驶仪为研究对象,对其在不同夜间环境下的性能进行了野外试验,并对试验结果进行了分析和比较,验证了该车辆驾驶夜视仪达到各项预期指标,证实了系统参数
"双麻"现象主要指一些领导干部在事关人民群众冷暖安全、衣食住行等具体工作上"麻痹大意"、"麻木不仁",该现象直接危害群众利益、扰乱社会秩序、严重损害党和政府形象。突出
消防卫星通信的发展将把消防通信保障提升至更高的水平,最终提高消防部队应对突发灾害事故的处置能力和抢险救援能力。本文首先介绍了消防卫星通信的使用现状,然后根据卫星通
论文综述了植物诱导抗病剂的作用机理,以及在植物病害防治上的研究进展。苯并[1,2,3]噻二唑-7-羧酸硫甲酯(BTH)是一类新型的植物诱导剂,此类物质出现后受到了广泛的重视,在植物病
由孔孟开端的儒家思想是中国传统文化的主流。揭示孔孟思想的原貌对现代文化建设中批判地继承传统文化中优秀的部分具有重要的意义。“仁”是孔孟思想的核心概念。对“仁”的
在高吸油树脂中引入聚丁二烯(PB)柔性大分子链,能形成一种高交联度、低交联密度的松散三维分子结构,但PB也会参与多余的化学交联。使用与PB有类似结构但没有双键的乙丙共聚物(E
在经济全球化的今天,随着市场竞争的加剧和生产模式的转变,迫于成本的压力,企业与企业之间的关系己经由纯粹的竞争关系向一种竞争与合作的双重关系转变。企业在激烈的竞争中