【摘 要】
:
互联网时代的文本类数据管理的关键在于高效的信息检索、深度的信息挖掘以及自然语言处理。文本情感分类作为这些技术的一个重要环节,无疑是众多学者关注的重难点。在数据量爆炸的当下,通过人工实现文本分类已然不可取。随着机器学习和深度学习等技术的日益发展成熟,人们的目光逐渐转向如何实现文本的自动分类。而在各种文本分类问题中,短文本的分类问题面临的挑战格外突出。短文本在互联网时代占据了海量数据中非常大的一部分,
论文部分内容阅读
互联网时代的文本类数据管理的关键在于高效的信息检索、深度的信息挖掘以及自然语言处理。文本情感分类作为这些技术的一个重要环节,无疑是众多学者关注的重难点。在数据量爆炸的当下,通过人工实现文本分类已然不可取。随着机器学习和深度学习等技术的日益发展成熟,人们的目光逐渐转向如何实现文本的自动分类。而在各种文本分类问题中,短文本的分类问题面临的挑战格外突出。短文本在互联网时代占据了海量数据中非常大的一部分,但在性质上,相较长文本,短文本的特征维度高密度低,语义前后相关性强,噪声相对较多等特点。这使得短文本的处理常常效果不尽如人意。如何高效地对短文本进行知识提取,打破短文本数据在情感分类、商品推荐、决策指导、舆情跟踪等领域应用的壁垒,是当前大数据挖掘技术突破的肯綮所在。本文针对中文短文本分类问题,将fast Test预训练模型与循环神经网络相结合,获得了比传统方法显著提高的分类精确率。本文工作主要包含以下几点:(1)提出一种新型文本分类方法,为了有的放矢地解决中文评论短文本分类问题,在文本表示上应用了fast Text预训练模型,创新性地将其与深度学习分类器LSTM结合起来,以解决中文短文本评论特征稀疏、语义多层导致其真实情感难以挖掘的问题。(2)在不同的数据集上分别将上述模型进行实验研究和分析,从运行效率和精确率两方面与采用线性分类器的fast Text以及传统的word2vec+LSTM的方法进行比较。结果表明,该方法的使用能够有效提高分类任务的精确率,对不同数据集有较好的适应性,基本能实现80%以上的分类精确率,在一些数据集上可以达到95%以上的精确率,且在各个数据集上均优于其他2种方法,尤其是在语义相对复杂的数据集上,比线性分类器的分类精确率有5%的提高。
其他文献
私募可交换债券是近年来在我国新兴的一种基于股权的融资工具,与其他融资工具相比,它有一些独特的优点,受到了发行人的青睐。定向增发是一种非公开的、对特定对象发行股票的再融资行为。由于监管较为宽松,一些上市公司的大股东试图利用私募可交换债券和定向增发相结合的方式进行减持并套利。本文选取了我国资本市场上两个典型的案例——东旭光电和中珠医疗为研究对象,这两家上市公司的大股东也都试图运用“定向增发+私募EB”
随着社会信息化脚步的加速,信息时代对信息人才的培养提出更高的要求。要培养符合信息社会发展要求的信息技术人才,应当以前沿的教育教学理念为基本导向,全面培养其核心素养。如今,在倡导培养学生核心素养的教学浪潮下,信息意识作为高中信息技术四大学科核心素养之一,开始受到教育研究者和教学实践者的热切关注。为了适应信息化教学改革的需要,初中生应当具备一定的信息意识。然而,现有的信息意识评价研究还不能满足实际教学
股票更名的现象普遍存在于国内外的资本市场,据统计,美国资本市场至少有百分之三十以上的上市公司曾更改过股票简称。随着我国资本市场的成熟与发展,股票更名浪潮也席卷了我国上市公司。最早的股票更名事件是在1992年“上海申华”更名为“申华实业”,该年度只有这一起股票更名事件。2000年全年股票更名事件共60起,而在2016年股票更名事件已达到240起,是2000年更名事件数目的三倍。那么上市公司为什么热衷
随着人口转变进程的推进,世界各国的人口结构和人均寿命均处在一个转型的关键时期。此时,人口年龄的结构也随之发生了深刻而剧烈的变化。老年人比重上升,年轻人口比重下降,几乎所有的国家都在经历着人口老龄化这一现象,这已经成为了每个国家不可回避且无法逆转的问题,这其中也包括中国。中国的人口老龄化程度的每一次加深也伴随着人口平均寿命的提升,现在老年人已经呈现出了长寿化和高龄化的趋势。与此同时,全国医疗卫生费用
互联网的快速发展,致使信息大爆炸时代的出现。这既使得影响股票市场的新信息来源呈现多样性和多层次性,也使得投资者更易于获得关于股票市场的新信息。中国500强榜单的公布是会经由互联网媒体进行报道的,由于事件由媒体进行报道,且中国500强榜单公布是与股票市场相关的新信息,必然引发投资者的广泛关注,而投资者的关注行为会影响投资者的金融行为,投资者金融行为也将影响其所关注公司的股票价格和股票收益率,所以本文
男子健体是国际健美健身联合会新设立的一项男子竞技体育项目,男子健体比赛以身高为标准划分运动员级别,比赛过程中运动员着不透明、非紧身齐膝短裤,在赛场舞台上进行指定路线行走和四个转向的规定动作对比,裁判依据运动员体型、肌肉状态、动作造型等多个方面进行综合评比打分。我国自2014年开设男子健体项目以来,男子健体比赛受到众多的健身爱好者的喜爱,参赛选手数量逐年与日俱增,然而,我国男子健体运动员整体竞技水平
本文是笔者的亲身汉英交替口译实践报告。此次口译任务由成都外事处委托,为期6天(2020年10月1日至2020年10月6日)。笔者的主要任务是为托尼先生和罗伯特先生进行汉译英交替传译,两位大使分别担任牙买加和巴哈马驻华大使。此次访蓉意在就于成都开发加勒比风情小镇进行商务洽谈。笔者希望本次实践能够加深其对释意理论的理解和应用,检验笔者的理论应用能力,找出不足之处,提升将来的口译表现,并为其他口译学习者
本文主要关注的是晚清民国时期云南境内的插花地与飞洒地。所谓“插花地”,指的是政区边界之间犬牙交错的地段;“飞洒地”即“飞地”,指的是属于某一行政区管辖,但不与本区毗连的土地。插花地与飞洒地是特殊的行政区划现象,是中央政治手段在具体行政区划中的具体体现,历代均有分布。明清以来,由于“卫所屯田”和“土司制度”的影响,插花地逐渐增多,影响到了政府管理和经济发展。晚清民国以来,插花地与飞洒地的弊端日益严重
随着信息技术的发展与新兴软件的出现,收集和使用公民个人信息的渠道逐步变多,而且使用效率也得到极大提升,无论是政府公权力还是非公权力,亦或是网络或者各大电商平台都无时无刻地掌握着公民的个人信息。目前,我国随着科学技术的发展,已经进入了大数据时代,在大数据时代背景下,个人信息随处可见,这就导致个人信息的非法收集、储存、交易、售卖等情况发生。个人信息似乎是私权利保护的范畴,但是个人信息的泄露、售卖、交易
在全球经济一体化的背景下,国内外企业的竞争已经开始转变为品牌的竞争。我国企业若想在国际竞争中获得领先优势,就必须树立起品牌意识,塑造自主品牌,从“中国制造”走向“中国智造”。研发活动在企业培育品牌的过程中起着至关重要的角色。企业投入创新资源后,获得的核心技术和知识产权会使其具有较高的市场知名度和美誉度,可以引导消费者的购买行为,进而产生品牌效应,提升品牌价值。此外,企业面临的外部环境、自身的产权及