基于进化模糊规则的Web新闻内容分类技术研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:worldfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今的大数据时代,网络每分每秒都会产生大量的行业数据,数据量之大几乎超出了现有的处理及分析工具的能力。另外,随着现代技术和生活水平的发展,人们对事物的认识也在不断演变。其中,Web新闻是人们每天都要接触的,他作为一种非常具代表性的数据,Web新闻内容以其多种多样的内容,实时发生且不断更新的性质,一直以来都是人们获取知识,了解时事的必要渠道。面对爆炸式出现的新闻内容时,如何快速直接的找到个人想要了解的新闻内容,并且能适应人们不断进步的认知,这是一个热门的研究课题。那么如何适应Web新闻类属繁杂且不断更新和演变的现状和趋势,对大量的新闻数据实现进化模糊机制的分类,就有着非常重要的研究价值。本课题围绕在进化模糊规则下对Web新闻内容分类的目标,从Web新闻内容的提取,并基于进化模糊规则对新闻内容进行分类研究,研究内容如下:1.基于进化模糊规则的新闻内容分类模型框架的建立。通过对各种已有的方法进行理解和实验评估,明白了现有框架如何建立的前提下,本文构建了基于进化模糊规则的Web新闻内容分类模型框架。确立了该框架的两个重要核心部分:Web新闻内容的识别提取和基于进化模糊规则的新闻内容分类。将文本的分类问题转化成为对自然语言的处理。2.Web新闻内容的识别提取。Web新闻内容的识别提取是基于进化模糊规则的分类方法的前提和必要条件。通过对构建分类模型的分析,确定了Web新闻内容识别提取十分重要,关系到后面最终分类的效果。本文从Web新闻的文字内容和新闻图片视频字幕内容两个部分来提取识别。文字内容部提出了结合网页分类用法和基于网页内容分割的主题内容抽取方法,Web新闻图片和视频帧图像字幕内容部分提出了采用边缘聚类初步定位,然后再使用基于BP神经网络与频谱分析的非文本滤除定位方法。通过实验和一些现有的方法相比,两种方法在我们研究的课题内容环境下都有一定的提高,而且后者对文字定位方法的准确率在一定条件下有着较大的提高。3.基于进化模糊规则的新闻内容分类。基于得到的Web新闻文字信息和视频文字信息,在不影响性能的前提下,对所提取的文字信息进行预处理步骤。本文利用互信息和词频-逆向文档频率(TF-IDF)算法相结合的方法滤除术语集来提高算法的执行效率,再通过改进一种基于模糊规则(FRB)的分类器,从而实现对Web新闻内容的进化模糊分类。通过实验与其它一些现有的方法对比,本方法分类的效果在给定一定阈值和类别数量时,在准确率和查全率两个重要评价指标方面都有所提高,可以实现较好的适应不断加入和演变的文本。本文的突出贡献有:在Web新闻内容文字的识别提取阶段,本课题提出了基于BP神经网络和频谱分析的非文本滤除定位方法;在Web新闻内容的分类阶段,本课题结合了互信息和词频-逆向文档频率方法来过滤掉描述能力过低的术语,通过改进现有的模糊规则分类器,实现了基于进化模糊规则的Web新闻内容的分类,从而使得新闻内容分类的准确率和查全率有了较好提升。
其他文献
汉宋兼采思想是清朝中后期兴起的一种兼容考据学与义理学的新型学术思想。清中期以前,汉学和宋学一直是中国思想发展史上较为瞩目的两种治学路径,它们也在不同的历史阶段发挥了各自的作用。乾嘉以还,社会环境较之前已大有改变,而传统学术在此时也似乎很难继续前进下去,学术界迫切需要一种新的思想来挽救当时的社会困境。浙江作为中国最先接触西方先进思想的地区之一,无疑会产生一些具有与时俱进思想的先进学者,部分浙江学者在
汉字是一种形音义结合的文字,是汉语的载体,也是对外汉语教学中的基础内容。然而,汉字笔画的复杂性,使得许多汉语学习者逃避汉字,试图以学习拼音回避学习汉字的方式来学习汉语。拼音在汉语学习中固然有着重要的作用,但是,大量汉语教师在教学过程中都能发现这样一个问题,仅学拼音使得学生的汉语基础极其脆弱。因此,即使学习汉字是一个难题,我们也应知难而上,缓解困难,解决问题。笔者在泰国进行对外汉语教学时,对现阶段汉
1936年,日本为侵略西南地区,强行在成都进行非法设领,此行为遭到了川籍民众的反对。川籍民众在上海等地成立反对设领团体,四川本地民众成立反对设领大会进行宣传。8月24日,四川民众与日本人在成都爆发冲突,最终演变为成都事件。成都事件爆发后,中国地方政府和中央政府都极力控制事态,希望成都事件成为地方事件尽快解决,并将事件责任推给了共产党。但是日本政府和日本民众都认为此事可以借题发挥,以此与南京政府交涉
蓝相液晶通常存在于各向同性相和手性向列相之间的一段狭窄的温度范围内(自然状态下为1~2 ~oC),可视为一种自组装结构的三维光子晶体。相比于传统的向列相液晶材料,蓝相液晶
铸铁和碳钢作为工业生产中应用广泛的铁碳合金,具有价格低廉、良好的铸造性能、切削加工性、减振性等优点,但在复杂应力的使用环境中,材料表面易出现磨损、变形甚至断裂。本文采用激光熔覆技术,在HT250灰铸铁和T10钢表面预置Cu-Ti-Ni混合粉末,制备Cu-Ti-Ni复合涂层。通过X’Pert PRO PANalytical型X射线衍射仪、S-3400N型扫描电子显微镜、4XCJZ金相显微镜等,分析了
人脸吸引力是遗传心理学和认知心理学的一个重要命题,研究结果可以给人脸进化(以及人类进化)提供科学依据。结合计算机的人脸吸引力研究可以完善传统研究方法存在主观性强、数据少的不足。在人脸吸引力的研究中,确定人脸模板是首要任务。本文基于迁移学习,提出了一种新的人脸吸引力人脸模板,在人脸模板基础上提取了三种表征人脸吸引力的几何特征,实验结果表明了人脸吸引力人脸模板是合理可行的。具体研究内容如下:(1)在人
周予同是中国经学史学科的缔造者,他在五四运动后投身于经学史研究,著述颇丰。其《皮锡瑞<经学历史>注》、《经今古文学》等著作都是中国经学史的必读书目,也是近代经学史研究的滥觞之作,对于民国时期的经学史、学术史研究乃至现代学术都有着非凡的开拓与奠基意义。周予同的学术研究在新中国建立前后曾发生过转向,其经学史领域的基础性研究大多集中于民国时期。新中国建立后由其一手创建的中国经学史学科也是以这
随着全球定位系统应用的普及,轨迹数据早已应用于人们日常生活中的各个领域。轨迹分段是轨迹数据挖掘中重要的预处理过程,合理有效的轨迹分段结果有助于理解和使用轨迹数据。然而,目前应用于轨迹分段的方法只能针对特定的应用领域及轨迹数据集。本文基于轨迹数据的语义特征,提出一种可适用于多种应用领域的轨迹数据分段方法,之后结合该轨迹分段方法分别构建一种轨迹语义标注框架和一种交通量预测模型。主要内容包括:(1)提出
在现实生活和网络世界里,每时每刻都会产生数量庞大、种类丰富的图像数据,给这些图像标注分类费时费力。因此,在机器学习领域,针对无标签图像的聚类分析是一个研究难点和热点。由于图像本身特征维度很高,对于图像聚类分析而言,图像特征的提取和高维特征的降维对聚类结果有重要影响。虽然人们已经提出了许多成熟的特征提取方法,但是这些方法关注的是图像的低层特征,很少同时关注图像的中间层特征。实际上,图像的中间层特征往
20世纪下半叶,英国传统的经验主义史学因“新史学”的勃兴、后现代主义史学的滥觞而备受冲击。历史研究的客观性、历史发展的规律性以及跨学科研究的可行性等问题成为新旧史