基于改进k-means算法的专利文本聚类研究

来源 :河北工程大学 | 被引量 : 1次 | 上传用户:sasaruru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利记录了发明创新的内容,包含了各学科的技术信息。专利作为技术发展的基石,不仅展现了最新的技术发展现状、还指导了各学科的技术未来发展方向。随着各学科科学技术的迅速发展并在不断加快的情况下,专利数据呈指数型增长,随着专利信息积累的不断增多,从数量巨大的专利信息库中得到有价值的专利信息对竞争情报具有重要价值。专利蕴含了很多有价值的信息,对专利数据的综合分析能获得很多有价值的科技进展情况,对掌控技术优势能力和计划技术将来的发展方向有巨大价值。从数量巨大的专利信息中,通过数据挖掘技术,挖掘专利中包含的有价值的信息,去除没有价值的专利信息,进而把相似的专利进行聚类分析对比,提取相关专利的关联信息、互补信息、引文引证信息、发展趋势信息。数据挖掘技术包含通过无监督聚类的方法进行分析、构建神经网络的方法进行分析、构建决策树的方法进行分析、利用模拟遗传的方法进行分析、构建粗糙集的方法分析、构建模糊集的方法进行分析、构建数据关联规则的方法法进行分析。k-means算法类属于聚类算法,应用k-means算法对专利数据进行聚类分析,针对k-means聚类算法对离群点非常敏感、获得初始中心点的不科学方式会导致实验结果的波动、很多学者提出的改进算法需要作者选取必要的相关参数,得到的结果依赖参数值的设置等问题,提出一种梯度跃迁改进算法,不需要设置参数,无监督获取初始聚类中心点,可有效去除噪声点,通过在UCI机器学习文本数据集上的仿真实验得到,算法稳定性、抗干扰性、准确性强,聚类结果波动性在5%左右,可去除96%的噪声点,可应用于文本聚类问题。通过以钢铁行业相关专利作为分析数据,应用自然语言处理方法把专利文本转换为权值,通过梯度跃迁优化的k-means改进算法对专利进行聚类,然后通过抽取相关特征找到关键词,进一步挖掘数据中的深层次信息,给相关专利数据集加上能反应其特点的标签,提高了对专利分析的能力和效率。
其他文献
随着信息时代的发展,人类需要处理信息的量级激增且应用场景复杂化,传统采样定理的应用遇到瓶颈。压缩感知能以较低采样率对具有稀疏特征的信号完成采样和压缩,实现了直接将原始高维信号向低维观测信号的投影,再由重构算法精确恢复出原始信号,极大地减少了采样和存储的压力。重构算法是压缩感知理论在实际应用中的关键,如何提升重构算法性能(重构效果、重构速度、抗干扰能力等)一直是研究的热点。本文旨在从压缩感知中的贪婪
语音识别不仅在人机交互、人工智能(AI)、自然语言处理(NLP)等方面扮演着重要的角色,还是当下的研究热点。说话人的三维特征识别,就是通过说话人的语音信号分析出表征说话人性别、年龄和情感的信息,并对说话人的性别、年龄和情感进行识别,这对刑事案件侦查、智能医院、智慧法院等具有重要的现实意义,如:识别出驾驶员的情绪状态可以提前进行提醒,减少交通事故的发生,在心理咨询中准确识别来访者的情绪有利于咨询过程
数字时代,数据密集型科学研究范式逐渐替代传统科学研究范式,由于科学数据在数据密集型科学研究范式中具有重要地位,因此引起人们对科学数据的大量研究,并围绕以科学数据为核心的科学数据服务进行了研究。研究科学数据与科学数据服务对开展数据密集型科研服务有着重要意义。高校图书馆拥有资源、人才和技术多维度优势,能够将这些优势转化为科学数据服务能力,为高校科研贡献自己的力量,并在高校科研服务中扮演着重要角色。对高
随着国家宽带战略的实施落地,接入网技术成为了影响有线宽带网络发展的关键因素,而有线同轴网络作为国家信息基础设施的重要组成部分,对构建国家新一代信息基础网络、实现三网融合、延伸现代服务业范围具有重要的意义。高性能同轴电缆宽带接入(High performance Network Over Coax,HINOC)技术是针对我国有线同轴网络特性研发的唯一具有完备自主知识产权的同轴宽带接入技术,可提供千兆
改革开放四十年来,中国经济得到了飞速发展,企业通过积极参与产学研协同创新,提高了企业经营绩效。企业为了提高创新能力,培养优秀创新型人才,迫切需要与高等院校及科研机构建立长期稳定的合作创新关系。在这一背景下,越来越多的企业主动建立与高等院校及科研机构的合作创新网络。产学研协同创新的本质是企业、高等院校和科研机构等创新主体在利益共享、优势互补、风险分担等原则的基础上,合作开展研发创新活动,以实现科研、
城市污水中的废水处理和资源利用一直是水处理邻域的重要研究内容。试验利用厌氧流化床-旋转膜生物反应器(Anaerobic fluidized bed-rotating membrane bioreactor,AFRMBR)处
同步是通信系统中最为关键的技术之一,正交频分复用技术中时间同步和频率同步尤为重要,其主要作用是确定OFDM正确的定时位置与估计OFDM频偏。而定时同步直接会影响到后续的信道估计、译码等步骤。目前已经有许多经典的OFDM同步算法,针对不同的信道条件,不同的同步算法表现出不同的性能。OFDM同步算法可以分成两类,一类是基于循环前缀(Cyclic Prefix,CP)的同步算法,有最大似然估计(Maxi
缺氧诱导的肿瘤干细胞(CSC)休眠是临床癌症治疗的关键问题,因为它们在肿瘤微环境(TME)中处于"休眠状态",这使得CSCs能够逃避免疫系统的监视,发展对抗癌症治疗的技能。因此,消除缺
随着我国“一带一路”倡议的大踏步前进,越来越多的中国工程承包企业进入国际市场,从事对外工程承包的企业数量迅速增加,企业规模和体量也在不断增加。而对外工程承包项目的显著特点通常是投资金额较大,项目建设周期长。因项目所在地不在本国,通常情况复杂,在项目执行过程中更容易受到不可预见的因素影响,对项目执行中发生的风险无法及时处理。如忽视或低估这些风险因素会给工程承包企业带来巨大损失。项目执行中的风险控制是
随着科技发展,人类已步入以计算机为核心的电子产品时代,人机交互成为了各国研究的重点项目之一。与此同时,智能家居技术也相伴而生。由于手势能够便捷地操作各种设备,是智能家居领域中更为自然、舒适、有效的人机交互方式,因此,对于挥手运动的检测与识别成为了许多科学家们的研究热点。现有的代表性技术包括数据手套技术、声学技术和机器视觉技术等。数据手套技术虽然实时性好精度高,但用户需要一直佩戴束缚性设备,缺乏舒适