基于文本挖掘的领域信息聚类分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:thedogstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在本篇文章中,主要解决了两个问题:文本聚类优化算法的研究和专利地图系统的开发。对于第一个问题,我们提出了一种意在将数据分层表征的非负自适应稀疏编码算法(NMSC),它为探究数据的隐藏元素和分层表征提供了一种有效的框架。所有的数据在初始时被置于根层,随后的子层相当于对数据的进一步拓展分析。在任一子层中,对于不同的基底,每个数据的稀疏性是不同的,它需要根据上一层该数据在基底上的响应程度进行调整。同时,原始数据的非负特性也被保留。因此,在保证数据重构的基础上,每一层数据的稀疏性皆为自适应,之间存在着联系。最后,通过不断调整每层不同基底上的稀疏度,所有数据都可以被准确地描述成由数个隐藏元素的线性叠加组合,并归入相应的类中,形成一种树型结构。在一系列的实验评估后,NMSC算法在文本聚类领域中表现出色。对于第二个问题,我们将NMSC算法应用于专利地图系统的研发中。基于SSH框架的网站平台上,通过NMSC算法对文本数据的分析,我们成功实现了一种全新的专利地图的可视化,展示出一个更为清晰的树型专利信息框架,并剖析所研究信息的发展状况、热度以及重要性,从而有助于提高专利信息的检索效率以及规避相关技术的重复开发。
其他文献
现在的高等数学教育大多局限于传统的教育模式,即老师的“教”与学生的“学”,这将越来越不适应当今社会的发展。文章针对这个问题,提出了在高等数学教学中“再创造”性学习
[目的]探讨品管圈活动在缩短高峰期门诊病人血标本采集等候时间的应用。[方法]运用品管圈管理工具,采用查检表,运用鱼骨图、柏拉图找出真因,针对6个真因制定改进措施。[结果]
始建于14世纪的佛罗伦萨圣母百花大教堂被誉为文艺复兴时期欧洲最具创新性的划时代之作,其中大教堂的穹顶部分最为人称颂。作为拥有最大砖砌穹顶的教堂,圣母百花大教堂的“穹