论文部分内容阅读
在本篇文章中,主要解决了两个问题:文本聚类优化算法的研究和专利地图系统的开发。对于第一个问题,我们提出了一种意在将数据分层表征的非负自适应稀疏编码算法(NMSC),它为探究数据的隐藏元素和分层表征提供了一种有效的框架。所有的数据在初始时被置于根层,随后的子层相当于对数据的进一步拓展分析。在任一子层中,对于不同的基底,每个数据的稀疏性是不同的,它需要根据上一层该数据在基底上的响应程度进行调整。同时,原始数据的非负特性也被保留。因此,在保证数据重构的基础上,每一层数据的稀疏性皆为自适应,之间存在着联系。最后,通过不断调整每层不同基底上的稀疏度,所有数据都可以被准确地描述成由数个隐藏元素的线性叠加组合,并归入相应的类中,形成一种树型结构。在一系列的实验评估后,NMSC算法在文本聚类领域中表现出色。对于第二个问题,我们将NMSC算法应用于专利地图系统的研发中。基于SSH框架的网站平台上,通过NMSC算法对文本数据的分析,我们成功实现了一种全新的专利地图的可视化,展示出一个更为清晰的树型专利信息框架,并剖析所研究信息的发展状况、热度以及重要性,从而有助于提高专利信息的检索效率以及规避相关技术的重复开发。