【摘 要】
:
文本挖掘中采用向量空间模型(VSM)来表达文本特征,表现出巨大的维数,从而导致处理过程计算复杂,为此,需要先对文本特征矩阵进行合理的降维处理.隐含语义分析(LSA)、概念索引(CI)、
【机 构】
:
天津大学系统工程研究所,上海海事大学计算机系
论文部分内容阅读
文本挖掘中采用向量空间模型(VSM)来表达文本特征,表现出巨大的维数,从而导致处理过程计算复杂,为此,需要先对文本特征矩阵进行合理的降维处理.隐含语义分析(LSA)、概念索引(CI)、非负矩阵分解(NMF)和随机映射(RP)是几种有效的降维方法,在分析降维空间的含义和计算复杂度后,通过文本聚类实验比较和分析了这几种降维方法的差异,实验表明,这些方法不仅可以对文本特征空间作有效的降维处理,还能在不同程度上凸现文本和词条之间的语义关系,从而提高文本挖掘的效率和准确率.
其他文献
针对当前虚拟企业伙伴选择方法存在的不足,提出了虚拟企业合作伙伴选择的BP神经网络模型:文中首先构建了虚拟企业合作伙伴选择评价指标体系,在该体系的基础上,构建了BP神经网络评
研究并实现了一个以安全审计和监控技术为基础的大规模多用户网络安全监控与审计系统的方案,其特点是支持大规模多用户并发访问而不相互冲突,该系统不仅适合于班级规模的安全
文章探讨了在新形势下如何让图书馆走近读者;提出加强图书馆馆舍建设,加强延伸服务,从服务空间上走近读者,通过网络服务、有线电视、手机等现代化手段从服务手段上走近读者。
贝叶斯算法在垃圾邮件过滤中应用广泛。针对算法提高精确率和召回率的矛盾,提出了。一种新的基于多贝叶斯算法组合的垃圾邮件过滤方法,并给出了不同方法下中、英文垃圾邮件过滤
通过分析合同能源管理模式,结合电网企业发展的实际情况.提出了促进电网企业节能减排发展的措施和建议。
随着城市道路交通供需矛盾的不断突出,交通信号控制策略、控制方法的科学合理性成为影响城市交通性能的关键因素。分析了传统最优交通控制理论的不足,揭示了交通控制中的满意性
从中小型图书馆的常规服务、人文服务、专题服务的延伸与深化方面作了探讨,以求实现图书馆资源利用的最大化。