【摘 要】
:
该文结合向量空间模型和潜在语义模型两种方法的优点,提出了一种新的信息过滤方法,即在奇异值分解(SVD)的基础上,运用粗糙集(Rough Sets)方法进行文本挖掘.通过对词语×文档
论文部分内容阅读
该文结合向量空间模型和潜在语义模型两种方法的优点,提出了一种新的信息过滤方法,即在奇异值分解(SVD)的基础上,运用粗糙集(Rough Sets)方法进行文本挖掘.通过对词语×文档矩阵进行奇异值分解得出近似矩阵,该近似矩阵将与文档关系较密切的词语的数值增大,将与文档关系较小的词语的数值减小,改变了一些词语在相应文档中的重要性,从而使得词语更能很好的体现文档的内容.然后运用粗糙集理论中决策表上的规则推理方法,生成我们感兴趣信息的规则库,将未知文档的条件属性与规则库里规则进行相似匹配,进行信息过滤.我们通过实验,证明该方法在准确率和查全率方面比向量空间模型都要好得多,在准确率方面比潜在语义索引模型要好,只在查全率方面比潜在语义索引模型差一点.而且,该方法在空间复杂度上比潜在语义索引模型多存储一个向量,但是在过滤过程中的过滤速度却比潜在语义索引模型快了一个数量级,说明该方法是行之有效的.最后我们从理论上分析了出现上述实验结果的原因.
其他文献
众所周知,相对条件数衡量着矩阵的逆以及线性系统的最小二乘解对扰动的敏感性,因此在数值计算一个矩阵的逆以及线性系统的最小二乘解的时候,条件数显得非常重要.在文章的开始
对于非光滑优化,又可以称为不可微优化,它是最优化理论与方法的一个重要分支.解决非光滑优化问题的方法有很多种,如次梯度方法、光滑化方法、束方法和UV-分解方法.UV-分解理论利
关于非退化扩散过程的研究,已有一些结果.文[1]得到了N维(N≥2)非退化扩散过程样本轨道的象集的Hausdorff维数,而对N=1时,只得到了其象集的Hausdorff维数的一个上界估计(见[2
在这篇论文中我们集中讨论了有限制的Dyck路,推导出它们所满足的递推关系式,生成函数,以及它们的公式.首先,我们研究了Narayana数,从Chu-Vandermonde恒等式入手,得出了它的行
该文主要讨论混沌系统的同步问题研究方法以及应用于一些具体系统的结论和揭示数值方法处理连续系统时出现的一些动力学行为发生改变的现象.该文一共分两部分.第一部分由第一
该文主要研究了一类带有小扰动参数的非线性Schrodinger方程的求解问题,讨论了自伴算子的本征函数的正交性和完备性,介绍了寻求微分方程的近似解常用的摄动方法,并从带有某种
该文目的是研究紧致度量空间上极小连续半流的拓扑动力性质.为此,我们首先建立了它与其时间1映射极小集的联系;然后,利用这种联系证明了:若时间1映射为开映射,则它是极小的连
本文在完备度量空间中研究了积分型广义集值压缩映射的不动点定理和迭代逼近,把广义α*-Mizoguchi-Takahashi型压缩映射、(α,Ψ,ξ)压缩集值映射和Ciric-Berinde型压缩集值映射
度量空间的等距理论的研究是泛函分析中十分重要的一个研究方向,而且在数学的其他分支中也有着重要的作用.该文主要研究四个方面的问题.第一章作者研究赋β(β
众所周知,金融学和精算学的基础是风险理论,而风险理论的核心问题是破产理论的研究.而对破产理论,更加关注的是一些重大事件.因为重大事件发生概率很小且极难预测,但一旦发生