基于改进的TF-IDF算法及共现词的主题词抽取算法

来源 :南京大学学报:自然科学版 | 被引量 : 0次 | 上传用户:wjbbio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词权重构建文档—共现词矩阵并建立潜在语义分析(Latent Semantic Analysis,LSA)模型.该方法借助LSA模型的奇异值分解(Singular Value Decomposition,SVD)将文档—共现词矩阵映射到潜在语义空间,不仅实现数据降维,而且获得低维度的文档相
其他文献
非晶态合金材料具有良好的软磁特性,被广泛用作各类传感器的敏感材料.对基于非晶态合金应变计的工作机理、磁输出特性进行了理论分析,设计了相应的磁测系统,并利用TM-M型的Fe
提出了一种面向信息管理和高效检索的"四段式"事物编码模型,该模型能够与PDM系统中的分类管理模块功能相得益彰.对编码模型的UML建模则使模型的可操作性更趋于实际,从而为企
通过共形生长薄膜的方法在图形衬底上设计和制备一种新型的光学微腔结构,可以同时实现对光子的限制和对量子点溶液的空间限制。应用这种微腔结构,研究CdSe@ ZnS胶体量子点溶液在
开发了一种新型的高速开关阀,其切换速度与开口位移有显著提高.与压电晶体式高速开关阀比较,该阀不仅能够获得较大的输出流量,而且耗电功率也大幅度降低,其应用前途可观.
定义了实现运动变换的基本机构元素、集合;应用运动变换矩阵,对类型综合过程进行了描述;建立了便于将基本机构信息转换为数据库中存储形式及分解过程的数据结构;基于建立的数