云模型在文本挖掘应用中的关键问题研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:d2587754
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘(Text Mining,简称TM)是以文本信息作为挖掘对象,从中寻找信息的结构、模型、模式等隐含的、具有潜在价值知识的过程。TM在信息检索、模式识别、自然语言处理等等多个领域均有所涉及。由于文本是信息存储的最主要途径,因此TM的重要性也日益凸显。在目前TM的研究中,传统的数据挖掘方法依然占据着主导地位。然而随着TM技术研究的进一步深入,将传统的数据挖掘方法应用于TM面临着越来越严峻的挑战。例如文本对象的高维稀疏性、算法复杂度过高及需要先验知识等等问题,已经严重阻碍了TM技术的推广应用。TM面临的这些难题归根到底都是由于自然语言的不确定性造成的。自然语言中(尤其是文本语言)的不确定性,本质上来源于人脑思维的不确定性。这种不确定性使得人们具有更为丰富的理解空间与更为深入的认知能力,然而随之而来也形成了TM的众多难题。因此,若能从降低自然语言的复杂性入手,在充分利用现有技术的基础上勇于创新,探索出适用于TM的不确定性人工智能处理方法,将会大大促进TM技术的快速发展。借助不确定性知识研究的重要工具——云模型在定性概念与定量数据间的转换作用,作者将云理论引入TM关键问题研究当中。用以抛砖引玉,为TM技术的进一步发展提供一种新的思路与解决方法。本文的主要内容如下:①云模型在TM中的理论扩充。对文本知识表示以及相应模型的物理空间转换方法、文本概念的相似性度量进行了研究,为云模型的引入打好理论基础。包含以下三个方面内容:1)基于VSM的文本信息表。将知识表示中信息表的概念引入文本表示,在VSM模型基础上将文本系统用文本信息表来进行知识表示。2)基于云模型的文本信息表转换。文本间的不确定性关系可以通过云模型进行概念表示,但前提是各属性的取值须处于相同的论域内。也就是说文本在不同属性上的值都有必须具有同一物理含义。未处理的文本信息表属性含义不统一并且取值也差异较大。因此,在利用云模型进行数据挖掘前,必须将文本信息表进行转换。在概率统计方法的基础上,本文提出一种新的文本信息表转换方法。通过该方法,文本信息表由不同属性空间转换成同一物理空间中,体现了属性取值的概率分布。3)基于云相似度的文本云相似度量。目前TM中一般使用余弦相似度来衡量文档之间的相关性,但目前无论哪一种相似度度量方法均是以基于对象属性之间的严格匹配进行计算,而对文本对象的整体性考虑不足。结合TM中文本对象的整体性质与个体特点考虑,本文提出了基于云向量数字特征的云相似度。用云向量的数字特征来对文本进行整体刻画,文本间的相似即可转换为云向量之间的相似进行度量。此相似度不仅能快速提高挖掘性能,找出对象间的共性特点,而且能充分考虑到属性值的随机性与模糊性。②基于云模型的文本特征自动提取算法。特征选择是文本特征降维的一种有效方法。现有选择尺度的确定均通过实验验证得到,即基于经验的方法。在综合考虑文本特征整体与局部分布基础上,提出了一种高性能的文本特征自动提取算法。算法应用云隶属度对特征分布进行修正,在不需任何先验知识的条件下通过云隶属度大小来对特征权值进行刻画并完成特征的选择,充分体现了特征的概率分布特点。通过横向实验对比与结果分析,显示出该特征集不仅特征个数较少,而且分类精度较高,在性能上领先于主要的一些特征选择方法。③基于云概念跃升的文本分类算法。云模型对定性知识表示、定性定量知识转换具有较好的处理能力。在此基础上,利用云模型中的概念抽取方法来进行文本分类应用。在将文本集转换为基于VSM模型的文本知识表的基础上,对训练集中相同类别文档的定性概念进行跃升。根据测试文本与各类别定性概念之间云相似度的大小决定测试文本所属类别。通过在不同特征提取方法下与不同分类器的性能对比,证明该算法不仅具有较强的特征适应能力,在分类性能上也优于主流的分类器。④基于云相似度量的快速无监督文本聚类。针对目前文本聚类算法存在的问题,提出了一种基于云相似度量的快速无监督文本聚类算法。该算法以特征自动提取算法为基础,在k-Means动态聚类算法上,用逐级逼近的策略来获取最优k值。k值获取的过程也就是自动聚类的过程。在此过程中,提取每一个文本的云模型数字特征,然后采用云相似度来计算文本和文本间的相似程度。该算法不仅避免了文本对象的高维稀疏性,而且保留了k-Means均值算法的高效。同时,逐级逼近的策略也解决了聚类簇数需先验知识的缺点,得出的聚类结果更符合文本分布特点。
其他文献
目的:探讨健康教育干预对妊娠期糖尿病(GDM)患者的影响。方法:进行系统、有针对性的健康教育。结果:进行健康教育干预后知识掌握率、合理饮食、主动运动、正规用药、主动监测、情
多发性肋骨骨折为胸部的常见病,因为胸壁失去稳定,而发生反常呼吸,导致严重的呼吸、循环功能障碍,若不及时治疗会导致病情加重,甚至危机生命。传统的方法钢丝、克氏针固定后肋骨不
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
传统教学理念中往往是以教师的教书育人为本,但是在本科生的教学中,这种理念会让当代大学生渐渐失去学习的兴趣。在制药专业本科生课堂设计中体现“以学生为中心”的教学理念能
甲磷胺属高毒类有机磷农药,大剂量进入人体时,能引起类似毒覃碱样作用和中枢神经系统症状,如抢救不当可因呼吸抑制而死亡,我科2004年~2008年共收治9例并抢救成功,无1人死亡,现
医学图像数据(如计算机断层扫描(CT)数据及核磁共振图像(MRI)数据)的可视化技术经过二十多年的发展如今已经作为医学图像处理中研究的热点问题之一。三维重建是医学图像可视