基于知网的词语聚类算法的评价方法设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bingyuziqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理的研究中,词语聚类算法是被广泛研究的课题。它在自然语言处理各个应用中均扮演十分重要的角色。词聚类算法在文本信息检索,机器翻译,语音识别以及自然语言理解等相关领域都有广泛的应用。然而在词聚类算法的词聚类效果评价上,目前的词语聚类算法评价方法还存在着许多的不足。  目前,词语聚类算法的评价方法主要有人工评价和机器自动评价两种方法。人工评价费时费力,而且评价的结果往往存在很大的个人主观性,容易产生偏差;而机器评价主要是在空间向量模型和统计模型的基础上使用欧式距离或余弦角的方法来对词聚类结果进行评价,而没有从语义层次上考虑词语之间的语义关系,这导致评价结果的不理想。  本课题研究的目的在于在知网语义体系的基础上建立语义模型,并将基于此语义模型的词关联度计算方法引入到词语聚类算法的评价方法中,在语义层面上对得到的词聚类结果进行评价,分析它们的聚类效果,进而判断出各个词聚类算法的聚类效果的优劣性。  本文主要研究内容有以下几个方面:  (1)本文采用了语义信息的量化模型,用词矢量来表示词语的语义信息。并且从语料库中选出高频的特征词作为待聚类词集合,并构造出待聚类词集的词矢量矩阵。  (2)分别使用基于SOM,K-means,Fuzzy-C-Means和ART2的四个词聚类算法对待聚类词集合进行自动聚类,得到四个不同的聚类结果。  (3)在知网的语义模型的基础上,将基于知网的词关联度计算方法引入到词聚类算法的聚类结果评价上,对得到的词聚类结果进行相对客观正确的评价。  (4)在基于知网的词聚类算法评价方法的原理上设计与实现词聚类算法的评价系统。  (5)对词聚类算法的评价结果进行分析和比较,验证本评价系统的有效性和准确性,并且判断出各词个聚类算法在词聚类效果上的优劣程度。
其他文献
随着网络数据服务,特别是增值服务的快速发展,服务质量越来越高,用户的需求日新月异,对增值软件的维护难度越来越大,成本也越来越高,因此高扩展性,低耦合性的网络管理软件系
语义Web是新一代互联网标准,实现语义Web需要大量的领域本体。把目前WWW上数量巨大的数据库中的数据转换成本体形式,是构建语义Web本体的重要途径之一。用手工的方法实现这种
当今世界已经进入了以网络为中心的网络计算时代,由于传统的网络模式存在互操作性差和平台隔离等问题,如何在网络计算模式下解决这些问题,实现全世界计算机之间计算资源和服
Internet的飞速发展使P2P技术成为研究热点。P2P技术为充分挖掘网络上空闲的计算机资源提供了一种手段,实现了网络资源的全面共享。如何设计与之对应的分布式索引结构来支持
随着互联网的发展,网络安全形势变得日益严峻。我们可以通过网络测量对DDOS攻击、蠕虫传播、僵尸网络等异常网络行为进行检测。在高速网络中,因为分析每个报文和流信息需要大
随着便携计算机的普及和无线局域网技术的不断成熟,网络对移动性的支持显得越来越重要。移动IPv6技术正是为适应这种需求而产生的一种新的支持移动用户和因特网连接的互连技
近年来,随着游戏产业的不断发展,人工智能在游戏中的作用也越来越大,并且成为了一项热门技术。智能寻路系统作为人工智能的一个分支在现代网络游戏中占据着重要的地位。当前大部
XML以其可扩展性、结构性、平台独立性和自描述性等特点成为数据表示和交换的事实标准,越来越多的应用使用XML来存储、交换和发布信息。为有效的管理这种半结构化的数据,XML
在计算机视觉系统中,几何特征是识别物体的重要属性,当图像中物体的位置、方向或尺度发生变化时,利用物体的几何特征依然可以描述和分辨物体。线作为几何特征中的一种重要特
近年来,我国农村信息化建设取得长足发展,成绩显著。但在信息化建设领域方面,由于刚刚起步,目前农村信息内容发展还存在许多问题:各种信息系统自成体系,相互之间缺乏有效的协作;信息