基于相似度的词聚类算法和可变长语言模型

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:lrdw149
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义一种词相似度,基于相似度,提出一种自下而上的分层聚类算法.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出一种新的基于类的可变长语言模型(Vail—gram)的生成方法.
其他文献
本文在介绍发展全科医学教育重要意义的基础上,重点论述了我院开设全科医学本科专业的必要性和可行性。特别是我院率先在我省开办了临床医学专业全科医学方向,采取“前期大基础
无线Mesh网络是一种新型的宽带分布式无线接入网系统,它通过网关节点访问Internet.当网络接入的负载重或者网络规模扩展时,大量传输到同一网关节点的数据包会在此节点造成严重的
采用SSR标记方法研究了40份对丝黑穗病有不同抗性玉米自交系的遗传多样性。选用57对SSR扩增稳定的引物,将自交系划分为唐四平头,旅大红骨,Lancaster,Reid,PA,PB这6个类群,结
目的为颅脑损伤并发的肺部感染找到更好的治疗方案。方法总结我院2002年7月~2006年12月收治的中、重型颅脑损伤患者226例,对其中并发肺部感染的患者39例,对肺部感染进行了中西医
针对五轴联动数控系统在加工微小程序段时频繁启动/停止导致机床产生剧烈振动的问题,提出一种五坐标微小程序段插补方法.该方法能够对多个微小程序段进行统一加减速处理,在保证加
目的了解深圳市罗湖区教育系统人员健康状况;方法对计划参加2006年健康体检人员的检查情况与检查结果进行分析;结果通过常规体检发现的主要疾病:脂肪肝、高尿酸血症、高甘油三脂
楚郢都寿春是楚国的最后一个都城,寿春城的文化面貌是楚最后20年的文化代表,在楚文化的研究中占有重要的地位.本文介绍了安徽省文物考古研究所八年来对楚寿春城所作考古的主
会议
合作计算的任务可能发生在彼此互不完全信任的各方之间,此时各方参与运算只是想知道最终的结果,而不希望自己的隐私信息被别人获取.安全多方计算所要解决的正是合作计算的隐私保
在以往建立信任团体时,假设一个节点只拥有一种类型的资源,但在实际的网格市场中,一个节点可以拥有多种资源.资源提供者有效地分配这些资源以获得收益,资源使用者为完成特定任务需