基于相似度的词聚类算法和可变长语言模型

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户：lrdw149

【摘要】

：

基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法．传统的统计聚类方法基于含婪原则，常以语料的似然函数或困惑度（perplexity）作为评价标准．这种传统的聚类方法的主要缺

【作者】

：

袁里驰

【机构】

：

江西财经大学信息学院数据与知识工程江西省重点实验室,中南大学信息科学与工程学院

【出处】

：

小型微型计算机系统

【发表日期】

：

2009年5期

【关键词】

：

互信息词相似度聚类算法可变长语言模型 mutual information word similarity clustering algorithm va

【基金项目】

：

国家自然科学基金项目（60763001,60663007）资助,中南大学博士后科学基金项目（2007）资助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法．传统的统计聚类方法基于含婪原则，常以语料的似然函数或困惑度（perplexity）作为评价标准．这种传统的聚类方法的主要缺点是聚类速度慢，初值对结果影响大，易陷入局部最优．本文利用互信息定义一种词相似度，基于相似度，提出一种自下而上的分层聚类算法．实验证明，该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进．在提高预测能力方面，提出一种新的基于类的可变长语言模型（Vail—gram）的生成方法．

其他文献

论我院开设全科医学本科专业的必要性和可行性

本文在介绍发展全科医学教育重要意义的基础上，重点论述了我院开设全科医学本科专业的必要性和可行性。特别是我院率先在我省开办了临床医学专业全科医学方向，采取“前期大基础

期刊

全科医学本科专业必要性可行性

一种多网关无线Mesh网选播路由协议

无线Mesh网络是一种新型的宽带分布式无线接入网系统，它通过网关节点访问Internet．当网络接入的负载重或者网络规模扩展时，大量传输到同一网关节点的数据包会在此节点造成严重的

期刊

无线MESH网选播DSR多网关WMN a.nyeast DSR Multi-gateway

抗丝黑穗病玉米种质资源的SSR标记遗传多样性分析

采用SSR标记方法研究了40份对丝黑穗病有不同抗性玉米自交系的遗传多样性。选用57对SSR扩增稳定的引物,将自交系划分为唐四平头,旅大红骨,Lancaster,Reid,PA,PB这6个类群,结

期刊

玉米丝黑穗病种质SSR遗传多样性Zea mays maize head smut germplasm SSR genetic diversity

颅脑损伤并发肺部感染的中西医结合防治（附39例报告）

目的为颅脑损伤并发的肺部感染找到更好的治疗方案。方法总结我院2002年7月～2006年12月收治的中、重型颅脑损伤患者226例，对其中并发肺部感染的患者39例，对肺部感染进行了中西医

期刊

颅脑损伤肺部感染中西医结合防治Head injury Pulmonary infection Treatment by combination of TC

五轴联动数控加工中的微小程序段插补方法

针对五轴联动数控系统在加工微小程序段时频繁启动／停止导致机床产生剧烈振动的问题，提出一种五坐标微小程序段插补方法．该方法能够对多个微小程序段进行统一加减速处理，在保证加

期刊

微小程序段插补数控加工micro-segment interpolation CNC machining

深圳市罗湖区教育系统员工健康状况分析

目的了解深圳市罗湖区教育系统人员健康状况；方法对计划参加2006年健康体检人员的检查情况与检查结果进行分析；结果通过常规体检发现的主要疾病：脂肪肝、高尿酸血症、高甘油三脂

期刊

教育系统人员健康状况分析

寿春城考古的主要收获

楚郢都寿春是楚国的最后一个都城,寿春城的文化面貌是楚最后20年的文化代表,在楚文化的研究中占有重要的地位.本文介绍了安徽省文物考古研究所八年来对楚寿春城所作考古的主

会议

保护私有信息的范围搜索算法

合作计算的任务可能发生在彼此互不完全信任的各方之间，此时各方参与运算只是想知道最终的结果，而不希望自己的隐私信息被别人获取．安全多方计算所要解决的正是合作计算的隐私保

期刊

安全多方计算计算几何范围搜索保护私有信息secure multi-party computation computational geometry ra

两层市场环境中信任感知的资源交易机制

在以往建立信任团体时，假设一个节点只拥有一种类型的资源，但在实际的网格市场中，一个节点可以拥有多种资源．资源提供者有效地分配这些资源以获得收益，资源使用者为完成特定任务需

期刊

网格市场两层市场信任团体资源交易grid market two-level market trust group resource trade

基于相似度的词聚类算法和可变长语言模型

其他学术论文