快速精确的结构化机器学习方法研究

来源 :复旦大学 | 被引量 : 1次 | 上传用户:abcdefghijklmn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相比于普通的机器学习算法,结构化机器学习可以利用结构信息达到更好的效果,但其时间复杂度要高很多,虽然有快速的近似解法,但精度的损失一定程度上抵消了结构信息带来的好处,因此研究快速精确的结构化机器学习算法成了一个重要的课题。本文中,我们对结构化机器学习中的推断算法以及特征抽取两个重要环节进行改进。首先,我们针对序列标注问题,基于许多实际应用中高阶特征信息的稀疏性特点,提出了稀疏高阶的条件随机场模型和一种新的快速精确的推断算法,它可以同时处理局部特征和稀疏的高阶特征。由于稀疏性的存在,这种新的推断算法是十分高效的。在手写体识别任务上,我们采用词缀特征作为高阶特征,稀疏高阶的条件随机场模型达到了所有公开的实验结果中最高的精度。在中文组织机构名识别任务上,我们将人工抽取的规则转化为高阶特征,并取得了微软亚洲研究院数据集上第二名的成绩。这两个实验表明,在特征集相同的情况下,稀疏高阶的条件随机场模型明显优于其他的方法。其次,我们提出了一种新的特征字符串索引结构以加速特征抽取,从而缩短解码时间。现在许多结构化机器学习方法采用模板生成数以百万千万的特征。复杂的模板可以产生大量复杂的特征,从而提高了精度,但却需要更多特征抽取的时间,大大影响了解码速度。为此,我们提出了两维的Trie结构,该结构可以利用模板之间的相互关系提高特征抽取的速度:一个模板生成的特征字符串是它的扩展模板生成的特征字符串的前缀,因此前一个特征字符串的索引号可以用来检索后一个特征字符串,从而节约了时间。我们将这种新的数据结构用在基于图模型的依存句法分析的任务上。在中文宾州树库上的实验表明,两维Trie的特征抽取速度是传统Trie的5倍,整个句法分析的解码速度是后者的4.3倍。
其他文献
螺旋锥齿轮的强度和刚度严重影响其整机的工作性能,尤其是传动误差和啮合刚度等动态力学特性直接影响工作寿命和噪声。文章研究了螺旋锥齿轮几何模型、有限元网格模型的构建
目的:通过预防性应用氯胺酮、右美托咪定观察患者经静脉吗啡自控镇痛(PCIA)的镇痛效果,术后恶心呕吐等不良事件的发生情况以及对术后胃肠功能恢复的影响,并进一步探讨其可能的
以苏轼贬谪海南的三年为时间范围,通过研究其诗文中与养生保健相关的内容。从道(养生哲学)、法(养生原则)、术(养生方法)、变(嬗变)的层面来总结与探讨苏轼在谪琼期间养生理论、实践的
本文以法制新闻报道中的案例报道为研究对象,以系统功能语法中的及物性为分析方法,通过对不同性质的案例报道中及物性系统各过程、参与者以及环境成分分布的考察,旨在揭示不
在教育改革不断发展的今天,摆在每一位老师面前的是如何落实新课程改革精神,让学生高效地获得新知。结合新课改精神,改变传统的教学方式,促进学生思维的发展,培养学生学习兴
在中国画品评中,"逸"受魏晋时期人物品藻之风的影响,反映在绘画中,多指作品风格放逸。其后,谢赫、姚最等理论家虽提出不同的绘画品评体系,但都未将"逸格"纳入他们的品评系统
目的:探讨不同血液净化方式对糖尿病肾病(DN)慢性肾衰竭患者血清脂肪因子及炎性因子水平的影响。方法:180例DN慢性肾衰竭患者均分为CBP组(连续性血液净化治疗)及MHP组(维持性
为探索三年制临床专业新的儿科学教学模式,分别采用基于儿童不同生理期常见病的儿科学教学模式与传统教学模式,对两个班进行儿科学教学对照实验。结果显示,基于儿童不同生理
本文侧重从本体语言学的角度探讨改革开放以来的日源外来词,并结合对比语言学及社会语言学理论,运用定量考察与定性分析相结合的方法对日源外来词进行研究,重点对日源外来词