论文部分内容阅读
词是计算语言学研究的重要对象,但从汉语词汇语义资源的建设情况来看,目前的汉语词义描述尚缺乏有效、客观、一致的辅助手段。因此,本文深入挖掘汉语的构词特点,尝试了一条经由汉语构词分析到词义知识表示的研究路径。 本文对于汉语构词的分析,是从“构词结构”、“义素特征”、“意义关联”三方面展开的。在“构词结构”部分中,本文组织实现了一个旨在服务词义计算与知识表示的构词结构分类体系,并基于25000条二字词的标注数据用最大熵方法训练出了一个准确率为83.5%(BASELINE为67.2%)的构词结构预测模型;在“义素特征”部分中,本文提出了一个形式为“同义语素集”的服务于词义理解与计算的新特征——“义素特征”,并对汉语的名、动、形语素分别演化生成了2421个、1654个、732个义素特征,而将它们组织到一个层次结构中去的工作仍在开展中,预计未来会形成“义素特征树”;在“意义关联”部分,本文采用两位的二进制数即(00、01、10、11)来描述成分义构成词义的四种模式,与前人的三分类方案和八分类方案相比更强调了可计算性。 基于上述汉语构词分析工作的开展,本文由“构词结构分析-义素特征标注-意义关联认定”这一构词分析流程引导出一个新的词义知识表示模式——SemSequence(即义素特征序列),并结合“义素特征树”结构中天然存在的“祖先-后代关系”、“兄弟关系”,给出具有操作语义性质的SemSequence优化加工过程。在此基础上,也介绍了基于SemSequence与义素特征树的词义知识本体的自动构建算法及其优化方案。 本文在20000个常用二字词上较为系统地实践了从构词分析到知识表示的整个过程,初步验证了上述理论的可行性和有效性。期待本文的研究成果未来能被应用到更多中文信息处理任务中,从而进一步通过实践促进相关理论与设想的完善。