基于小学数学应用题的中文词修正和词性标注修正的研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:pcy1226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词及词性标注不仅是自然语言理解领域的难点问题,也是中文数学智能教学系统中的基础性问题。提高自动分词及词性标注的准确率,修正分词及词性标注的结果,能为实现小学数学应用题的自动理解和解答提供有效输入。本文的主要内容就是在ICTCLAS分词结果上,尝试多种分词修正方法和词性标注修正方法,构建中文分词自动修正系统和兼类词词性修正系统,以提供更适合小学数学应用题文本的分词结果和更合理的词性标注结果。   中文分词修正分为差异发现和差异修正两个阶段。在差异发现阶段本文提出了差异检测算法,自动获取分词差异字段集。在差异修正阶段,通过人工分析制定了适应于小学数学应用题文本的分词修正规则,通过实验得到了合理的互信息阈值0.000190。中文分词自动修正系统采用了规则+互信息+实例的分词修正方法,在小学数学应用题文本中获得了不错效果。   词性修正的研究重点是对兼类词词性的修正,也分为两个阶段。首先是兼类词提取阶段,本文提出了兼类词自动发现算法以获取兼类词集;在词性修正阶段,人工分析制定了适应于小学数学应用题文本的词性修正规则;在基于数据挖掘的修正方法中,通过准确度比较选择了rules.DecisionTable算法作为分类算法;在基于机器学习的修正方法中,给出了兼类词词性修正的特征模板以及提升修正准确率的方法。兼类词词性修正系统采用了规则+机器学习的词性标注修正方法,对ICTCLAS词性标注结果做了明显改善。
其他文献
颅面复原是一种对人类的颅骨进行面部容貌复原的技术,该技术以人类学、法医学、解剖学中的头骨与面貌相互关系规律为科学依据,广泛应用于考古、刑侦等领域。其中颅骨配准是计
Ad hoc网络是由一组带无线收发装置的移动终端组成的一个多跳的临时性自治系统。由于它不依赖固定的基础通信设施,没有中心控制节点,抗毁性强,因此适用于许多网络布线存在困
随着多媒体数据库的不断发展,传统的图像检索方法已经再也无法满足图像检索的需要,基于语义的图像检索已经成为当前的研究热点。为了实现基于语义的图像检索,许多研究者将图
随着信息技术的飞速发展,移动通讯与互联网融合发展的趋势日趋明显,作为电子商务领域的新生力量,移动商务显示出巨大的发展潜力和成长空间。移动购物就是其中一个典型的例子
Ad Hoc网络是一种分布式的网络,具有无中心,自组织,多跳,网络拓扑结构动态变化等特点。由于Ad Hoc网络的独特特点,使得传统的有线路由协议和基于基站的无线路由协议不适用于A
数据分类技术作为数据挖掘中的核心和基础技术之一,它的许多分类方法已经由机器学习、模式识别和统计学方面的研究者提出。作为软计算分类算法中的一员,人工免疫系统中的负选
脑血管疾病严重威胁着中老年群体的健康,随着年龄的增长,脑血管疾病的发生几率急剧上升。脑血管疾病的治疗需要花费大量金钱而治疗效果却往往不令人满意,不仅严重影响病人及
计算机网络的普及应用,丰富了人们的日常生活,然而,网络上的信息可以方便的复制和修改,使得版权保护成为一种迫切需要解决的问题。在地理信息系统(Geographic Information Sy
点云模型的数字几何处理已在计算机图形领域受到广泛的重视。基于点的图形学的研究在工业制造、考古及文物保护、医学和娱乐产业等诸多领域得到了广泛应用。   本文主要进
水下无线传感器网络(Underwater Wireless Sensor Network,UWSN)可用于海洋学数据收集、污染监测、近海探测、灾难防御以及协助海军进行战术跟踪等领域。与其他水下探测工具