【摘 要】
:
词法分析是自然语言理解系统的第一步,它的好坏将直接影响上层模块处理信息后应用的效果。在词法分析过程中要解决的关键问题是分词产生的歧义现象。本文主要研究的是交集型歧
论文部分内容阅读
词法分析是自然语言理解系统的第一步,它的好坏将直接影响上层模块处理信息后应用的效果。在词法分析过程中要解决的关键问题是分词产生的歧义现象。本文主要研究的是交集型歧义,此类歧义字段占据总歧义字段90%以上。针对此类歧义提出了一个基于统计和规则相结合的改进分词模型,并将其应用到机械产品设计中,分析用户需求。 根据交集型歧义的不同链长,分别针对性提出解决方法: 对于链长为1的交集型歧义,提出了一种在条件随机场(CRF)基础上改进的面向自然语言理解系统的分词模型。通过分析歧义现象,指出现有的分词系统只给出一种结果存在的弊端,即这个结果仍存在歧义或者只是句子的一种合理结果。改进的模型在分词阶段可给出两种分词结果,就可以避免这两种现象。采用的方式是改变CRF最后的搜索算法维特比选取方式:维特比选择的是每个节点概率最大值路径,给出第一次分词结果,改变维特比选取方式使用其第二次选择路径,这次选择歧义字段处第二大概率,非歧义字段仍选择最大概率就可给出第二个分词结果,第二结果如果满足合理的句法结构,即可保留,这样就可以得到两个分词结果。 对于链长大于1的交集型歧义,采用基于知识的产生式表示方法。现有规则有处理链长为2、3、4交集型歧义,本文新增对于链长为5的交集型歧义处理规则。对于链长大于1的交集型歧义给出一种分词结果。 最后将基于统计和基于规则的方法结合,给出整体词法分析模型。通过随机抽取人民日报中的语料进行测试,改进模型给出第二结果的效果很好,同时改进模型相对于CRF在处理交集型歧义方面,分词结果中正确的数量增加。本文又将改进模型应用到机械产品设计中,分析用户需求,可给工程技术人员和用户带来便利。
其他文献
目的 探讨早期心电图筛查的质量管理在急诊非创伤性胸痛患者预检分诊中的应用效果.方法 收集2017年1月-2018年12月于我院急诊就诊的急性非创伤性胸痛患者临床资料,按入院时间
高速列车是典型的复杂机械系统。动力学分析与仿真是研制高速列车的关键,其影响车辆运行的安全性和舒适度,也关系到列车运行速度是否能提高。动力学模型的构建是高速列车系统
车轴是机车行走部件的关键零件,其性能好坏直接关系到车辆的行车安全。在车轴生产中使用表面滚压强化工艺可以大幅提高车轴疲劳强度,因此车轴表面滚压强化工艺、设备及其相关
Y-聚谷氨酸(γ-PGA)是一种由微生物发酵得到的聚氨基酸材料,交联后可形成具有高吸水性、生物可相容性、化学易修饰性和生物可降解性的水凝胶。近年来,由于其优良的特性,γ-PGA水凝胶在纺织、医药、组织工程、食品、污水处理等领域具有广泛的应用前景。目前,制备化学交联型γ-PGA水凝胶常用醚类、醛类等有毒害作用的交联剂,而且γ-PGA水凝胶在应用中出现了对离子敏感、整理后织物耐洗牢度较差等问题。因此,
纺织经纱浆料发展至今,面临的主要问题是资源再生利用和减少环境污染,经纱上浆浆料主要由淀粉、PVA及丙烯酸类三大部分构成,淀粉及变性淀粉属于天然物质,具有良好的生物降解
涤纶织物以其优良的服用性能深受人们喜爱,广泛应用于服装、装饰等纺织领域,但涤纶的表面比电阻值高达1014?,静电现象严重。本论文选用纳米导电粉体锑掺杂二氧化锡(ATO)对涤
全自动陶瓷压机是陶瓷砖生产线上的关键装备,其性能直接关系到产品的质量和生产效率。陶瓷压机的性能由主机和电液控制系统决定,电液控制系统是陶瓷压机的关键技术之一,而电液控制系统中的大流量比例节流阀目前基本靠国外进口,所以研制大流量比例节流阀对填补国内空白使其国产化具有重要意义。本文通过对比Rexroth、Eaton Vickers公司的同类产品,提出使用比例三通阀作为先导阀、主级位移电反馈的结构方案,
应收账款的回收,不但关系到企业收入的真正实现,而且直接影响到企业生产经营的正常周转,甚至会成为导致企业倒闭清算的风险源.加强企业应收账款的管理、防范应收账款诉讼或坏