【摘 要】
:
目前,网络舆情分析等任务中存在大量语种易混淆、编码形式多样、文本长度较短的网络文本。本文选用汉语、日文、维吾尔语、哈萨克语、乌兹别克语为语种识别的代表性研究对象,其中维吾尔语、哈萨克语、乌兹别克语分别考虑了两种编码形式。本文将五种语言根据字符编码区间分为四个类别,包括汉日字符编码区间,现行字符编码区间,拉丁字符编码区间和西里尔字符编码区间。由于字符编码区间内存在两种语言,并且在书写形式上极为相似,
论文部分内容阅读
目前,网络舆情分析等任务中存在大量语种易混淆、编码形式多样、文本长度较短的网络文本。本文选用汉语、日文、维吾尔语、哈萨克语、乌兹别克语为语种识别的代表性研究对象,其中维吾尔语、哈萨克语、乌兹别克语分别考虑了两种编码形式。本文将五种语言根据字符编码区间分为四个类别,包括汉日字符编码区间,现行字符编码区间,拉丁字符编码区间和西里尔字符编码区间。由于字符编码区间内存在两种语言,并且在书写形式上极为相似,在网络文本的语种识别种极易混淆,因此本文针对编码不同五种语言的语种识别展开了深入研究,主要研究内容分为以下几个方面:(1)首先对网络采集到的上述语种文本数据进行的分析和预处理,通过人工标注,对文本的语种信息进行确认,构建原始语料库。针对每个语言的每个编码形式,分析文本的平均字符长度、平均词汇数量和平均词汇字符长度等信息,以进行分析决策;根据数据分布情况,对资源匮乏的语言编码文本通过语言编码转换方法利用同语言不同编码文本进行数据扩增;根据文本的特征,进行不同细粒度的切分。(2)提出一种基于多策略结合的有效识别方法,并以此设计多策略语种识别系统MSLIS(Multiple Strategies Language Identification System)。其核心原理为以编码区间、特征字符以及朴素贝叶斯分类器三层策略进行精确语种识别。实验结果表明,该文基于多策略的统计学习方法在针对汉、日共用汉字组合的区分和维、哈、乌不同编码的语种能有效识别。(3)针对多策略的统计学习方法在字符长度较短的情况下表现一般,本文进一步考虑了词汇级和字符级组合的影响,采用不同组合粒度的向量作为神经网络模型的输入,以验证其识别性能。首先将文本按照词汇级别和字符级别在n元(1≤9)≤5)gram模型的基础进行切分,然后以ngram的切分组合向量作为神经网络的输入,分别对比了卷积神经网络和双向长短时记忆网络对短文本的特征抽取能力和类别判定能力,并选用最佳的神经网络模型。
其他文献
目的:对比分析围绝经期及绝经期子宫内膜息肉(endometrial polyp,EP)的超声表现与病理结果,确定子宫内膜息肉恶性病变的发生频率及预测危险因素。方法:回顾性分析2017年6月至2019年2月于我院经过超声检查结果为子宫内膜息肉,经过病理确诊的279例患者。结果:279例患者病理结果显示:恶性病变子宫内膜癌(7.89%)有22例,其余为良性病变,包括210例为息肉(75.26%),30
在我国高等级公路中服役着大量空心板梁桥。伴随着交通量的不断增加,车辆载重的提升,部分老旧空心板梁桥已不能满足正常使用的要求,存在梁底混凝土开裂、泛白、钢筋锈蚀等病害,其承载能力达不到设计要求,带来了极大的安全隐患。聚氨酯水泥复合材料作为一种新型的桥梁加固材料,具备密度小强度大、耐腐蚀、粘结性强、硬化速度快等突出优点。本文依托山东省交通运输厅科技计划(2017B97)与山东省重点研发计划(2019G
目的:对甲醛固定石蜡包埋(formalin fixed paraffn embedded,FFPE)切片经免疫组织化学(immunohistochemistry,IHC)染色后提取核酸,并进行基因检测,对其DNA质量、分子检测结果进行评估,旨在探讨针对标本量较少或难以获取的标本在IHC染色之后进行以PCR为基础的相关分子检测以及荧光原位杂交(fluorescence in situ hybridi
随着重金属吸附材料的深入研究,缺乏对吸附材料性能的在线分析技术。量子点具有稳定的光致发光性能,被广泛应用于金属离子的检测。本论文制备负载量子点的水凝胶作为定量检测重金属的荧光探针,并设计作为指示吸附材料性能变化的可视化模块,旨在解决快速在线分析吸附材料失效的难题。本论文的研究内容如下:(1)制备了负载氮掺杂碳量子点(CQDs)的二氧化硅水凝胶(CQDs@SiO2 hydrogels),用作定量检测
目的观察局部使用藻酸盐敷料治疗颜面部深Ⅱ°烧伤创面的疗效。方法研究对象为2014年4月-2018年12月期间住院治疗的30例烧伤患者,伴有颜面部深Ⅱ°创面者。采用随机对照原则,将其分为实验组与对照组,各15例。实验组伤后清创后即刻,拜尔坦银离子藻酸盐敷料(拜尔坦银)作为一级敷料覆盖颜面部创面,每日更换,第3天起,创面改用银离子抗菌凝胶(斯丽凯)外敷,将藻酸盐伤口敷料(生肤藻)作为二级敷料覆盖,隔日
东海盆地西湖凹陷中深层(>3000m)储层物性差、流体性质复杂,近年来的流体性质解释实践发现,利用皮克斯勒图版、烃组分三角图版和“3H法”图版的气测录井解释效果差,识别符合率较低。本文重点探索复杂层气测录井流体解释的新方法,并完成多口井的解释工作,在新方法的基础上增加地化、三维定量荧光等识别方法研究,并针对解释-测试结果不符合的层再进行颗粒定量荧光实验分析,探索气测录井-地化、三维定量荧光录井-地
关于地方性知识与世界性知识的伦理关系,李约瑟(1985:151)有一个引自《诗经》的经典比喻:“沔波流水,朝宗于海。” 李约瑟通过大量中国与欧洲科学知识融合、超越、辐辏的历史事实,阐明了人类知识随着组织性与大同性不断发展和进步,像江河入海一样成为一个世界整体的社会趋势。李约瑟(1985:151-152)认为:“近代科学实际上包纳了旧世界所有民族的成就,各民族的贡献源源不断地注入,或者来自古希
针对实际钻井过程中的复杂油气井井身结构,建立油气井全生命周期的双层套管水泥环组合体模型有着重要意义。研究双层套管水泥环组合体的形成过程,探索水泥石的力学性能需求指导方案,为保证井下复杂工况时水泥石的良好完整性、地层油气水层的安全封隔及套管井壁的保持作用提供依据。在油气井建井过程中,针对技术套管注水泥建立、下开钻进、生产套管水泥环建立、完井及生产等阶段,使用弹性力学方法,建立考虑不同工况下温度、应力
第一部分妊娠期甲状腺疾病对母胎妊娠结局的影响目的分析妊娠期甲状腺疾病的患病率及其对母胎妊娠结局的影响;探讨左旋甲状腺素治疗妊娠期亚临床甲减的临床疗效。方法回顾性分析2018年6月-2018年12月在江苏省妇幼保健院产检并分娩的单胎晚孕产妇2626例,符合纳入标准及排除标准。根据其妊娠期间的甲状腺功能情况,分为甲功正常组、甲减组、亚甲减组、甲亢组、亚甲亢组和低T4组。根据孕期是否服用左旋甲状腺素,亚