基于N元模型的维吾尔文文本分类技术研究 - 论文文献免费下载 - 搜论网

基于N元模型的维吾尔文文本分类技术研究

来源 :计算机应用研究 | 被引量 : 10次 | 上传用户：tcwf2009

【摘要】

：

考虑到维吾尔文词干提取、词性标注等工具不够成熟和相关的开源资源很少的实际情况,提出了基于N元模型的维吾尔文文本分类技术。其特点是不需要任何自然语言处理工具,拼写错误率对分类结果的影响很低。在训练阶段分别提取字符级别的三元和四元模型构造不同规模的N元词典,在分类测试阶段分别用曼哈顿距离计算和骰子测量对文本进行分类。实验结果表明,当四元模型词典的规模为500时,使用骰子测量分类时性能最佳,平准准确率达

【作者】

：

买买提依明·哈斯木吾守尔·斯拉木维尼拉·木沙江努尔麦麦提·尤鲁瓦斯

【机构】

：

新疆大学信息科学与工程学院新疆多语种重点实验室,乌鲁木齐830046和田师范专科学校计算机科学系,新疆和田848000;新疆大学信息科学与工程学院新疆多语种重点实验室,乌鲁木齐,830046;

【出处】

：

计算机应用研究

【发表日期】

：

2015年07期

【关键词】

：

N元文本分类维吾尔文 N元词典相似度曼哈顿距离骰子测量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

考虑到维吾尔文词干提取、词性标注等工具不够成熟和相关的开源资源很少的实际情况,提出了基于N元模型的维吾尔文文本分类技术。其特点是不需要任何自然语言处理工具,拼写错误率对分类结果的影响很低。在训练阶段分别提取字符级别的三元和四元模型构造不同规模的N元词典,在分类测试阶段分别用曼哈顿距离计算和骰子测量对文本进行分类。实验结果表明,当四元模型词典的规模为500时,使用骰子测量分类时性能最佳,平准准确率达到86.56%。

其他文献

财务管理中内部审计的应用价值探究

本文通过对荣华二采区10

期刊

岩土工程勘察工作中若干常见误区分析

期刊

重叠网络什么让我们等了这么长时间？

虚拟化简介　　虚拟化大获成功，是因为它实现了最初承诺的优势，包括优化硬件利用率，减少服务器泛滥和最大限度增加服务器硬件投资回报。这是通过以下途径实现的：对服务器的计算资

期刊

虚拟化服务器硬件投资回报计算资源负载共享虚拟机利用率抽象化优化应用内存技术程度

特朗普政府对朝政策的调整与展望

自从冷战结束以后,国际形势发生了巨大的变化,但是美国对于朝鲜的政策随着几任总统的更换,在最近几十年的时间内,经历了非常大的变化,而在经历了几十年的发展中,美朝之间的关

学位

特朗普政府美朝关系“极限施压”政策朝鲜核问题

“萨德”问题与中韩关系

以朝鲜进行第四次核试验为“导火索”,韩国正式宣布引入末段高空区域防御系统——“萨德”。“萨德”入韩加剧了朝鲜半岛的紧张和对立,打破了地区之间的战略平衡,损害了包括

学位

“萨德”中韩关系美国朝鲜半岛朝核问题

月饼包装设计的意念诉求

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥

期刊

月饼包装设计

个人所得税法律制度的演进路径——基于公平与效率视野

论文选取了公平效率理论与路径依赖理论作为通篇研究的基础理论和贯穿红线。全文按照先理论前引后分项研究再整体展望的逻辑结构对个人所得税法律制度的立法路径、税制模式、

学位

个人所得税法律制度演进路径公平效率理论

如何在课堂教学中落实小学生英语核心素养

随着社会的发展,各个学科都把培养学生的核心素养作为重点,英语也不例外。因此,如何在英语教学中培养学生的核心素养应该成为教师长久关注的问题。 With the development of

期刊

小学英语核心素养课堂效率

低标号素混凝土桩(LC桩)地基处理法及其在工程中的应用

期刊

昆明市售大米中镉含量调查分析

目的:调查昆明市场大米中镉污染水平。方法:检测方法参照GB/T 5009.15-2003《食品卫生检验方法理化部分食品中镉的测定方法》测定。结果:52份大米样品检测结果:最高0.14 mg/k

期刊

大米昆明市镉含量镉污染食品卫生检验样品检测结果标准储备液镉标准使用液标准使用液重金属污染

其他学术论文