基于.NET的维哈柯多语种网上数据采集系统的设计与实现

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户：xsnxj111

【摘要】

：

主要是为了给维吾尔语、哈萨克语及柯尔克孜语在自然语言处理、语音识别、语音合成、机器翻译、信息检索、维吾尔语智能信息监控以及维吾尔语舆情分析等研究领域提供语料作为

【作者】

：

再吐娜木·阿巴白克力侯存义米尔阿迪力江·麦麦提张立新

【机构】

：

乌鲁木齐职业大学现代教育技术中心,新疆大学信息科学与工程学院,

【出处】

：

电脑知识与技术

【发表日期】

：

2015年11期

【关键词】

：

多语种自然语言处理 .NET 数据抓取语言特征语料库 multilingual NLP .NET data capture language featur

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

主要是为了给维吾尔语、哈萨克语及柯尔克孜语在自然语言处理、语音识别、语音合成、机器翻译、信息检索、维吾尔语智能信息监控以及维吾尔语舆情分析等研究领域提供语料作为目的。在软件的设计和实现过程中参考维吾尔语、哈萨克语和柯尔克孜语的语法规则以及语言特征,同时引入此三种语言的国际编码,除此根据该网页的特征来分析网页的结构进行判断文本而研发了从网上抓取维哈柯多语种纯文本的数据采集器。最后实现了为少数民族自然语言处理研究搭建语料库准备大规模语料。 The main purpose is to provide Uyghur, Kazak and Kirgiz phonetics in the fields of natural language processing, speech recognition, speech synthesis, machine translation, information retrieval, Uyghur intelligent information monitoring and Uyghur public opinion analysis. In the process of designing and implementing the software, the grammar rules and linguistic features of Uyghur, Kazak and Kirgiz are referenced and the international codes of these three languages are introduced. In this way, the structure of the web page is analyzed according to the characteristics of the web page to judge the text, Developed from the Internet to capture multi-language Verhoeven plain text data collector. In the end, it has realized the preparation of large-scale corpus for the construction of corpus for minority language natural language processing research.

其他文献

巴西建全球最大乙醇厂

由巴西石油公司参股的合资企业生物能源新领域公司(NFB)近日宣布,其董事会已批准投资3.25亿美元,扩大在巴西中部伯南布哥州的甘蔗压榨厂,扩建后压榨能力从目前的235万吨扩大

期刊

巴西乙醇压榨能力生物能源合资企业石油公司董事会生产厂

玻璃钢复合材料轴压构杆稳定性分析

纤维增强复合材料(fiber reinforced polym er,FRP)是建造输电杆塔结构的理想材料之一。介绍了FRP轴压构件的弹性屈曲理论,并根据试件的极限承载力试验值得到了试件的等效初

期刊

纤维增强复合材料(FRP)杆塔轴压构杆初始弯曲稳定系数

105例大肠癌手术并发症的治疗体会

目的探讨分析大肠癌手术后并发症的成因及防治。方法总结北京市通州区潞河医院1992年至2005年大肠癌手术后出现并发症患者105例,进行分析和探讨。结果总结大肠癌手术并发症的

期刊

大肠癌手术并发症原因及治疗

传染性单核细胞增多症患者血清EBV-IgM抗体检测分析

[目的]探讨急性期血清EB病毒特异性IgM抗体在传染性单核细胞增多症(IM)临床诊断中的应用价值.[方法]选择IM患者血清标本78份,同期健康体检血清标本30份,采用酶联免疫吸附试验

期刊

传染性单核细胞增多症EBV-VCA-IgM抗体传染病临床诊断

超声引导下压迫或并用抽取积血法治疗导管术后股动脉假性动脉瘤

目的: 介绍超声引导下单纯压迫修复法(U G C R)和压迫合并穿刺抽积血修复法(U G C P H R)治疗12例心导管术后股动脉假性动脉瘤的方法并评价其疗效.方法: 7例瘤体小于3 0cm×3

期刊

假性动脉瘤心导管术单纯压迫法压迫合并穿刺抽积血法

Effect of dendritic cell modified by gp96-peptide complex on antitumor effect in H22 cell

Objective :To investigate the antitumor effect of dendritic cell (DC) modified by gp96-peptide complexes both in vitro and in vivo. Methods :Gp96-peptide comple

期刊

heat-shock proteinsdendritic cellgp96-peptide complexH22 hepatocarcinomaBalb

275例放置宫内节育器失败者改用吉妮宫内节育器临床观察

[目的]观察既往使用其他宫内节育器(IUD)失败的妇女放置吉妮IUD后的适用性及主要副反应.[方法]对275例既往其他IUD失败的妇女放置吉妮IUD进行1年随访观察.[结果]累计共终止22

期刊

宫内节育器计划生育副反应临床观察

用MaxScriot从3DS Max导出骨骼动画数据

介绍了从3DS Max导出骨骼动画数据的理论和方法.详细讲解在Max环境与Direct3D环境中坐标系统的差别、坐标变换原理及其方法,介绍用MaxScript以X文件格式提取Max中的网格、材

期刊

3DS maxMaxScriptX文件模板骨骼动画

直线过渡型刀补程序设计

刀具半径自动偏移计算是计算机数控系统必不可少的功能之一。直线过渡型刀补方法能够根据相邻轮廓段信息自动处理两个程序段刀具中心轨迹的转换,并自动再转节点处插入过渡直

期刊

刀补计算机程序直线过渡型数控系统

在保险企业信息架构中引入服务总线

采用ESB技术优化系统架构是企业信息化的霞要方向.通过合理利用ESB技术,定位ESB在整个SOA和企业信息化架构中的角色,指明ESB系统在保险企业的实施路线,并通过概念预览方式,为

期刊

企业服务总线ESB保险企业信息架构

基于.NET的维哈柯多语种网上数据采集系统的设计与实现

其他学术论文