N-GRAM相关论文
工程建设项目施工招标投标活动是建设工程管理实践中的重要环节,其目的是维持建设工程市场秩序,促进良性公平竞争,维护项目各参与......
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡......
代码作者归属是识别给定代码作者的过程。随着越来越多的恶意软件和先进的变异技术出现,恶意软件的作者正在创造大量的恶意软件变......
[目的]提出一种基于多语义词向量的中文新词发现方法(MWEC),解决多领域社交媒体文本的分词不准确问题.[方法]利用社交媒体文本,结......
自然语言是人类按照某种规则组成的语言,如汉语、英语和法语等。而自然语言处理则是利用计算机对自然语言的形、音、义等信息进行......
三维模型或三维物体作为三维世界的基本元素,在人类感知世界、认识世界的过程中扮演着必不可少的角色。随着计算机技术的发展,如何让......
软件缺陷与漏洞是造成软件安全问题的根源,对缺陷和漏洞进行预测是软件测试领域的重要组成部分,有助于合理分配测试资源,是提高软件质......
Text classification is a fundamental task in Nature language process (NLP) application.Most existing research work relie......
我们提出了一种基于n-gram的大规模中文文档自动聚类方法.该方法将自动聚类首次引入中文文档语义信息组织中,绕开了切词、语法分析......
互联网提供了大量的广泛分布和高动态资源信息,网页信息分散且不方便管理。网页分类能有效解决这些问题。在网页分类过程中,选取特征......
摘要:朴素贝叶斯算法由于其具有简单、稳定和高效的优点,被广泛运用在文本分类领域,但由于算法所涉及属性的独立性和同等重要性,算法的......
SIP是应用层的多媒体通信协议。SIP协议结构简洁、易于扩展,已经被广泛地应用到VoIP、多媒体会议等场景中。由于IETF在设计SIP协议......
信息技术与互联网的飞速发展,在给各行各业带来极大便利的同时,网络安全问题也愈来愈突出,各种网络安全入侵行为层出不穷。传统防......
对于社交媒体平台而言,识别和标注出特定语言的文本对于情感分类、趋势提取、预测电影评分等研究都具有重要的现实意义。传统的语......
甲基化是DNA序列化学修饰的一种形式,可以导致遗传物质的染色体的结构发生变化,因此DNA甲基化在DNA遗传表达中起着十分重要的作用......
中文自动分词是指使用机器学习根据特定规范将连续的字序列重组为词序列的过程,是自然语言处理的第一步,这对自然语言处理有着重大......
恶意软件往往利用计算机系统漏洞和安全防御机制的落后来达到恶意破坏或窃取资料等目的。安全防御机制的目标就是能检测出恶意软件......
语种识别作为多语种语音识别技术的前端,在国际交流与合作中扮演着越来越重要的角色。当前语种识别系统使用的特征可分为声学特征......
中文真词错误自动校对是自然语言理解的一项重要的基础研究课题,油田数字化过程中利用图像识别及人工录入产生的中文真词错误会直......
The explosive growth of malware variants poses a major threat to information security. Traditional anti-virus systems ba......
在如今大数据环境中包含大量不同语种的网络短文本数据,尤其是在国内多民族地区的网络环境中多种语言混杂的情况普遍存在.为了解决......
摘要:语音合成是哈萨克文信息处理技术的一个重要研究领域。哈萨克文本中的阿拉伯数字转换为其读音文本是语音合成中重要的预备工作......
摘要:在AI技术快速发展的今天,AI应该应用到每一个角落。本文选择在最常用的工具软件输入法软件中加入深度神经网络算法,利用长短期记......
本文通过对荣华二采区10...
事实验证任务要求能够从大规模的文本语料库中抽取相关的证据,并通过推理对给定的声明得出事实性的判断。现有的研究通常将检索到......
Document subjectivity analysis has become an important aspect of web text content mining. This problem is similar to tra......
该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查......
This paper discusses the importance of the classification of short message, and details some key technologies related. T......
为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML......
提出了一种语句级汉字输入技术,把N-gram统计语言模型与语言规则结合起来共同指导拼音流到文字流的转换过程.描述了拼音流自动切分......
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建......

