端到端模型相关论文
光学乐谱识别(Optical Music Recognition,OMR)是一个研究如何通过计算方式自动读取文档中的音乐符号的研究领域。随着科技的不断发......
机器阅读理解任务在近年来备受关注,它赋予计算机从文本数据中获取知识和回答问题的能力。如何让机器理解自然语言是人工智能领域长......
智能设备的普及,让人们越来越感受到语音交互的便利。作为一种非常自然的人机交互方法,自动语音识别自二十世纪七十年代以来一直是......
人工智能技术发展至今,人机交互方式几经迭代,从最早的键盘鼠标方式到后来的触屏手写再到现如今的智能语音交互方式,对人们使用智......
骨架数据已被广泛用于动作识别任务,因为它们可以稳定地适应动态环境和复杂的背景。在现有方法中,骨骼数据中的关节和骨骼信息都被......
端到端(End-to-End)框架是一种基于深度神经网络可直接预测语音信号和目标语言字符的概率模型,从原始的数据输入到结果输出,中间的处理......
实时语音翻译技术作为翻译技术的分支之一,具有非常丰富的应用前景,例如外语视频的字幕生成,国际会议同传翻译等等。然而,不同于相......
当今社会,随着第二语言学习特别是英语学习越来越收到广泛关注,人们对计算机辅助语言学习系统的要求越来越高。错误读音检测与诊断......
文字是与社会生活息息相关的感知信息来源,相较于观感图像中的其他内容,文字包含着更精简的语义信息。随着5G技术与深度视觉网络的......
船舶检测与识别技术的发展对海上监视及服务工作起重要作用,目前卫星遥感图像船舶目标检测存在背景复杂、船舶尺度变化大等问题,妨碍......
日常生活中,人们的阅读量越来越多,但获取的有效信息却越来越少,这本质上源于信息过载。文本摘要技术可以帮助读者快速了解文章主......
随着移动通信的高速发展,嘈杂环境下的语音交流问题已经变成一个迫切需要解决的问题,如何有效的去除背景噪声对语音通信的影响,日......
近几年之内,互联网渗透于生活各处,随之而来的是网上充斥着海量的数据,使网络上的信息变得冗杂,知识图谱的出现能够解决此问题。知......
学位
医学影像配准是医学影像分析领域中的重要问题。医学影像配准的主要任务是将来自不同成像设备或不同时间、深度、视角的图像对应像......
随着计算机科学技术的快速发展,人们对人机自由交互的需求日益增大,语音识别技术作为实现人机智能交互的重要技术之一,迅速成为了......
回转窑作为生产流程中的核心设备,被广泛用于各种工业应用中,如电厂炉窑、水泥生产和钢铁生产等。窑的运行效率取决于各种参数,例......
作为自然语言处理的一个研究分支,机器阅读理解近年来不断受到研究者的关注。随着旧的测评数据集不断被攻克,阅读理解领域涌现了大......
随着互联网上新闻媒体和社交媒体的快速发展,这些网络媒体中存在着海量的中文文本,挖掘出文本中的重要信息具有巨大的应用价值,不......
智能化的时代正在加速到来,语音作为最自然便捷的交流方式,是推动生活与工作智能化的重要手段。语音识别(Automatic Speech Recogn......
随着互联网技术的发展和开源社区的兴起,开源代码的数量急剧增加,从开源社区中发掘出有用信息需要耗费大量的时间和精力。自动摘要......
问题生成任务旨在为文本生成相应的自然语言问句。传统方法主要通过复杂的人工规则将陈述句转化为自然问句,以此方法生成的问句往......
光学乐谱识别(Optical Music Recognition,OMR)是实现乐谱图像数字化的重要途径,在计算机音乐、数字音乐图书馆、计算机辅助音乐教......
摘要:端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型。然而端到端语音识别模型通常需要大量的语音-文......
构图是决定数字图像美学质量的重要因素,而现有的计算机优化算法在这一领域还存在整体性、视觉平衡感不足等问题。针对这一问题,文......
为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端......
提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量......
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型......
近年来,环境污染已导致中国大部分城市雾霾天气严重。在这些雾霾区域拍摄的图像一般都比较模糊灰暗,如何将雾霾从图像中去除,使图......
近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学习的唇语识别模型中,通常包含使......
在现代信息科技不断发展和进步的21世纪,基于生物特征进行身份认证的技术也在不断改进和日益成熟,声纹识别因具有远距离、多设备采......
文本自动摘要是人工智能和自然语言处理领域的一个重要任务和研究热点。随着互联网上信息的爆炸式增长,人们对文本自动摘要系统的......
智能车的道路交通环境复杂多变,需要广阔的感知视野获取丰富的驾驶场景信息。传统智能驾驶技术通常分为感知模块和规划决策模块,需......
在现实视频监控场景,摄像头为了能够最大区域的覆盖场所,一般会选择将其安放在比较高的角落,这导致拍摄到的图像画质受到严重影响,......
针对传统i-vector声纹识别模型在背景噪声急剧增加时泛化弱的问题,设计一种能学习丰富频域信息的卷积神经网络,并结合三元组损失构......
为了更好地研究语音合成在闽南语上的应用,建立了闽南语数据库,并验证了Tacotron2为有效的语音合成模型.数据库方面,建立起地方特......
先序关系指知识主题之间学习的先后依赖关系。已有的先序关系挖掘方法大多是流线型的方式,易导致错误累计,且严重依赖可能导致错误......
语音信号包含信息丰富并且使用便捷,是日常交流最常用的方式。语音交互利用语音交流形成人与机器交互的新方式,使得机器使用更为便......
鼻咽肿瘤生长方向不确定,解剖结构复杂,当前主要依靠医生手动分割,该方法耗时久同时严重依赖于医生的经验。针对这一问题,基于深度......
随着人工智能时代的到来,越来越多的智能设备走进人们生活,语音作为人机交互的重要接口,为生活带来了巨大便利,因此众多学者将语音......
作为一种革命式的未来互联网体系结构,可重构信息通信基础网络通过构建并存的虚拟网支持不同的业务类型,通过多态路由机制支持按需......
针对人体动作预测中由于受到运动速度、运动幅度等不确定因素的影响,导致预测的第1 帧动作不连续且准确预测时间较短的问题,提出一......
端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端......
由于内蒙古地区蒙汉机器翻译水平落后、平行双语语料规模较小,利用传统的统计机器翻译方法会出现数据稀疏以及训练过拟合等问题,导......