【摘 要】
:
文字是人类进行信息交流的重要工具,研究文字自动生成技术具有重要的实践和理论意义:文字生成技术能用来提高文字多媒体内容的生产效率,比如字体设计、视频文字特效生成等,还有助于理解人类智慧背后的机理,促进神经科学和模式识别等领域的交叉融合。本文研究的文字图像轨迹恢复是一种跨越了图像和轨迹序列两种模态的文字生成任务,虽然学术界对该任务有多年的研究历史,但由于文字图像的结构复杂性、文字轨迹序列的时空复杂性还
论文部分内容阅读
文字是人类进行信息交流的重要工具,研究文字自动生成技术具有重要的实践和理论意义:文字生成技术能用来提高文字多媒体内容的生产效率,比如字体设计、视频文字特效生成等,还有助于理解人类智慧背后的机理,促进神经科学和模式识别等领域的交叉融合。本文研究的文字图像轨迹恢复是一种跨越了图像和轨迹序列两种模态的文字生成任务,虽然学术界对该任务有多年的研究历史,但由于文字图像的结构复杂性、文字轨迹序列的时空复杂性还有图像到序列的跨模态映射复杂性,导致轨迹恢复研究目前仍然存在许多尚未被攻克的关键难题。质量评价和算法设计是轨迹恢复研究中最关键的两个问题,前者是对算法好坏的客观反映,是算法设计的基石,后者是实现轨迹恢复任务的手段。本文针对这两个问题进行研究:(1)本文认为轨迹恢复要兼顾文字字形和文字运动轨迹两个方面,所以本文分别从字形相似性和轨迹相似性出发,提出了两个全新的轨迹恢复质量评价方法。为了量化字形相似度,本文提出了动态交并比(Dynamic Intersection over Union,DIo U)算法,DIo U定义了两个文字图像的重叠率,并在计算字形相似度时利用动态膨胀算法自适应地调整笔画宽度,从而消除笔画宽度对评价结果的影响。实验结果表明,相比常用的图像相似性指标(比如峰值信噪比和结构相似度),DIo U对文字结构的变化有更好的敏感性,因此适合用于评价恢复轨迹的字形质量。对于轨迹相似性的量化,本文引入LNDTW(Length-Normlization DTW)序列对齐算法来计算恢复轨迹和真实标注轨迹的差异。理论分析和实验表明,LNDTW能适应轨迹的复杂性,在轨迹长度不一和采样率可变等挑战下,仍然能有效地反映恢复轨迹的误差,印证LNDTW指标能从轨迹方面来评价恢复轨迹质量。(2)轨迹恢复算法要考虑到轨迹恢复任务的多模态属性,因此本文提出了一种基于非对称双流卷积循环神经网络的轨迹恢复算法。为了高效地实现文字图像到轨迹序列的模态转换,本文认为文字图像的二维特征可以被拆解成x和y两个方向上的一维特征,并分别使用两个非对称的CNN从输入图像中提取得到x和y方向的一维特征,然后使用RNN从一维特征中提取上下文信息。最后,为了实现轨迹序列的输出,本文使用了RNN解码得到轨迹坐标点序列。在训练过程中,为了解决恢复轨迹序列和标注轨迹序列难以对齐的问题,本文引入了可微分的Soft DTW损失函数来稳定训练并提升恢复轨迹质量。实验结果表明,相比轨迹恢复基础算法,本文提出的非对称双流卷积循环神经网络算法能在不增加计算量的前提下,在LNDTW和DIo U指标上分别取得6.5%和19.7%的改善。
其他文献
在环境问题日益严重的今天,清洁能源地使用极为重要,而太阳能是其中最重要的部分。光伏钙钛矿材料由于其具有制备简单,成本低廉的优势,同时兼具光吸收系数高、载流子传输距离长等优异光电特性,曾被评为2012年度十大科学发现之一,受到广大研究者的关注。目前钙钛矿太阳能电池的性能和稳定性主要受到本征缺陷的影响,而钝化工程是缺陷态密度调控的重要方法,可以进一步提高效率和稳定性。本文着眼于对于钙钛矿活性层的钝化,
背景:结直肠癌是世界第三常见的恶性肿瘤,死亡率居恶性肿瘤的第二位。20%-30%患者导致死亡的原因是因为发生了肝转移,约有14%-20%患者会发生同时期肝转移。结直肠癌同时性肝转移(synchronous liver metastasis,sCRLM)患者未经治疗1年生存率不足30%,5年生存率不足6%。结直肠癌同期合并独立肝脏转移(无其他部位转移)是一个较为困难的临床管理问题。对于s CRLM患
钕铁硼永磁因其优异的硬磁性能在电动汽车、风力发电、医疗器械、航天航空、电力机械等众多领域有着重要应用。钕铁硼用量的不断增加消耗了大量的镨、钕、镝、铽等稀土元素,而与此同时,镧、铈、钇等高丰度稀土大量积压,导致了稀土资源应用不平衡。本文瞄准开发基于高丰度稀土元素钇(Y)的稀土永磁材料,系统地研究了三元Y-Fe-B合金的相析出行为、磁性能和热稳定性,并且利用钕(Nd)和钆(Gd)替代Y,调整Y-Fe-
随着我国铁路运营里程的不断增长,动车组拥有量的快速增大,受电弓动态性能参数的检测也受到越来越多的关注。列车的安全运行离不开受电弓的正常工作,但是现实铁路环境中,可能存在许多不确定因素影响受电弓接触状况,比如受到飞行物撞击导致受电弓的形态结构产生变化、弓网之间产生较大的燃弧造成弓网离线、受电弓悬挂异物导致弓网之间接触存在障碍等等,有些情况甚至可能造成列车停止运行。现实环境中,很难人为的进行不间断地对
在歌剧院演出歌剧时,演出由舞台演员和乐池内伴奏乐队共同完成。因此,歌剧院的音质很大程度上依赖于舞台声源和乐池声源的配合及平衡。由于观众厅、舞台和乐池三个空间互相耦合,它们之间的耦合效应使得影响歌剧院音质的因素繁多且复杂。国内外已有诸多关于观众厅和舞台音质方面的研究,但针对剧院乐池空间的研究仍较少,乐池的空间处理、边界形状对歌剧院音质的影响仍在初步探究阶段。本文以珠海歌剧院为例,利用缩尺模型实验技术
海底电缆是跨水域输电的重要装备之一,合理地配置长距离海缆的无功补偿方案和评估线路的载流能力对于提升现有输电线路运行的利用率,优化未来线路的规划投资具有重要意义。长距离海缆受电容充电电流的影响较大,通常进行无功补偿,但无功补偿会改变线路上的电流分布,可能会造成海缆的热限制问题。此外,海缆金属护套通常采取两端直接接地的方式,这可能造成护套上较大的接地电流,影响海缆的载流量。为了提高长距离海缆运行的可靠
本文研究电场作用下纳米制冷剂在微孔阵列表面微细通道内流动沸腾的传热及压降特性,重点研究电场、纳米制冷剂、微孔穴结构3种强化技术及其相互复合作用对流动沸腾传热及压降特性的影响,主要研究内容如下:(1)采用两步法配置0.01wt%、0.05wt%、0.1wt%、0.2wt%质量分数的Si O2-R141b纳米制冷剂,在200V~800V直流电场作用下进行流动沸腾实验,探究电压、纳米制冷剂浓度、热流密度
进度、成本、质量是一个企业管理上的三驾马车,而随着市场竞争的愈发激烈,质量也随之成为企业的关注点,而质量成本管理是质量管理中实际应用较少的领域。质量成本管理是研究如何确定和消除质量损失成本以及如何预防和鉴定质量损失的一门管理科学,企业要想在竞争中占据优势和主动,只管理进度和成本是远远不够的,而“矿中黄金”——质量成本成为了如今企业研究和改进的趋势和重点。本文通过把质量成本管理引进到具有研发性质的G
近年来,开放领域的知识型对话系统吸引了许多研究人员的注意,其目标是利用对话背景知识和对话上下文回答用户提出的问题。当前的知识型对话系统分成两大类,分别是基于生成式的知识型对话系统和基于检索式的知识型对话系统。前者在编码器-解码器的框架基础上先融入背景知识,再生成相应的回答。后者则是从候选回复集合中选择与对话背景知识以及对话上下文最匹配的回复。本文研究针对的是检索式的知识型对话系统。现有的相关方法专
肿瘤抑制蛋白p53参与众多细胞过程,例如参与调节细胞周期阻滞、DNA损伤修复、血管生成、自噬、迁移、衰老以及凋亡等生理过程。根据临床研究报道,在超过50%的癌症类型中发现了p53突变。突变型p53等位基因的遗传导致人类患上Li-Fraumeni癌症综合征。p53-/-小鼠在成体阶段均会产生肿瘤。同时,p53蛋白处于精密的、多层次的调控网络中。例如,转录水平上受到可变剪切的调节;蛋白质水平上受到蛋白