【摘 要】
:
目前正在研发的VVC、AV1、AVS3等新一代编码标准提高编码效率的手段主要是通过更多模式或更复杂的变换来提高压缩效率。本质上是在用巨大的时间复杂度换取有限的空间复杂度。本文则从主观视觉质量的角度探寻提高编码效率的可能性。传统视频编码技术一直使用客观评价指标作为失真衡量方法,仍然难以代替人眼主观效果评判。本文以基于主观效果的视频编码优化技术为研究主题,重点研究人眼主观感受指标的建模。进一步使用主观
论文部分内容阅读
目前正在研发的VVC、AV1、AVS3等新一代编码标准提高编码效率的手段主要是通过更多模式或更复杂的变换来提高压缩效率。本质上是在用巨大的时间复杂度换取有限的空间复杂度。本文则从主观视觉质量的角度探寻提高编码效率的可能性。传统视频编码技术一直使用客观评价指标作为失真衡量方法,仍然难以代替人眼主观效果评判。本文以基于主观效果的视频编码优化技术为研究主题,重点研究人眼主观感受指标的建模。进一步使用主观指标优化传统编码的率失真优化过程和码率控制过程,从而使重建视频取得更好的人眼主观效果。主要研究内容分为三部分:(1)分析了传统提取人眼主观感知指标的方法和优化视频编码过程的方法。结合自由能原理在人眼视觉中的应用,提出了三个人眼主观感知指标,并能在较短的时间复杂度计算出来,使其能够应用在视频编码领域。所提出的主观感知指标能够更接近人眼的主观感受,能够使用它降低视频的视觉冗余信息。(2)分析了传统编码的率失真技术原理,利用主观感受指标优化率失真过程。率失真过程可以认为是在在失真和码率上做一个抉择,而传统的率失真使用的失真指标一直都是客观指标。提高失真中的主观指标权重能让率失真优化选择更合适的编码模式,从而编码出人眼视觉质量更高的图像。(3)分析了 HEVC编码器码率控制算法的原理、优点和存在的问题。通过对运动强度和场景切换进行预测,优化了帧级比特分配的过程。通过对显著性区域和结构纹理内容的检测,优化了 CTU级比特分配的过程。开启码率控制编码时,帧级和CTU级分配的比特能够和图像的复杂度更加匹配,从而获得主观视觉效果的提升。全文工作以HEVC标准的HM16.17参考软件和x2653.4商用编码器进行测试。大规模的测试结果表明:所提出的基于主观感知的率失真优化算法在RA模式下显著区域PSNR-Y和SSIM-Y指标分别提升了 0.40%和2.00%,整体区域PSNR-Y指标降低了了 0.59%,SSIM-Y指标提升了 0.72%。所提出的基于主观感知的码率控制算法在RA模式下PSNR-Y指标提升了 0.73%,SSIM-Y指标提升了1.38%,码率控制误差在0.47%。在LD模式下PSNR-Y指标提升了 0.30%,SSIM-Y指标提升了 0.82%,码率控制误差在0.23%。
其他文献
目的 探讨多普勒超声评价颈动脉粥样硬化斑块性质及狭窄程度的效果,分析其与脑梗死的关系。方法 回顾性分析本院2020年2月至2021年1月76例确诊脑梗死的患者作为观察组,纳入同期住院或门诊非脑梗死患者60例为对照组;2组均接受多普勒超声评价检测颈动脉粥样硬化斑块,对比评价该检查项目对缺血性脑血管病的检出价值。结果 经多普勒超声检查出对照组有39个斑块,观察组135个斑块,观察组不稳定斑块数目明显高
随着计算机科学与技术的快速发展,人们生活质量得到改善的同时,每天产生的数据也在以指数级的速率增长。在这个数据爆炸的时代,由于人工智能、数据挖掘等技术的出现以及快速的发展,数据的潜在价值逐渐被人们重视起来。我们可以从今年3月份发表的《关于构建更加完善的要素市场化配置体制的意见》中看到,国家已将数据视作了生产要素,与其它要素一起融入了经济价值创造的过程之中,可见数据在国家层面得到了最高的认可。然而数据
随着计算机技术的发展,自动化、智能化业务系统的需求日益增长。机打票据在企事业中被普遍应用,业务流程中信息的自动识别对成本节约具有重要意义。然而,现有的方法大多要求专业的图像采集设备,识别效率也有很大的提升空间。因此,研究简单且成本低廉的机打票据识别系统具有重要的现实意义。传统的光学字符识别(Optical Character Recognition,OCR)开源软件仅仅可以对文章等简单文本内容进行
随着卫星技术、高速光纤传输技术的逐渐成熟,天地一体化融合网络理念逐渐被大众接受并推广。SDN作为一种较为新型且技术生态相对完整的网络架构,通过解耦控制层与转发层,以软件形式实现了对全网资源的掌控与调度。通过SDN技术将天网与地网协同一体,可以极大程度发掘出天网的潜力。星地协同中传输链路的传输质量会受到基站所处的地理位置、地形、天气等外在因素的影响,因此为了最大限度保障服务质量,本文通过SDN控制器
经历多年发展,分布式数据库领域逐渐细分,可以按处理方式不同将其划分为面向事务处理的数据库(OLTP型),面向数据分析的数据库(OLAP型)以及较新颖的混合两种功能的数据库(HTAP型)。其中AP和TP类型的系统发展已经相对成熟,而当前市面上虽然已经存在不少的HTAP实现方案,但大部分是基于行列混合存储的方式实现,事务的实现仍依赖于行式引擎,列式引擎数据需要从行式存储中同步得到,而直接面向列式存储的
近年来,随着互联网大数据的发展,各种形式的多媒体数据(图像、文本、视频、音频等)呈现出爆炸式的增长。而对大规模多媒体数据精准、有效的检索也随之成为一个新的研究热点和难点。多媒体检索的任务目标是实现以一种数据类型作为查询来检索得到本类型或其他类型的相关数据。例如,用户可以使用文本检索相关的图片或视频。本文针对大规模多媒体检索的重点和难点问题进行研究,深入探索了大规模多媒体检索已有方法存在的一些问题及
在深度学习领域,视觉问答一直是热门的研究方向,这一任务的定义如下:一个视觉问答系统涉及视觉和文本的处理。由自然图像和形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。目前的视觉问答方法通常基于物体检测的模型,计算速度慢且缺乏可解释性。并且训练依赖大量样本缺乏少样本学习能力。在本文中通过使用纯Transformer结构或卷积与Transformer相结合的方式对图像特征进行提取
主流的软件开发模式从瀑布模型一直演进到敏捷开发方法,即从面向文档的线性开发模式转变成面向用户的迭代开发模式,是为了提高软件产品的交付效率。但更快的软件迭代速度加剧了开发团队与运维团队之间的隔阂,使得交付软件的质量下降。DevOps思想在此种背景下被提出,它提倡通过开发与运维团队之间的紧密协作来保证高速率地交付可靠软件,通过促进团队成员之间进行知识分享来加强成员之间的交流联系,但企业在实践DevOp
交通预测是智能交通系统领域中的一个经典方向和研究热点,它有助于交通控制、路线规划、车辆调度等任务,对于缓解交通拥堵以及保障公共交通安全具有重大的作用。影响交通预测的主要因素包括道路网络结构的空间相关性和路况非线性动态变化的时间依赖性。最近的工作将各种深度学习方法应用于交通预测,主要利用图神经网络进行空间相关性建模,利用循环神经网络进行时间依赖性建模。然而,大多数现有方法假设空间相关性是静态的,时间
数据稀疏、知识不完备等问题是制约知识图谱发展的重要因素,因此,完善知识图谱的知识补全算法是领域内的研究热点。现有的知识补全算法无法有效利用知识图谱内知识,以及对开放世界和知识包含的时间信息的忽视导致知识图谱中的知识存在失效情况,无法为基于知识图谱的问答系统提供可靠的知识支持。针对上述问题,本文展开对面向文本问答的开放世界知识补全技术的研究。通过构建面向开放世界的知识动态融合模型,引入开放世界知识补