【摘 要】
:
泛娱乐产业发展如火如荼,视频压缩作为基础业务,发挥着极其重要的推动作用。视频压缩的核心技术不断更新,但人们对视频的要求不断提高,有限网络带宽与超高视频码率之间的矛盾仍是未来很长一段时期的研究热点。码率控制与率失真优化技术作为视频编码端优化技术,不可或缺。视频转码能力作为视频服务提供商的硬实力的象征,长期以来各大厂商不遗余力地研发提升。为此,本文围绕多路并行码率控制、率失真优化和视频转码三项内容展开
论文部分内容阅读
泛娱乐产业发展如火如荼,视频压缩作为基础业务,发挥着极其重要的推动作用。视频压缩的核心技术不断更新,但人们对视频的要求不断提高,有限网络带宽与超高视频码率之间的矛盾仍是未来很长一段时期的研究热点。码率控制与率失真优化技术作为视频编码端优化技术,不可或缺。视频转码能力作为视频服务提供商的硬实力的象征,长期以来各大厂商不遗余力地研发提升。为此,本文围绕多路并行码率控制、率失真优化和视频转码三项内容展开研究工作。(1)研究基于I-帧周期并行机制下的时域分层恒定码率控制算法。首先根据AVS3参考软件支持的随机访问片段机制,构建并行编码实施方法,将I-帧周期并行条件转化为更为严格的短时限制条件。然后根据统计分析,建立新的率失真函数模型,并将其作为编码参数调节的技术保障。接着根据编码器特性,为编码的每个层级制定自适应码率分配策略。最后导出帧级量化参数,达到并行恒定码率控制的目的。(2)研究基于图像内容复杂度的率失真优化算法。首先通过下采样亮度分量的边缘纹理检测结果计算得到帧内复杂度。接着通过信源的运动估计计算得到帧间复杂度。然后融合帧内、帧间复杂度并将其映射到视觉熵域。最后通过经典的率失真模型导出编码单元级的拉格朗日乘子,提升编码客观和主观性能。(3)研究基于解码信息复用的快速转码方法。针对H.264/AVC向HEVC/H.265的转码任务,通过分析两项标准的块划分、帧内预测和帧间预测技术的异同,利用H.264/AVC码流解码信息,构建HEVC/H.265的快速块划分方法以及模式抉择策略。最终完成高效异构转码。所提出的并行时域分层恒定码率控制算法,能够自适应地适配不同编码器环境,达到优异的码率控制精度,为稳定的视频传输提供强有力的技术保障。所提出的基于内容复杂度的率失真优化算法在AVS3开源软件平台集成后,测试表明同时提升了客观和主观性能。所提出的基于解码信息复用的快速转码方法在HEVC参考软件HM平台上的集成测试表明显著提升编码速率。论文的部分工作已被中国音视频标准工作组采纳,形成专利技术,包含技术提案3份、国内专利6项和国际专利6项。
其他文献
减员与增效,本来就是一对难以调和的矛盾,更何况是在业务繁忙、事无巨细的一线供电所。化解供电所被动减员与提质增效的矛盾,不仅仅考验着制度设计者的构建力,更考验着一线管理者的智慧力。供电所结构性缺员与老龄化问题积弊已久,特别是在农电员工“退休潮”汹涌而来的近两年,如何在现有条件下,重整供电所人财物资源,采取积极有效的管理措施化解被动减员与增效的矛盾,是绝大多数基层供电企业管理者面临的一道难题,也
本文是对图像复原中的去雾算法这个领域做了一系列的研究探索。简单来说,本文首先介绍了结合神经元注意机制(Neuron Attention,NA)的更迭去雾网络所使用到的一些关键算法与模块。其次介绍了关于双向长短期记忆网络(Bi-LSTM)的基本构架。最后介绍了关于神经元注意力机制的基本结构,以及其所采用的深度和点卷积的运算过程。NA模块是在通道注意力机制的基础之上发展而来的,可以通过模拟神经元之间的
随着智慧教育的不断发展,自动判卷已经成为未来的一种趋势,而作为智慧教育的入口,OCR识别也越来越受到研究者们的重视。其中作为OCR识别系统中的手写体数学公式识别一直因为其复杂多样的二维结构,导致其研究进展缓慢。本文以数学公式的二维结构为着手点研究数学公式的识别,并进一步研究表达式一致性判别的相关问题,最终构建了一个初中数学填空题自动判卷系统。其主要研究内容如下:对于数学公式识别,本文采用编码器-解
行人重识别是在图像库中检索与查询图像具有相同身份的行人图像。目前,行人重识别在智慧城市、刑侦取证、社会安全等领域有着广泛应用。然而,行人重识别需要依赖大规模的有标记的数据集来训练模型,而数据标注的高成本使得基于监督学习的方法难以扩展到现实应用中。因此,如果能在不使用数据标注的情况下,将在其他数据集中训练的模型直接迁移到新的数据集中,将会对极大促进行人重识别技术的商业化进展。本文借助域适应、影响函数
地表上行长波辐射是反映地球表面冷暖状况的指标,是地表辐射收支的关键变量之一。在已有地表上行长波辐射产品的估算算法中,地表均被假设为朗伯体,对地表热辐射方向性的回避会给地表长波上行辐射的估算带来很大的误差。对同一地物进行多角度准同步观测是解决热辐射方向性最直接最有效的方法,然而,目前在卫星尺度只有ATSR系列传感器可以提供两个角度(0°和前向55°)的准同步观测。两个角度不足以驱动热辐射方向性核驱动
湘西土家族摆手舞源远流长,是土家族传统文化的重要内容,在各种节日庆典中发挥着重要作用。虽然湘西土家族摆手舞在当地受到部分人的高度关注,但是在传承发展方面却面临着困境,亟待寻求多条路径予以优化解决。本文立足于舞蹈教育层面,在简要介绍湘西土家族摆手舞的基础上,明确了传承和发展湘西土家族摆手舞的重要性,并重点探讨了如何在舞蹈教育过程中传承和发展摆手舞,希望相关举措具备参考借鉴作用。
随着知识经济时代的到来,知识在生产生活中发挥着越来越重要的作用,为了让知识流动起来消除“信息孤岛”现象,基于区块链的知识共享技术已经成为了当前研究重点。在知识共享环境中共享网络通常地域分布广阔,网络状况复杂并且对工作效率和安全性要求较高。但是由于当前区块链共识算法大多基于同步或半同步网络假设,相应的设计难以应对网络延迟类攻击,并且不能同时保证可伸缩性和安全性,使得基于区块链的知识共享技术难以在应用
基于自然语言描述的行人图像检索研究指的是给出一段自然语言形式的文本描述,从行人图像数据库中检索出与文本描述最相符合的行人图像。随着卷积神经网络和循环神经网络的快速发展,计算机已经具备高效提取图像与文本特征的能力。然而,仅仅提高视觉模型或者文本模型的特征提取能力对基于文本的行人图像检索研究的性能提升收效甚微。由于图像和文本特征分属于不同模态,如何减小不同模态之间的语义鸿沟成为提高基于文本的行人图像检
近年来,由于国家层面对境外融资政策的支持,境外发债迅速成为中资企业特别是地方国企融资方式的新宠。分析中资美元债的发行模式、存在的潜在风险及应对措施,具有现实指导意义。
文本情感分类是一个自然语言处理领域中的常见问题。随着大数据时代数据规模的爆炸式增长,用户在互联网的使用中积累了大量的文本数据,如何从文本中有效提炼出用户的情感倾向成为了如今自然语言处理领域的一大挑战。而文本情感分类方法作为处理该问题的有效方法之一,也因此得到了研究者们的广泛研究。现有的文本情感分类方法主要使用神经网络相关技术及结构以提取到原始文本中的深层特征信息,进而根据提取到的特征完成文本情感倾