腾讯音视频实验室杰出科学家刘杉AVS已经

2019年05月15日 来源:

2017年12月28日,由腾讯社交络事业群(SNG)主办TSAIC学术工业交换盛会在腾讯滨海大厦举行,150余位来自麻省理工、斯坦福、卡耐基梅隆、清华、中科院计算机所、微软研究院等海内外知名高校、研究所的学者和研究员受邀出席。

腾讯音视频实验室杰出科学家刘杉作为主讲嘉宾出席此次大会。在会上,她分享了视频编解码领域技术介绍和编码标准变迁。她说近年中国的数字音视频编解码技术标准工作组(AVS)做得越来越好、越来越强大,现在是完全不可忽视的一个力量。

以下是刘杉演讲全文。

非常高兴也非常荣幸来到这里跟大家做一个分享。我今天分享的主题是视频编解码和标准化。

在分享之前,我简单介绍一下我自己。跟刚才两位佳宾的背景稍稍不一样,我是来自工业界的博士,之前在一家公司工作过,做过研究、也做过产品。如果在坐有同学想了解一下博士在工业界的心路历程,欢迎大家找我分享。

我们有视频编解码的传输,也包括前处理和后处理等等比较宽泛的项目,近几年我们聚焦在视频编解码的制定标准,也是今天我跟大家分析的内容。我大概在上个月加入腾讯的音视频实验室。

言归正传,今天分享的主题包括两个部份,一个部份是标准,另外一部分是编解码。

我先讲一下视频编解码的国际标准,后面花一点时间讲一下音视频实验室的成果和场景。

我觉得知道为何要做一件事对任何一个项目来说都是至关重要的。之所以要做视频这件事,由于视频的数据量是非常非常大的,大到什么程度呢?举个简单的例子,有一部电影,这个电影是两个小时的电影,视频编解码背景的同学可不可以告诉大家,这个视频如果不紧缩是多大?

我们大家一起来做一个快速算术,,2小时20分钟,如果不压缩是3BT。如果我们买一个移动硬盘。你的手提电脑,如果不压缩,大概可以装两部这样不压缩的电影。如果不压缩,我们需要传输的带宽是很大的。我花了1分钟的时间来做这个数学,这件事情不是重要的,而是必要的。一件事情如果是必要的,我们就要去做。

我们要了解什么是视频。简单讲,视频就是一组图片,但是它不是一组单独的图片,而是有运动关系的图片,我们要捉住两个点,运动关系和图片。

基本上基于这两个基本点可以分两类,一类是针对图片紧缩的,另外一类是运动路径、运动补偿和一些相关技术。

我们对色度做一个处理,这件事对博士来说完全没有什么技术含量,下面有技术含量的是transform,我们在这里面常用的是DCT,近的标准里面也开始引入了DST。还有其他的一些还在探讨当中。

右上角是Example quantization matrix,我们做压缩的看到这个会很兴奋,因为我们看到很多很多的0,看到后面的数据我们会更加兴奋,因为会有更多连续的0,这是为下一步做准备。下一步是Entropy Coding,是一种无损紧缩方式,可以把这个紧缩的更小。

刚才分享了几种针对图像压缩的技术,我们可以有一个简单的架构图,这张图是就是简单的架构图。

我们又回到刚才讲的什么是视频,视频就是运动关系和图片。图片方面我们已经讲了,下面我们要看一下运动关系这部分。

我们真正在做编解码的时候,不像很多领域那样做的,在主流的里面我们还是用块状的方式,所以对于运动补偿方面有很多相干技术,比如说预测单元的划分,运动矢量图本身的划分,我们真正在标准制定的时候,关于运动补偿的这一大块,通常都是划分成很多个小的技术分组来具体讨论它相关的各个运动子级、技术子级和细节。

通过刚才图片紧缩和运动关系的分析,我们可以得到一个简单的示意图,我们可以看到它包括了压缩模块、运动补偿模块。

刚才给大家看的是简单的,是我们之前的,经过这二三十年的努力和变化,现在就变得好了很多,有更多模块,也有更多技术细节。这是近期HEVC和H.265的Video Encoder,待会儿我会再详细讲这个标准。

花了几分钟时间,在坐各位已经是视频编解码的专家了,我们可以讨论下一步了。

我们讨论Video Coding Standards,如果没有一个出入口或者大家都接受的密码本这样的东西,Apple、Orange就没有办法进一步的分级出来,这就是我们需要全世界人民都接受的标准。

接受标准不是一个人、两个人都说了算的东西,它是有一套标准组织和严格的流程。有两个历史比较久的标准阻止,其中个是ITU,在它下面有一个工作小组是在ITU下面负责研究视频编解码的技术和制定它的标准。第二个标准组织是ISO/IEC MIPEG。他们有一个MPEG,是在ISO、IEC下面研发视频编解码的技术,制定它的标准。还有一个公司是AOM,制定视频编解码标准。还有一个标准组织我没有写,但是我觉得也是非常重要的,AVS,是我们国内的标准阻止。近些年AVS做得越来越好、愈来愈强大,现在是完全不可忽视的一个气力。

视察从过去到现在的标准,我们可以看到,1984年ITU已经出来了个标准,H.120,具体长什么模样我也没有见过,因为稍微有一点早。到1990年推出了H.261,这个已经是被大家广泛使用的。1993年ISO、IEC交替的出了MPEG-1 Part2。在1995年出了H.262,这个标准是ISO、IEC两个组织共同制定的。我不知道在坐多少同学用过DVD,DVD这个格式我们小时候用了很久,DVD这个格式就是用了MPEG-2 Part2,很多电视节目也是用的MPEG-2 Part2。2003年有了H.264,像HD、DVD这些格式都是用这个,很多新的节目也都是开使用H.264。又过了大概10来年,出了一个H.265/HEVC,它也是我们认为比较好的。无论是从MPGE Part2恩到H.264还是H.265,它都是翻倍了的。

下面花一点时间讲一下HEVC。HEVC在2007年左右开始预言,各个公司怎样有新的视频编解码的技术,到2010年1月份,这个标准组织觉得我们有希望,所以就做了一个标准。2014年全世界各个公司、学校和研究机构,全世界的工程师、科学家坐在一起做评估,出台了一个标准,又过了艰苦的努力,在2013年出台了Version1。2014年出版了Version2。2015年出版了Version3和3D。2016年又出了Version4。制定标准是一个蛮艰苦的过程,努力的工作一般来说回报都是不错的,HEVC的标准取得了第69届的艾美奖,工程师们也可以参加一下这种颁奖,蛮有意思的。参加这种活动的人只有10几个,但是这套标准积累了上千个工程师和科学家、研发人员的努力。

这个地方是HEVC Block Diagram,H.265比之前做了很多改进,由于今天时间有限不太会讲的很具体,由于每一个技术又是一个新的讲座。

做过264的同学都知道,另外一个重要的模块是运动关系,我们做了更多技术,包括更多预测单元和Coding,很多都有新的更新。265比264的时期有更多Modes以后,做了很快技术的提升。

Deblockin Filter,之前像263这种都是后处理的模式,264做了一个稍微革新性的,265也做了改进,我们在266会有更新的改进。

我们标准有一系列的数据,大家不能拿来自己比较,这个是426240的,但是现在很少人看这样的,如果单单把HD拿出来,这个HD sequences,我们264可以到。我们做视频、视觉或者图象的同学都知道,数据是一回事,有时候科学是另外一回事。Subjective是67% class B sequences,49%for class C sequences。

做标准的人是永远不会停下来的,标准这个事情是一代一代可以做下去的。我们进行266的预言,266的预言大概在2013年、2014年很多公司就开始了,2015年10月的时候,ISO、IEC、ITU这几个相爱相杀的组织说要一起做,就一起进行预言,大概又过了两年时间的共同研究,他们说又有信心可以做一个标准,所以标准组织又发了一个通知,明年公司、学校、科研人员又要坐在一起讨论,在未来两三年时间里面我们又要努力工作,做下一代的新的标准。

刚才讲我们做了很多预言,我们有这么多编解码的工具。我们看到4K和2K的情况,我们已经有35%的Coding game,我们有一定的信心可以做下去。这是一个起点,不是一个终点,在未来两三年里面,我们会进一步把coding game的数据做大,把另外那个数据降低,带给大家更好的体验。

这大概就是我今天分享的关于视频编解码和国际标准的浮光掠影的简单介绍。

下面我用简单一两分钟时间介绍一下我们音视频实验室的场景,让大家看一下我们的工具和比较有意思的事情。

因为我们要落地场景,所以实质性要求很高,这是在工业中进行的测试,比如说降噪,一个物体可移动的很快,它可以转、色彩有改变,或它是不是会掉下来,都有预测的。我们的TPG会进行图像压缩和解决方案。

还有语音的前处理,我个人不是语音专家,但是我们实验室有很多语音方面的专家,我们音视频实验室分论坛,语音背景的同学可以过来跟语音专家进行深度交流。我们还有一些比较有意思的语音方面的demo,因为这边效果不太好,demo效果在分论坛会有演示,欢迎大家来看我们的音效。

我们还在探索跟AI相关的课题,AI的语音降噪和分离,包括AI的语音美化。我们不仅只美化样子,还要美化声音,这是全方位的美化。还有AI辅助的音视频的质量评估等等。

这些是音视频实验室近期的成果和应用场景。这就是今天的分享,非常感谢大家。

白带多应该吃什么
产后预防感染吃什么好
什么症状是产后感染
相关文章
  • 5岁男孩走失后续男孩目前已在福利院安顿
    5岁男孩走失后续男孩目前已在福利院安顿

    《5岁男孩走失》后续:男孩目前已在福利院安顿广西南宁讯(彭宁莉)9月15日,本报《5岁男孩走失不见家人报警》一文刊登后,这名走失的男孩立即引起了读者的关注。有市民致电福利院表达了想领养该男孩的意愿。  9月15日下午,致电南宁市社会福利院得知,...

  • 各镇多渠道宣传教育实践活动
    各镇多渠道宣传教育实践活动

    各镇多渠道宣传教育实践活动为广泛听取全镇党员、群众关于“四风”方面的意见和建议,日前,郭庄镇专门设立了活动专线和电子邮箱,以发文、告示、宣传栏、标语、数字电视滚动字幕宣传等形式向全镇广大群众及时公开。同时,专门抽调工作人员具体负责民情...

  • 延边国际饭店有限公司避免浪费重细节延边新闻网报道
    延边国际饭店有限公司避免浪费重细节延边新闻网报道

    2月27日,在延边国际饭店有限公司了解到,2012年11月该公司投入资金,重新改造了自助餐厅,在重新更换餐具等细节方面厉行节约、从根本上杜绝浪费,积极响应全国提出的“文明餐桌”行动。该公司办公室主任张希保介绍,以前,一楼餐厅为火锅、零点的餐厅,早...

  • Rockstar午夜俱乐部洛杉矶新图欣赏
    Rockstar午夜俱乐部洛杉矶新图欣赏

    Rockstar《午夜俱乐部:洛杉矶》新图欣赏《午夜俱乐部:洛杉矶》(Midnight Club: Los Angeles)是该系列中登陆次世代主机的作品。游戏由Rockstar圣地亚哥工作室负责开发。本作将同时对应单机和在线联机游戏。本作与系列之前的作品相同:是一个开放式的赛车游戏,其...

  • 俄罗斯海滩现怪兽尸体体型比人类大一倍
    俄罗斯海滩现怪兽尸体体型比人类大一倍

    据英国《每日邮报》6月30道,俄罗斯库页岛(Sakhalin Island)沙赫乔特斯克机场(Shakhtersk Airport)附近海滩上,日前惊现一具神秘的海洋怪兽的尸体。它有类似鸟类的长喙,尾巴上有皮毛,尽管它与海豚类似,但体型却比人类大一倍。《西伯利亚时报》站上刊发的照片显示,...

  • 高校毕业生就业服务月下月启动三类对象有补助
    高校毕业生就业服务月下月启动三类对象有补助

    福州讯 25日,从省公务员局获悉,9月1日起我省将启动2011年高校毕业生就业服务月活动,活动为期1个月,重点服务2011届以及往届离校未就业的高校毕业生、三支一扶等基层就业项目服务期满的高校毕业生。活动期间,各设区市公务员局(人事局) 、县(市)区人...