快讯
HOME
快讯
正文内容
快手主播nand 业内视频超分辨率新标杆,快手&大连理工研究登上CVPR 2022
发布时间 : 2025-01-20
作者 : 小编
访问数量 : 23
扫码分享至微信

业内视频超分辨率新标杆,快手&大连理工研究登上CVPR 2022

转载整理自 快手音视频技术量子位 | 公众号 QbitAI

现在,视频超分辨率算法又迎来新突破。

一篇最新登上CVPR 2022 的论文,从一种新的视角,统一了视频超分辨率中的低分辨率和高分辨率的时序建模 思路。

论文提出一种新的视频超分辨率框架,以较小的计算代价,充分利用了低分辩和高分辨率下的时序互补信息,以此带来更多细节和纹理的超分辨率结果。

研究在多个公开数据集上达到了SOTA效果,也为后续的视频超分辨率研究提供了新的灵感。

文章地址:https://arxiv.org/abs/2204.07114代码地址:https://github.com/junpan19/VSR_ETDM

视频超分辨率难在哪?

超分辨率 是计算机视觉领域的经典技术,利用图像的自然结构信息实现图像从低分辩率到高分辨率的映射。随着深度学习的发展,卷积神经网络通过强大的拟合能力,在图像超分辨率场景取得了叹为观止的效果。

于是人们开始将目光转向更难的视频超分辨率 任务,并在视频领域得到大规模的落地实践,如在快手App的服务端、移动端等业务都已广泛应用。视频超分辨率的难点在于时序信息的利用,即如何利用多帧图像序列间的互补信息来产生超分辨率所需的纹理细节。

现有的时序建模方法大致分为两个方向

一个是基于光流[1,2,3]、可变形卷积[4,5]、3D卷积[6,7]的方法。这类方法会在低分辨率层面显性或者隐性地建模前后帧的时序信息,然后经过融合网络得到重建的高分辨率结果。由于这些建模的结构大多基于神经网络,并且较为复杂,有时难以直接插入到任意的视频框架中。

另一个时序建模的思路是基于递归隐状态累积的方法[8,9,10,11,12],通过不断在隐层累积历史特征来建模整段视频序列的互补信息。

这种方案最早采用了单向的循环卷积网络,即只利用当前帧与前一帧和历史累积的结果作为网络的输入,融合得到超分辨率结果。该方式的好处是在一定的信息累积后,仅用较小的网络结构和运算成本便可取得可观的收益。但它的问题是前几帧的信息累积不充分,导致初始几帧的超分辨率效果都会受到损失。在实际场景中需要“预热”一段时间后才可以被使用。

双向循环卷积网络是缓解信息分配不平衡的一个解决方案,它将视频的全部信息分别进行正向和反向的传播,最终结合正向和反向的信息生成超分辨率结果。本文深入分析了这种方法,并发现双向的传播策略也面临两个问题。

(1)信息利用的灵活性。 由于双向的传播策略通常是利用前一个和后一个的时序特征,所以当这些时刻发生遮挡或者视差变换时,误差也会累积到隐层特征中,对当前时刻的超分产生错误结果。

一个直观的解决方案是直接将多个时刻的信息传播到当前时刻,但较大的运动差异反而会影响融合的效果。近期有一些方法,采取对预测结果进行运动补偿来弥补,但无论是光流还是可变形卷积都会引入庞大的计算开销。

(2)实时性。 由于双向循环卷积网络的每次运算都要导入所有图像序列的处理,导致难以在实况直播这种因果系统中应用。

此外,无论是在相邻帧的融合方式,还是在特征传播上,现有的视频超分辨率框架仍没有统一的处理方案,往往需要应对各自的时序建模的对象来单独设计策略,这也引发了本文的思考,是否存在一种统一的策略,来对低分辨率图像和高分辨率结果进行时序建模?

面对上述问题,本文提出用相邻帧的时间残差图 来统一低分辨率和高分辨率的时序建模视角。

在低分辨率空间下,输入帧的时间残差图可以用来区分这两帧间中的低变化和高变化区域,不同的区域所包含的互补信息应当在重建中被区分对待。在高分辨率空间下,时序残差图可以将不同时刻的预测结果以较小的运算代价传播到任意过去和未来的时刻。

值得一提的是,所提出的视频超分辨率框架 (ETDM)虽然是单向循环网络的传播结构,但在时间残差图的帮助下,当前时刻的初步超分辨率结果可以被多个过去和未来的结果进一步增强。

图1展示了ETDM在学术公开集Vid4上的处理效果,超过了众多已经发表的视频超分辨率方案,同时也展示了一张图片从320×180超分到1280×720所需的速度。ETDM方法以单向的循环卷积网络结构超过了大部分单向、双向、多帧融合的方法,达到了更好的效果与速度的平衡。

△图1 ETDM方法与其他SOTA方法在效果和速度上的对比

具体如何实现?

如图2所示,本文提出的视频超分辨率结构(ETDM)是一个基于单向结构的循环卷积网络,即隐层特征只采用正向的传播方式。对于每个时刻,网络的输入分为两个层面 :一个是低分辨率空间下的图像序列(前一帧I{t-1}、当前帧I{t}和后一帧I{t+1});另一个是高分辨率空间下的预测结果。

ETDM的核心是提出用相邻帧的差分图来统一这两个层面下的时序建模方式。这里定义当前帧为参考帧,时间差分图为参考帧与相邻帧的差,它既可以表示为前后帧图像的像素变化差异,也可以被认为是参考帧到邻近帧的转换“桥梁”。接下来将从这两方面具体介绍时间差分图的应用方式。

△图2 所提出的ETDM网络结构

在低分辨率空间下的显性时序建模

由于视频帧在获取时具有连续性,存在冗余和非冗余的时序信息,因此相邻帧有着不同程度的互补信息。为了验证这一点,采用图3描绘了参考帧相对邻近帧在不同区域的像素变化程度,不同的颜色表示不同的强度。

△图3 相邻两帧每个像素点的差异程度

可以发现,相邻帧中存在像素点运动差异变化程度较小和较大的区域。这种差异程度具有一定启发性,是否能用时间残差图将邻近帧拆分为低变化(LV)和高变化(HV)的区域。

直觉上,LV区域的表征变化细微,那么相邻帧的互补信息可能来源于微小的细节;而HV区域的整体差异较大,可以从不同方面提供更粗尺度的互补信息。

但是,时间差分图是非常稀疏的。为了得到完整的划分区域,我们先对它用3×3进行滤波和图形化方法处理,然后将其变为二值化的时序差分图并作用到原图上,得到LV和HV区域,如下所示:

由于自然图像的平滑性,LV可能对应帧间小运动的区域,而HV可能对应大运动的区域。

因此在融合方式上,本文选择用参数共享但感受野不同的融合网络。具体来讲,为HV分支的前几层网络分配了更大的空洞率,从而捕捉更大的运动信息。

在高分辨率空间下的显性时序建模

残差图的另一层含义是参考帧到邻近帧的转换“桥梁”。于是,除了重建当前时刻的超分辨率结果外,我们还会重建当前时刻到过去和未来的高分辨率时序残差图。

如上图2所示,我们在特征提取网络后增加了3个Residual Head (Spatial-Residual Head, Past-Residual Head 和 Future-Residual Head)。它们分别预测当前时刻的超分辨率结果,当前到过去的时序残差图的超分辨率结果,以及当前到未来的时序残差图的超分辨率结果。

通过利用所预测的时序残差图,当前、未来或者过去时刻所预测的超分辨率结果便可以传播到当前时刻,并为当前时刻提供更多互补信息。

于是,我们提出了时序往返优化机制。对于当前时刻而言,过去时刻和未来时刻的结果可以按照下面的方式传播到当前时刻:

传播过来的结果带来了不同时刻下的互补信息,因此可以帮助当前时刻的超分辨率结果获得进一步优化。

我们进一步发现,时间残差图具备累积转移特性,即当前时刻到任意时刻的时间转移都可以用这段时间内每个相邻帧的时序残差图来累积得到。于是,自然地将传播过程进阶扩展到任意的时间顺序上。下式展示了将第t-l个时刻的结果传递到当前时刻:

同理,也可以将t+l个时刻的结果传递到当前时刻:

为了充分利用不同时刻下的互补信息,我们维护了长度为N的存储器,来存储N个过去和未来时刻的超分辨率结果,即

下图表示了存储器的更新过程。

△图4 存储器的更新过程

这里以第t帧处理后,开始重建第t+1时刻的帧为例。此时,网络不仅需要更新隐层的特征,还需要更新存储器中的特征,采用下方公式来更新:

效果如何?

一些现有的方法采用不同的数据集来训练网络,这些数据集中的纹理分布不同,对性能也具有一定影响,不利于公平地比较。本文采用了公开的数据集Vimeo-90K来训练网络,并在该数据下复现了部分已有的方法。具体性能比较如图5所示。

△图5 定量的性能对比

图5 展示了不同方法在公开数据集Vid4,SPMCS,UDM10,REDS4的对比结果。ETDM方法在客观评价指标PSNR和SSIM上超过了大部分视频超分辨率方法。图5表中也记录了不同方法4倍超分辨率 一张320x180图像的所需时间。

可以发现,ETDM方法超过了大部分基于时间滑动窗的多帧融合算法,如TGA、RBPN和EDVR,也超过了部分基于双向循环卷积网络的方法。值得一提的是,虽然ETDM的主干网络为单向的隐层传递,但它也超过了BasicVSR、GOVSR这类基于双向卷积网络的方法。

在使用上,ETDM支持灵活设置所要传播的未来和过去的结果个数,而并不需要使用整段视频的所有帧作为输入,因此具备比双向网络结构更灵活的应用能力。

△图6 定性的性能对比

图6 展示了在公开数据集上的定性对比结果,ETDM方法可以产生更丰富的细节和准确的结构。

下面是一些视频的对比结果(上:输入,下:超分辨率后的结果):

总结

视频超分辨率的一个重点是时序互补信息的利用方式,业内多采用基于多帧运动补偿和基于递归隐状态累积的方式分别对低分辨率和高分辨率进行时序建模。

本文重新思考了这个问题,并从新的角度提出了用时序差分来统一低分辨率和高分辨率下的时序建模方法。

时序差分的第一层含义是描述前后帧图像的像素变化差异,因此在低分辨率下可以用来区分输入序列的高变化和低变化的区域;第二层含义是相邻两帧的转换“桥梁”,因此在高分辨率下可以用于传播不同时刻的预测结果。进一步,本文将高分辨率下的单时刻转移扩展为任意时刻的转移,并存储了多个时刻的结果来优化当前时刻。

本文是快手与大连理工大学贾旭副教授合作的,包括TGA,RSDN,RRN系列视频超分辨率工作的后续工作。所提出的ETDM在多个公开数据集上取得了不错的结果,以单向循环卷积的结构超过了SOTA的EDVR,GOVSR,BasicVSR等方法。

参考文献:

[1] Tianfan Xue, Baian Chen, Jiajun Wu, Donglai Wei, and William T Freeman. Video enhancement with task-oriented flow. International Journal of Computer Vision, 127(8):1106– 1125, 2019.

[2] Mehdi SM Sajjadi, Raviteja Vemulapalli, and Matthew Brown. Frame-recurrent video super-resolution. In CVPR, 2018.

[3] Xin Tao, Hongyun Gao, Renjie Liao, Jue Wang, and Jiaya Jia. Detail-revealing deep video super-resolution. In ICCV, 2017.

[4] Xintao Wang, Kelvin CK Chan, Ke Yu, Chao Dong, and Chen Change Loy. Edvr: Video restoration with enhanced deformable convolutional networks. In CVPRW, 2019.

[5] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong, and Chen Change Loy. Understanding deformable alignment in video super-resolution. In AAAI, 2021.

[6] Takashi Isobe, Song jiangLi, Xu Jia, Shanxin Yuan, Gregory Slabaugh, Chunjing Xu, Ya-Li Li, Shengjin Wang, and Qi Tian. Video super-resolution with temporal group attention. In CVPR, 2020.

[7] Younghyun Jo, Seoung Wug Oh, Jaeyeon Kang, and Seon Joo Kim. Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation. In CVPR, 2018.

[8] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong, and Chen Change Loy. Basicvsr: The search for essential components in video super-resolution and beyond. In CVPR, 2020.

[9] Takashi Isobe, XuJia, Shuhang Gu, Songjiang Li, Shengjin Wang, and Qi Tian. Video super-resolution with recurrent structure-detail network. In ECCV, 2020.

[10] Dario Fuoli, Martin Danelljan, Radu Timofte, and Luc Van Gool. Fast online video super-resolution with deformable attention pyramid. CoRR, abs/2202.01731, 2022.

[11] Takashi Isobe, Fang Zhu,Xu Jia,and Shengjin Wang. Revisiting temporal modeling for video super-resolution. In BMVC, 2020.

[12] Peng Yi, Zhongyuan Wang, Kui Jiang, Junjun Jiang, Tao Lu, Xin Tian, and Jiayi Ma. Omniscient video super-resolution. In ICCV, 2021.

快手音视频技术团队介绍

快手音视频技术团队由业界资深的行业专家组成,涵盖了算法、工程、产品等多个领域。自2016年成立以来,团队建立了业界领先的短视频和直播技术体系,保障快手海内外数亿用户体验,驱动平台多元业务的发展。

基于丰富多样的视频应用场景,快手音视频技术团队构建了包括点播云、直播云、RTC等产品体系。通过算法优化和工程建设,团队以用户体验为导向,采用数据驱动、质量评测及产品化等手段,实现了从视频制作、云端处理到视频消费的全链路技术创新,打造更为极致的音视频体验。

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

快手“12动物天团”世界地球日出道 系列直播带你看见每一种生命

来源:中国经济网

子鼠、丑牛、寅虎、卯兔……中国传统的12生肖,按年纪可分为12个动物代表。在现实的自然界中,这些动物的形象也真实存在于我们身边。羊驼、金丝猴、球蟒等让人既熟悉又陌生的生物,也许我们对它们的名字耳熟能详,但却很少近距离走进动物的世界。

在即将到来的4月22日世界地球日,快手联合世界动物保护协会(ID:1837857670)、石探记、新京报书评、ipanda共同发起动物主题科普活动,将12种按照传统12生肖类目衍生的动物组合成“12动物天团”,在世界地球日期间发起为期一周的直播活动,以大众喜闻乐见的内容呈现形式,激发更多人了解认识动物的兴趣。

值得关注的是,4月21日,快手将在站内发布地球日“羊驼渡河”挑战游戏。在快手站内搜索“422地球日”,进入活动页面后点击“橙色羊驼图标”即可体验“羊驼渡河”游戏魔法表情(或在快手魔法表情热门栏内点击“羊驼渡河”也可体验)。坚持10秒,可获取特殊羊驼表情,坚持17秒挑战成功后,将会帮助可爱的小羊驼找到动物朋友们。

7天连续直播,每晚21点上快手看“动物世界”

从4月22日起至4月28日,用户每天都将会在快手平台上与动物们进行“云互动”,走进它们的日常生活,一起探究其背后的故事。直播开始前,只要在快手站内搜索“422地球日”,即可预约对应场次直播。

4月22日晚21点,将由非洲的青山(陈见星)美国WCS赛轮盖蒂猎豹研究中心成员和《奇葩大会2》选手,带来角马专场《我和非洲动物生活的11年》,讲述难得一见的角马迁徙“天国之渡”景象和在非洲与狮子一家亲密生活的故事。

4月23日晚21点,则将放映世界动物保护协会制作的球蟒纪录片《球蟒和异宠贸易背后的真相》,该纪录片是在快手发起的中国官方独家首映,以直播的形式揭露以球蟒为代表的爬行动物在全球异宠贸易中被大规模交易的真相,和背后存在的严重动物伤害及人畜共患病的隐患。

在4月24日晚21点,羊驼与金丝猴专场《野生金丝猴与网红羊驼同时上线》直播中,科学家将带大家一同探究红遍网络的超级萌兽——羊驼究竟是“羊”还是“马”,以及栖息于2000至3000高海拔地区的金丝猴。快手网红“神兽元宝”(ID:Yb5988888)也将现场连线,与老铁分享和羊驼生活的趣味日常。

接下来,在4月25日、4月26日、4月27日晚21点的三场直播中,我们还将认识“最丑的猪”、“最会唱歌的狗”和“中国最贵的鸡”,同时日本动画片《龙猫》中超暖的龙猫形象在现实世界的原型毛丝鼠,也将现身直播间。此外,世界现存体型最小的森林之王苏门答腊虎、现存最稀少的爬行动物扬子鳄、“马类活化石”普氏野马等珍稀动物也将在直播间与大家见面。

4月28日晚21点的收官直播,则将由入围“2017年度中国好书”《动物知道人性的答案》作者赵序茅,带大家走进动物社会,从动物身上找到人类进化的原型,以呼吁人们关爱野生动物,关注自然保护,真正认识到生态文明的尺度在于人和动物之间的距离。

保护自然和动物,快手与老铁持续在行动

除了推出系列直播外,快手针对世界地球日已经在站内上线#422地球日#标签页活动。截止目前,上传作品数已累计822个,总播放量达1.8亿。视频作品中,不仅有大家与动物相处的趣味日常,更有不少人将流浪动物的救治过程记录下来,引发了不少人的关注。

“老疯杨流浪动物救助中心”(ID:LaoFengyangJiuzhu)是四川西充的一家流浪动物救助机构,成立于2017年10月。发起人老杨主动承担起了救助过程所需的费用支出,并组织了专业救助队伍、医护队伍。跟随他600多个快手视频作品,老铁们一同见证了上百只流浪猫狗重归温暖的感人画面。

快手用户“容妈妈和她的流浪狗”(ID:1101929806)也是一名流浪动物救助者,目前她的救助机构已救助了100多只流浪动物。在4月9日发布的快手视频中,她分享了宠物医院来基地接母狗做节育手术的好消息。“及时做节育手术,可有效控制流浪动物繁殖。”不少老铁也纷纷在评论区留言,对这种行为表示肯定。

在我们城市的各个角落,随处可见流浪动物的身影,它们渴望被关注,也应该受到更好的照顾。快手用户“才艺喵”(ID:Yuandan8023)在公司楼下被一只流浪猫“碰瓷”,因为不忍心看它挨饿,随即上楼取来猫罐头,在视频最后她还呼吁“每个人都能善待这些小可爱”,小小的善举通过快手传递给了更多人。“真棒,向你学习”“尽我们所能去帮助更多小动物”“我家猫就是领养的,如果有能力我希望能收养更多”……大家在为她点赞的同时,也纷纷表示今后会多留心身边的流浪动物。

事实上,在快手还有很多热爱自然、热爱动物的用户,通过短视频和直播的方式,展现自然之美的同时,也让更多人学会与动物和自然界正确的相处方式。在“422地球日”的系列直播中,快手也希望能带领大家更近距离走进动物世界,让更多人了解它们的真实生活,发自内心的感知和喜欢上自然与动物们。

相关问答

主播 抖抖V3.75.50(2024已更新(今日/知乎)

主播抖抖主播抖抖谍战剧,剧情科幻犯罪/动作,犯罪1982粤语无字立即播放导演:/杰罗姆·赫汤蒙主演:/孙凤琴,卡洛斯·格拉马赫,萨皮尔·阿苏拉,石田惠理上映...

在你使用过的免费的比较实用值得推荐的软件有哪些?

大家分享的软件真的非常全面呀!那么我只能分享以下十款小众的免费又实用的软件,谁用谁喜欢!1、ExcalidrawExcalidraw是一款功能强大的开源在线白板工具。虽...

苹果手机的 快手 怎么直播?

1.下载快手,然后在设置里面有个直播桌面找到之后打开直播在打开王者荣耀就可以啦。2.今天给大家科普一下怎么在手机上玩王者荣耀(在电脑上)进行直播,一起看...

快手 影视剪辑真的可以挣钱吗?-ZOL问答

快手做影视剪辑视频号是可以挣钱的,但是需要时间和粉丝,年前需要粉丝达到一万才能开通收益,现在降低到粉丝达到五千就可以开通收益了,但是这仍旧是一个不小的挑...

为什么费玉清唱《一剪梅》没火到国外, 主播 蛋哥唱了却火到国外了?

在我们的记忆中,温文尔雅的小哥费玉清仰望天空,深情款款无限温柔唱的这首一剪梅,留给我们无数温情舒缓的回忆……但是这一切被快手视频拥有10万粉丝的主播“...

抖音得直播在哪里,直播在哪看?

[回答]现在直播的软件非常多,比如快手,抖音,火山,西瓜呀,太多啦andaremostactivedemorhxyz52fk·ССpexcsstronglyopposedtoitT...

快手 怎么剪辑电视剧视频教程-ZOL问答

剪辑电视剧视频是一项需要耐心和技巧的工作,以下是一个简单的快手剪辑电视剧视频教程:1.下载并安装快手应用:首先,在手机应用商店中搜索“快手”并下载安装。...

快手 直播球球大作战(中国)IOS/手机APP官网下载V2.25.92;

快手直播球球大作战(中国)IOS/安卓版手机APP官网下载V2.25.92;Godwon’tholdmeresponsibletoreadyourwindyunappreciated...

抖音热门短视频数据分析的工具你知道那些?

1.新榜https://www.newrank.cn广大自媒体从业者最为熟知,也是比较权威的榜单工具,早期是做公众号排名起家,现在逐步加入一些主流自媒体平台,比如头条号、微...

一首英文歌 快手 挺火的,高潮是呐呐呐呐呐,还有older(音译)?

shetoldmeTherewasagirlIknewshewasmorethebeautiful我认识一个女孩不止美丽Shehadamindofherown...

 何学葵  戴尔1330 
王经理: 180-0000-0000(微信同号)
10086@qq.com
北京海淀区西三旗街道国际大厦08A座
©2025  上海羊羽卓进出口贸易有限公司  版权所有.All Rights Reserved.  |  程序由Z-BlogPHP强力驱动
网站首页
电话咨询
微信号

QQ

在线咨询真诚为您提供专业解答服务

热线

188-0000-0000
专属服务热线

微信

二维码扫一扫微信交流
顶部