(原标题:3项质感高清技术冠军!百度AI再次在国际舞台上“傲视群雄”)
继百度在CVPR 2019、CVPR 2020拿下三个图像视频领域竞赛冠军后,百度自研的“图像超分辨技术”又一次在世界舞台上“傲视群雄”。
近日,百度在国际视觉领域顶会ECCV 2020上展现了全球领先的AI技术实力,以自研的创新技术,百度包揽了AIM 2020 Real Image Super-Resolution Challenge全部3项冠军。截至目前,百度自研的SA-NAS和GP-NAS等自动化深度学习技术已在CVPR2019,CVPR2020,ECCV2020等多个顶会workshop上,累计夺得6项世界第一,提交专利申请超过200余项,并已开始应用于不同领域,展示了百度在AI图像处理领域进军的最新成果。
其中,SA-NAS搜索方法是百度首次把NAS技术应用于图像降噪领域;GP-NAS搜索方法是百度首次把NAS技术应用于图像超分领域。首次尝试创新技术斩获国际顶级大赛冠军,这也是百度视觉AI技术实力经得起验证、领先全球的最好证明。
百度视觉AI处理技术持续领先全球
此次百度包揽AIM 2020 Real Image Super-Resolution Challenge的3项冠军,含金量如何?
从会议规格来看,ECCV是世界计算机视觉顶级会议之一,每两年举办一场,与CVPR和ICCV并称计算机视觉领域三大会议,由此可以看出本次ECCV大会中AIM 2020 workshop上举办的 Real Image Super-Resolution Challenge是国际顶级赛事,含金量极高。值得一提的是,此次竞赛主要聚焦图片和视频处理技术,参赛者也在不断挖掘相关领域的新趋势和进展,在学术界和工业界都有非常大的影响力。
从技术要求来看,所谓的图像超分辨技术指的是通过低分辨率图像还原出高分辨率图像,尽管很多模型在模拟数据集上会取得比较不错的效果,但真实图像的超分辨技术比模拟数据更具有挑战性。所以此项赛事对于参赛者的技术能力要求极高。
近年来,随着神经网络架构搜索(NAS,Neural Architecture Search)技术发展,有学者将NAS应用到图像超分领域,虽然在每秒浮点运算次数(Flops)和延时约束下,NAS模型取得了非常不错的结果,但这些模型相比人工设计的不受Flops约束的当前最佳模型,仍存在一定的性能差距。
此次AIM 2020 Real Image Super-Resolution Challenge更侧重于考核参赛者的当前最佳结果,百度自研的GP-NAS AutoDL技术,充分挖掘基于自研的多重残差网络在图像超分的应用潜力,在真实图像超分任务上取得当前最佳结果。
GP-NAS是百度自研的AutoDL算法,从贝叶斯角度来建模NAS,并为不同的搜索空间设计了定制化的高斯过程均值函数和核函数。基于GP-NAS的超参数,可高效率预测搜索空间中任意模型结构的性能,从而模型结构自动搜索问题被转换为GP-NAS高斯过程的超参数估计问题。接下来,通过互信息最大化采样算法,可有效采样模型结构。根据采样网络的性能,有效地逐步更新GP-NAS超参数的后验分布。基于估计出的GP-NAS超参数,最终可以预测出满足特定延时约束的最优的模型结构。
(基于高斯过程的模型结构自动搜索GP-NAS的架构图)
基于GP-NAS,百度自研了用于图像恢复与增强的多重残差网络DRN。针对真实图像超分的应用场景,该网络利用残差模块内和模块间的多重链接学习不同维度的特征,并设计了基于特征通道、残差模块数和模块内卷积层数等超参的搜索空间。基于GP-NAS技术原理,可以预测搜索空间中任意模型结构的性能,并快速筛选多个模型结构差异化的多重残差模型用于模型融合来达到最佳的图像超分效果。
(百度自研的用于图像恢复与增强的多重残差网络DRN的基本结构)
该模型在ECCV 2020 Real Image Super-Resolution Challenge的比赛结果,全部3项的PSNR和SSIM指标都排在第一位。
如此先进的视觉技术在生活中的应用效果如何?下图为基于GP-NAS的多重残差图像超分模型与双三次插值的效果对比图,可以看到,百度自研的GP-NAS技术让这个世界的美好更加清晰可见。
(GP-NAS图像超分模型效果对比图)
上述技术已经在实际场景中使用,智感超清等相关产品搭载该项技术,可对视频场景级别的画面复杂度进行智能分析,在视频转码中涉及的超分辨重建,画质增强等关键技术上发挥重要作用。 配合百度研发的AI驱动内容自适应转码技术, 动态分配最优编码参数,在同等画质下,码率更低,智感超清技术节省带宽成本和存储成本30%+。目前,智感超清在好看视频、全民小视频、百度贴吧等已全量上线,每日进行上千万转码任务,保证画面质量的同时,大大降低平台的带宽成本。
百度AI图像处理技术早已被世界认可
实际上,百度领先的视觉AI技术早已获得世界认可。今年6月,在全球计算机视觉顶会CVPR 2020上,百度斩获NTIRE(New Trends in Image Restoration and Enhancement)挑战赛的真实图像降噪赛道和视频质量映射赛道的两项冠军。
真实图像降噪赛道
图像降噪作为计算机视觉热门领域,在视频监控、无人驾驶、移动可穿戴设备、遥感及医学图像分析等领域应用广泛。对于NTIRE2020挑战赛的真实图像降噪赛道(Real Image Denoising rawRGB Track),其首要目标是去除或纠正图像上的噪声信息,百度最终以第一的成绩达成目标,夺得冠军。
(百度拿下NTIRE2020挑战赛真实图像降噪赛道冠军)
针对该项竞赛,百度设计了多跳跃连接的密集残差模块学习不同分辨率下的特征表达,并通过创新性mosaic-stride模块提升rawRGB的降噪能力,同时使用分布式SA-NAS搜索最优的模型结构;其中,SA-NAS搜索方法是百度首次把NAS技术应用于图像降噪领域。
视频质量映射赛道
视频质量映射赛道(Video Quality Mapping—Track1: Supervised)关注图片视频底层视觉技术的关键问题。这一技术可有效提高视频质量,提升用户观看体验。百度凭借过硬的视觉技术和经验积累,取得了该赛道的冠军成绩。
(百度拿下NTIRE2020挑战赛视频质量映射赛道冠军)
针对该赛道的问题,百度通过把现有EDVR模型思路与CNN网络结构DenseNet相结合,利用DenseNet提取视频的图片特征,融合CNN浅层与深层特征,从而实现更强的表达能力;EDVR模型则完成了视频帧之间信息交换,对齐帧间信息,实现信息共享与互补。
而更早前的2019年,百度也曾在 NTIRE 竞赛中的图像超分辨项目中强势夺冠。该比赛采用了全新拍摄的真实数据集(RealSR),百度视觉团队在 PSNR 和 SSIM 两项指标上均名列第一,同时提出极具创新性的 CDSR 超分模型,通过级联的方法逐步将图像从模糊变清晰。
据介绍,NTIRE(New Trends in Image Restoration and Enhancement)和AIM (Advances in Image Manipulation)是近年来计算机图像修复领域最具影响力的赛事,每年都会吸引大量的关注者和参赛者。而百度在这样极具影响力的大赛中屡屡夺冠,显示出百度大脑在视觉领域各个方向的长期积累、全面发力,更是百度大脑技术实力全球领先的强大佐证。此外,这些技术也已经应用于不同领域,帮助有智感超清需求的产品升级,为企业降本增效的同时,也能让人们感受到人工智能技术带来的红利,体验美好的人工智能时代。