5月7日,在国际权威的多目标追踪挑战(Multiple Object Tracking Challenge,MOT)的MOT16榜单上,百度视觉技术团队超越平安科技、商汤科技、上海交大等众多实力强劲团队,获得榜单世界第一的好成绩。MOTA指标显著提升,超越第二名1.8个点;其中MOTA为误检、漏检、ID交换三个指标综合平均值。
2019年上半年,百度视觉技术团队已分别在CVPR 2019活体、ICME2019人脸Keypoint、Widerface等赛事获得第一。此次MOT比赛是百度视觉技术团队又一次夺冠,是在实践“领先且实用的AI视觉技术”,同时是视频新领域的又一次突破。
(MOT16评测集排名,百度位居榜首)
Multiple Object Tracking Challenge是国际多目标跟踪领域最权威的测评平台,由阿德莱德大学、苏黎世联邦理工学院以及达姆施塔特工业大学联合创办,是世界各大AI研究机构必争之地。
该平台针对多行人对象在复杂场景下的运动轨迹,来评测算法同时进行检测及追踪的性能,目前主要包含MOT15、MOT16、MOT17三个评测集,其中MOT16允许参赛队自定义检测器,并对目标检测、特征提取及追踪等多模块的综合效果进行测评,因此更具有挑战性和实用性。
此次,百度视觉技术团队正是在MOT16评测集中勇夺桂冠,超越来自平安科技、商汤科技、海康威视、腾讯优图、NEC北美研究院、上海交大、斯坦福大学等多支实力强劲的世界知名高校和公司团队,技术实力不容小觑。
在检测、重识别、多目标追踪等相关算法上,百度视觉技术团队做了诸多创新和改进。检测部分,基于百度自主开发的PaddlePaddle深度学习平台,选择更强大的分类底座网络并使用多尺度特征提取、改善物体模板以提升对微小目标的召回能力、并利用级联网络结构对目标框进行更精细的回归;行人重识别部分,采用自研的基于多样例注意力方法,能够进一步挖掘样本在“困难区域”的细粒度特征,从而提高相似样本在特征空间的可区分性;追踪部分,采用基于行人重识别的序列特征相似度模型进行目标轨迹匹配、并利用时空特征来降低密集多目标跟踪的轨迹交换问题。
从实际应用角度,多目标追踪是视频理解和分析领域的核心技术之一。近年来,随着人工智能技术的不断落地,多目标追踪在城市安防、客流分析、智慧零售、文体直播等多项重要应用场景(尤其是AI to B场景)发挥出日益重要的作用。
基于对多目标追踪技术的重视,百度视觉技术团队已在此方向积累百万量级的检测、重识别、追踪训练数据;多项相关开放服务,如人体检测、人体追踪、人体属性识别、静态/动态人流统计等,已构成完整的B端人体分析服务矩阵。对内支持百度智能云、自动驾驶等业务;并通过百度大脑AI开放平台对外开放,服务各行各业。未来,百度视觉技术团队会继续推进多目标追踪领域的创新性工作,并争取在更多实际应用场景实现落地。
视觉技术是百度大脑核心技术能力之一,其领先国际的技术优势为开发者带来了更多创新的机会。此次在MOT测评中的夺冠,是百度大脑技术实力的有力证明,也为百度人工智能“巨树”再添硕果。据了解,百度视觉技术团队不仅获得多项国际赛事的第一名,还在CVPR、ICCV、ECCV、AAAI等多项计算机视觉顶会上发表文章。
百度大脑是百度AI技术多年积累和业务实践的集大成,除了视觉技术领跑国际,在深度学习领域也频频发力。前不久,百度深度学习平台PaddlePaddle首次公布全景图,面向行业展示了集深度学习核心框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台。大数据、大模型、大算力是深度学习发展的必备因素,算力的重要性也不言而喻。基于此,PaddlePaddle的一站式深度学习开发平台AI Studio更送出1亿元免费算力,为普通开发者破除算力桎梏。
未来,百度大脑将持续秉持AI普惠的价值理念,一面在产业实践中不断打磨,超越自我勇攀高峰,一面高瞻远瞩、开山辟路,为开发者建立完善的AI生态环境,以技术改变生活、服务社会,为推动人类的文明与发展贡献自己的AI之力。