首页 > IT资讯 > 正文

百度视觉团队获世界最大规模目标检测竞赛冠军

眼睛是人类接触外部世界的第一感官,对于机器而言,计算机视觉技术就是它们的“眼睛”。近日,百度视觉团队在最大规模目标检测竞赛Google AI Open Images-Object Detection Track中再获佳绩,击败了全球450多支参赛队伍,脱颖而出获得世界第一,并受邀在顶级视觉学术会议ECCV2018上做分享。

百度AI可以说是国际赛事上的“常胜军”。2018年,百度视觉团队先后获得了人脸WilderFace权威数据集世界第一、OCR ICDAR权威数据集世界第一、视频理解权威竞赛ActivityNet两项世界第一、图像识别权威竞赛WebVision世界第一,如今再次获奖,又一次展示了百度视觉团队国际领先的平台和技术优势。 

Google AI Open Images-Object Detection Track是大规模图像检测任务的权威挑战赛事,由Google AI Research举办,赛事遵循 PASCAL VOC、ImageNet和COCO等赛事传统,但数据规模远大于这些赛事。

大赛采用Google今年5月份发布的Open Images V4数据集作为训练数据集,其中包含超过170万的图片数据,500个类别以及超过1200万物体框。据了解,Open Images V4数据集的类别分布广泛且不均匀,这意味着参加竞赛的团队不能统一对所有类别做处理,而是需要考虑到类别分布的实际情况,这一点也更加贴近现实世界中的场景。

与传统的检测数据集合相比,该赛事除了数据规模大、更真实之外,还存在一系列的挑战。具体来说,主要集中在数据分布不均衡、漏标框和尺度变化大三个方面。在比赛过程中,百度视觉团队采用了不同复杂度、不同骨架网络进行模型的训练,并对这些模型进行融合。

由于Open Images V4数据集的规模相当庞大,百度视觉团队在训练过程中分别进行了全集数据训练、固定框选子集训练、动态采样模型训练三种策略进行。其中,动态采样通过样本数量的变化增减采样的概率,从而有效缩短模型训练时间。此外,为了更好地实现图像检测效果,百度视觉团队在训练过程中还通过动态采样、FPN、模型融合等不同策略有效解决了各种技术问题。

在实际应用中,不论是在学术圈还是工业界,大规模目标检测都是计算机视觉极为重要的基础技术。通过这一技术,软硬件应用产品可以深度定位图片中的物体位置以及类别,并用于新零售、通用多物品识别等场景。从2013年起,百度视觉团队开始构建超大规模的图像分类系统,其中大部分训练数据均通过互联网搜索引擎获取,目前已构建起包含10万类Tag(标签)、近亿图片的训练系统。相关技术研发成果也成功应用于百度拍照搜索、Feed流、智能相册、百度AR等多项核心产品中,并通过智能云开放广泛应用于零售、视频媒体、金融、医疗、交通运输和营销等众多领域。

视觉是百度大脑的核心能力之一。百度视觉团队在计算机视觉领域曾首创了Pyramidbox、Ubiquitous Reweighting Network、Action Proposal Network、StNet和 Attention Clusters等算法,在识别人、识别物、捕捉关系三个技术领域均具备了业界最领先的技术积累。此外,百度还自主研发了两款智能视觉AI硬件底层模组,包括红外3D结构光模组BoteyeR及视觉智能AI相机模组Xeye,集成了包括人脸识别、物体识别、手势识别等在内的百度视觉技术,可用于新零售、安防、智能家居等场景。

百度视觉团队的技术不仅用于内部产品,也通过百度AI开放平台持续对外输出,目前已对外开放了包括人脸识别、文字识别(OCR)、图像审核、图像识别、图像搜索等在内的5大类别58项基础能力,为开发者和合作伙伴提供全栈式计算机视觉能力,让他们将领先的AI能力转换成让复杂的世界更简单的神奇力量,进而推动全行业、全社会的智能化变革。


PythonTab微信公众号:

Python技术交流互助群 ( 请勿加多个群 ):

群1: 87464755

群2: 333646237

群3: 318130924

群4: 385100854

上一篇:TIOBE 9 月排行榜:C++ 式微,第 3 名被 Python 拿下
下一篇:百度EasyDL出海告捷 外媒称其“潜力无限”