在刚刚结束的第32届夏季奥林匹克比赛(东京奥运2020)中,有富士通选手参赛的日本女蓝进入决赛,拿下了银牌。
不为公众所注意的是,富士通的研究团队在国际人工智能视频识别大赛中也拿到了银牌。
富士通拿到银牌的这个竞赛叫“2021年AVA挑战赛”,也即“国际大规模动作识别竞赛“。英文缩写为Activity Net Challenge,是视频动作识别领域的重要竞赛。自 2016 至今,该赛事历年由谷歌(Google)、脸书(Facebook)、UC 伯克利大学等顶尖院校与研究机构主办,相关技术在视频分析、活体检测等多项实际应用中具有重要价值。因此,也有”AI奥林匹克比赛“之称。
该挑战赛,聚焦于识别互联网视频门户网站之中的日常及目标导向的高级行为,旨在进一步拓展视频语义理解的边界。挑战赛的比赛结果已在国际计算机视觉和模式识别大会(CVPR) 上公布,并以 Workshop 的形式展示。
国际计算机视觉和模式识别大会(CVPR)是每年在美国举行的全球计算机视觉相关的世界顶级学会。近几年论文录取率仅在25%左右,录用标准十分严格。由于新冠病毒肆虐,2020-2021年的CVPR均在网上举行。
AVA挑战赛比赛的是对视频行为的理解。参赛团队的算法需要基于一段视频生成前后连贯的句子,描述其中物体的动作。需要解决视频背景复杂、视频人物相互遮挡及视频分辨率不足等干扰问题。还要解决事件序列描述的问题。通过提高AI理解视频内容的效率,将视频转换成文字和语音。譬如,下图左为对前排人物的动作进行描述(抓物体、屈膝、蹲),对后排被部分遮挡的人的动作进行描述;下图右为对一段视频的复数人物的动作进行追踪描述。
2021年AVA挑战赛有两个独立的任务:AVA-Kinetics用于原子动作检测;Active Speaker用于说话人检测。
富士通参赛的是AVA-Kinetics(原子动作检测)的项目。如上图所示,上图左为对原子动作贴标签,上图右为对动态场景的捕捉。在参赛的11个团队提交的33份研究成果里,富士通拿到了银牌。而金牌与铜牌分别是中国的阿里巴巴与清华大学联合团队和OPPO研究院(见下表)。
(AVA-Kinetics Challenge Results)
AVA挑战赛的另一个项目Active Speaker(说话人检测)的获奖者分别是中科院、慕尼黑技术大学、新加坡国立大学(见下表)。
(AVA-Active Speaker Challenge Results)
从这个AVA挑战赛也可以看出,中国的人工智能确实实力不菲。百度在AVA挑战赛别的任务组里甚至连获10个挑战赛冠军。入选的22篇优质论文,涵盖了图像语义分割、文本视频检索、3D 目标检测、风格迁移、视频理解、迁移学习等多个研究方向。中国的旷视、商汤等都有许多研究论文入选。
日本企业团队在AVA挑战赛上获得银牌似乎尚属首次。
在刚刚结束的东京奥运2020上,日本乒乓球混双战胜中国队获得金牌,日本媒体竞相庆贺终于攻下了中国堡垒的一角。在人工智能(AI)领域,中国领先世界,颇有乒乓球队的气势。富士通与日本企业的参赛,是否会改变这个局面呢?
供稿 / 戴维 (图表均取自CVPR与AVA Challenge相关网页)