1.2万人涌入的AI顶会,华人主导的最佳论文,和彻底被“Sora”改造的CV
口述、资料:硅星人 CVPR 参会代表、西雅图工程师、投资人等
整理:Jessica
编辑:王兆洋
6 月 17 号,美国西雅图会议中心,全球计算机视觉届三大顶会之一的 CVPR 2024 来了。
大会持续一周,目前参加下来最直观的感受就是热,太热:巨大而火热的信息量,处处爆满的参会人群。可以说从走进主会场那一刻起," 人山人海 " 这个词就被具象化了。
而 CVPR 官方也兴奋的宣布:今年的大会破了参会记录,有超过 1.2 万人从全世界涌来,人挤人的来参加一个过往只是 " 冷门领域 " 的 AI 学术会议。
图: Junwei Zhang
经过前两天密集而硬核的 workshop 和 tutorial,今早 8 点半,最受关注的开幕颁奖环节终于在 Summit Flex Hall 揭晓。
最佳论文开奖,全与生成式 AI 有关
今年 CVPR 论文提交数量来到破纪录的 11532 篇,被接收的 2719 篇中有 324 篇被选为 highlights,90 篇较优秀的论文进入 oral,oral 里再选出 24 篇顶尖玩家杀进决赛圈终极对决。单看大屏幕的数据,现场悬念氛围就已经拉满,所有人都按捺不住紧张和兴奋。
图:CVPR
最终,大会宣布本次总共十篇论文胜出。包括2 篇最佳论文奖(Best Paper)和2 篇最佳学生论文奖(Best Student Paper),以及代表亚军级别的2 篇最佳论文次优奖(Best Paper Runner Ups)和4 篇最佳学生论文次优奖(Best Student Paper Runner Ups)。
"Generative",这是今年全球最大计算机视觉会议发布最佳论文时,屏幕上出现的第一个单词。
毫不意外。
两篇最佳论文分别花落谷歌研究院的「Generative Image Dynamics」和加州大学圣迭戈分校的「Rich Human Feedback for Text-to-Image Generation」。两篇都与图像生成和模型有关,不得不说现在 AIGC 领域真得太火。
图:CVPR
谷歌这篇是通过从自然运动(比如花朵在风中摇晃)的真实视频里学习运动规律,开发出一个能基于任何静止图像预测并合成逼真运动效果的 AI 模型,简言之就是让照片 " 动 " 起来。
UCSD 的论文从数据入手,先对人工标注的反馈数据进行细致收集,再由此训练一个 AI 模型来评估和改进图像质量,令生成的图像更贴合文字描述——后来得知,这是该作者团队的第一篇 CVPR 论文,而且主要成员都是华人。初次闯关就拔得头筹,确实让人刮目相看。
两篇最佳学生论文奖则被德国图宾根大学的「Mip-Splatting: Alias-free 3D Gaussian Splatting 」和俄亥俄州立大学的「BioCLIP: A Vision Foundation Model for the Tree of Life」团队捧走。前者提出了一种新的 3D 建模和滤波方法,能解决不同缩放下生成 3D 图像可能存在的瑕疵和失真问题。后者整理出目前规模最大、生物多样性最丰富的机器学习图像数据集,基于此开发的 BioCLIP 模型专门从图像识别中提取生物学知识。
此前麻省理工学院呼声很高的论文「pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction」拿到了最佳论文次优奖,也算没空手而归。
另一家 Best Paper Runner Ups 得主是来自国内的北京大学团队。他们在「EventPS: Real-Time Photometric Stereo Using an Event Camera」论文中提出一种事件相机只需要在光线变化时捕捉信息,就能快速精确估计出物体表面朝向,而无需拍摄多张照片的新方法,非常适合需要快速响应的实时应用场景。当北大的名字出现在舞台大屏幕上时,现场好多华人观众们都禁不住振奋鼓掌,自己人拿奖,内心还是很激动的。
图:X.com | @RainbowYuhui
最后,四篇最佳学生论文 Runner Ups 也相继出炉。北京大学与华为诺亚方舟实验室合著的「Image Processing GNN: Breaking Rigidity in Super-Resolution」再次榜上有名。另外三家是俄勒冈州立大学、波恩大学、卡内基梅隆大学。研究方向涵盖了 Transformer 和卷积神经网络、3D 形状匹配、随机几何建模以及图神经网络。
图:CVPR 逛 Poster Session 如赶集,作者 " 连讲 4 小时没顾上喝水 "
今天起,包括这些获奖论文在内的 90 篇 oral 都被安排进各分会场开启口头报告。除了 Oral Session 这种 PPT 展示的传统演讲形式外,还有 2305 篇论文被分配到了 Poster Session,即海报展示环节。
在硅谷大厂发布会中不常见的 Poster Session,实则是国际大型学术会议的重要组成部分。
研究人员们把自己的论文制作成图文并茂的学术海报,张贴在固定区域展示研究成果。好处是不受时间限制,可以全天候驻场,跟参会者们面对面讨论。尤其适合新入学术圈的研究生和年轻学者增加曝光机会,也是结识同行、交流经验的重要 social 场合。
就像你参加过的任何一场贸易交流销售大会一样,这里的人们也在寻找 " 推销 " 自己和自己的研究的机会,无论是为自己寻找好的工作机会还是吸引来趣味相投的潜在合作者,Poster 环节都热闹而生机勃勃。
Poster Session 的热闹程度不亚于 Oral 房间,逛下来也是摩肩接踵的人挤人。大会休息间隙几乎整个区域每张海报前都围了人问问题。
有位作者就笑称,给论文海报站台比做演讲累多了," 因为 oral 再重要也是只讲一遍,可 poster 来人就要重新讲一遍,问题也可能回答好几轮。"
海报区犹如美院毕设,Highlight 论文前人群已挤爆。图:X.com | @eshedob
当然大家都乐在其中。几位国内来的年轻学者们特别提到,虽然今天中美之间在 AI、计算机等领域并不完全透明,但在 CVPR 现场遇到的每个人、不论国籍都十分乐于交流,拥抱学术开源。
在这样的背景下,语言也不再是壁垒," 开始还有点不自信,但真聊起来发现,依靠自己平时专业积累完全可以输出想法,交换观点 "," 本来以为说一会儿就完事,结果连讲 4 个小时没顾上喝水。" 如果说产业界还有些浮躁、焦虑或芥蒂,学术界则更偏向于敞开心胸,共享知识进步。
不过有意思的是,也有些业界大哥略显内敛。比如特斯拉、Waymo、Zoox 这次提交的论文都很少,不知是自动驾驶行业今年挑战巨大成果难出,还是竞争激烈有意藏一手。毕竟这条赛道的商业化之路不容易,维护技术护城河也是情理之中。
变化中的 CVPR,AI 风暴眼中 FOMO 的人们
想来从上周末开始,就陆续听闻同行旧友们从世界各地飞抵西雅图塔科马机场。会程中,市中心酒店、餐厅、街边聚集每天都有自带学术气息的人群聚集,其中很多朝气蓬勃的华人面孔,成了这座尚未完全解锁夏天的城市一道热闹的风景线。生成式 AI 全面嵌入生产生活,也让更多人记住了 CVPR 这个历史悠久、硬核而神秘的学术顶会名字。
偌大几层楼的会场里,前两天已跑断腿:100 多场密集排满的工作坊和教程,主题横跨生成模型、人类理解、医疗视觉、3D/4D 建模,神经渲染、多模态、开放世界学习、通用 AI 代理… .
好多场次是从早上 8 点一直进行到下午 6 点。但即便你一早到场,也未必能挤得进去:几乎所有 workshop 的房间都很快满员。特别是那些 AI 相关的火热领域,或是 Meta、OpenAI、LumaAI 这些明星公司,瞬间就被围得水泄不通。人群中、空气里,弥漫的都是求知欲、交流欲和强烈的 FOMO 情绪。
主办方为了人均有座位控制人数,满员就不再放人。想听只得在门口等,出一进一。于是许多门前都排起了望眼欲穿、等待补位的长队。
图:小红书分享
勉强挤进「AI for Content Creation」房间。内容生成本就堪称最热门主题之一,这场又集合了 OpenAI Sora 团队研究主管 Tim Brooks, 南洋理工教授 Ziwei Liu 等业界大牛。
作为破了记录第一次有 1.2 万人涌入的学术大会,CVPR 的主办方显然一开始也有点招架不住。起初他们拒绝让更多人进入没有座位的 worksho 讲厅,后来随着社交媒体上的抱怨声多了,也做了调整。
主办方终于多放了些观众进来,席地而坐或站在过道听。
图:Junwei Zhang
午餐时间来到干饭现场,不小心再次接受了洗礼:一屋子肤色各异的研究员们,愣是吃出了气势磅礴的军训的气势。嗯,学术顶会是这样的 ~
图:小红书分享
记得今天开幕环节,主办方介绍这届 CVPR 大会的注册观众有来自 76 个国家和地区的 12000 人。来自美国的数目最多有 5074 人,紧随其后的就是来自中国的 1511 人。
而各种业界大神和隐藏大神也参与其中,于是好多小伙伴技术追星成功。
总体来说,不论是现场参会,还是看这届所有获奖和接受论文,明显感觉到生成式 AI 的爆火,特别是今年 Sora 打头阵的视频生成模型们,真正把「计算机视觉」推上了前所未有的热度高峰。
而 CV 也在被 Sora 们彻底 " 改造 " 着,这也让 CV 界有不少的争论。有人认为随便一个论文带上生成式的概念就能在今年爆火,而一些真正在 CV 领域长期耕耘的学者和他们略显 " 过时 " 的研究就被冷落了。
CV 领域的大神何恺明就缺席了本次 CVPR,他是 ResNet 这个计算机视觉领域的流行架构的提出者,相关论文的引用数量突破 20 万次,曾经多次获得 CVPR 最佳论文奖。而今年是 2009 年以来,第一次没有何恺明参与的论文入选的一次 CVPR。与此同时的另一个数据是,今年结合语言和视觉的论文增加了两倍,扩散模型和生成模型论文增加了三倍。那些有 OpenAI Sora 作者参加的 workshop,排队排出了明星见面会的效果,很多人抱怨还不如花这个时间去西雅图 citywalk 一下。
大模型时代也让产业界与学术界的发力方向高度集中。图像和视频等内容生成成为最热门研究领域,三维视觉和人体行为识别、语言与语言推理不遑多让,多模态信息融合和高层次语义理解受到空前关注。
但生成式带来的冲击也彻底让 CV 走上了巅峰。而每一个参会的人都处在某种 FOMO(害怕错过)的情绪里,他们知道属于自己的机会来了,又害怕研究方向或者工作方向跟不上技术的变化,一切过往的积累可能顷刻失去价值,一切过去的落后又可能瞬间被抹平。
另外,虽然这次中国团队没有续写去年上海人工智能实验室和商汤等团队合作拿下最佳论文的佳绩。但细看四篇最佳,谷歌论文一作是 DeepMind 研究员 Zhengqi Li,UCSD 论文前四位作者都是华人,包括 Runner Ups 得主中的两篇北大出品,核心作者里华人名字其实比比皆是。
而上海人工智能实验室教授 Yu Qiao、腾讯杰出科学家 Ying Shan、南阳理工大学大牛教授 Ziwei Liu 位列最多接受论文作者榜前三名。清华、浙大、北大则在接受论文单位中领先群雄。可见不论 AI 大潮怎么风起云涌,在计算机视觉这类硬核领域的科研前线,华人学者及中国研究团队仍是带来最大贡献的那股力量。而对于无论来自哪里的学者和研究者,CVPR 这样的密切交流是所有人都需要的。