​1.2万人涌入的AI顶会,华人主导的最佳论文,和彻底被“Sora”改造的CV

1.2万人涌入的AI顶会,华人主导的最佳论文,和彻底被“Sora”改造的CV

口述、资料:硅星人 CVPR 参会代表、西雅图工程师、投资人等

整理:Jessica

编辑:王兆洋

6 月 17 号,美国西雅图会议中心,全球计算机视觉届三大顶会之一的 CVPR 2024 来了。

大会持续一周,目前参加下来最直观的感受就是热,太热:巨大而火热的信息量,处处爆满的参会人群。可以说从走进主会场那一刻起," 人山人海 " 这个词就被具象化了。

而 CVPR 官方也兴奋的宣布:今年的大会破了参会记录,有超过 1.2 万人从全世界涌来,人挤人的来参加一个过往只是 " 冷门领域 " 的 AI 学术会议。

图: Junwei Zhang

经过前两天密集而硬核的 workshop 和 tutorial,今早 8 点半,最受关注的开幕颁奖环节终于在 Summit Flex Hall 揭晓。

最佳论文开奖,全与生成式 AI 有关

今年 CVPR 论文提交数量来到破纪录的 11532 篇,被接收的 2719 篇中有 324 篇被选为 highlights,90 篇较优秀的论文进入 oral,oral 里再选出 24 篇顶尖玩家杀进决赛圈终极对决。单看大屏幕的数据,现场悬念氛围就已经拉满,所有人都按捺不住紧张和兴奋。

图:CVPR

最终,大会宣布本次总共十篇论文胜出。包括2 篇最佳论文奖(Best Paper)和2 篇最佳学生论文奖(Best Student Paper),以及代表亚军级别的2 篇最佳论文次优奖(Best Paper Runner Ups)和4 篇最佳学生论文次优奖(Best Student Paper Runner Ups)。

"Generative",这是今年全球最大计算机视觉会议发布最佳论文时,屏幕上出现的第一个单词。

毫不意外。

两篇最佳论文分别花落谷歌研究院的「Generative Image Dynamics」加州大学圣迭戈分校的「Rich Human Feedback for Text-to-Image Generation」。两篇都与图像生成和模型有关,不得不说现在 AIGC 领域真得太火。

图:CVPR

谷歌这篇是通过从自然运动(比如花朵在风中摇晃)的真实视频里学习运动规律,开发出一个能基于任何静止图像预测并合成逼真运动效果的 AI 模型,简言之就是让照片 " 动 " 起来。

UCSD 的论文从数据入手,先对人工标注的反馈数据进行细致收集,再由此训练一个 AI 模型来评估和改进图像质量,令生成的图像更贴合文字描述——后来得知,这是该作者团队的第一篇 CVPR 论文,而且主要成员都是华人。初次闯关就拔得头筹,确实让人刮目相看。

两篇最佳学生论文奖则被德国图宾根大学的「Mip-Splatting: Alias-free 3D Gaussian Splatting 」俄亥俄州立大学的「BioCLIP: A Vision Foundation Model for the Tree of Life」团队捧走。前者提出了一种新的 3D 建模和滤波方法,能解决不同缩放下生成 3D 图像可能存在的瑕疵和失真问题。后者整理出目前规模最大、生物多样性最丰富的机器学习图像数据集,基于此开发的 BioCLIP 模型专门从图像识别中提取生物学知识。

此前麻省理工学院呼声很高的论文「pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction」拿到了最佳论文次优奖,也算没空手而归。

另一家 Best Paper Runner Ups 得主是来自国内的北京大学团队。他们在「EventPS: Real-Time Photometric Stereo Using an Event Camera」论文中提出一种事件相机只需要在光线变化时捕捉信息,就能快速精确估计出物体表面朝向,而无需拍摄多张照片的新方法,非常适合需要快速响应的实时应用场景。当北大的名字出现在舞台大屏幕上时,现场好多华人观众们都禁不住振奋鼓掌,自己人拿奖,内心还是很激动的。

图:X.com | @RainbowYuhui

最后,四篇最佳学生论文 Runner Ups 也相继出炉。北京大学与华为诺亚方舟实验室合著的「Image Processing GNN: Breaking Rigidity in Super-Resolution」再次榜上有名。另外三家是俄勒冈州立大学、波恩大学、卡内基梅隆大学。研究方向涵盖了 Transformer 和卷积神经网络、3D 形状匹配、随机几何建模以及图神经网络。

图:CVPR 逛 Poster Session 如赶集,作者 " 连讲 4 小时没顾上喝水 "

今天起,包括这些获奖论文在内的 90 篇 oral 都被安排进各分会场开启口头报告。除了 Oral Session 这种 PPT 展示的传统演讲形式外,还有 2305 篇论文被分配到了 Poster Session,即海报展示环节

在硅谷大厂发布会中不常见的 Poster Session,实则是国际大型学术会议的重要组成部分。

研究人员们把自己的论文制作成图文并茂的学术海报,张贴在固定区域展示研究成果。好处是不受时间限制,可以全天候驻场,跟参会者们面对面讨论。尤其适合新入学术圈的研究生和年轻学者增加曝光机会,也是结识同行、交流经验的重要 social 场合。

就像你参加过的任何一场贸易交流销售大会一样,这里的人们也在寻找 " 推销 " 自己和自己的研究的机会,无论是为自己寻找好的工作机会还是吸引来趣味相投的潜在合作者,Poster 环节都热闹而生机勃勃。

Poster Session 的热闹程度不亚于 Oral 房间,逛下来也是摩肩接踵的人挤人。大会休息间隙几乎整个区域每张海报前都围了人问问题。

有位作者就笑称,给论文海报站台比做演讲累多了," 因为 oral 再重要也是只讲一遍,可 poster 来人就要重新讲一遍,问题也可能回答好几轮。"

海报区犹如美院毕设,Highlight 论文前人群已挤爆。图:X.com | @eshedob

当然大家都乐在其中。几位国内来的年轻学者们特别提到,虽然今天中美之间在 AI、计算机等领域并不完全透明,但在 CVPR 现场遇到的每个人、不论国籍都十分乐于交流,拥抱学术开源。

在这样的背景下,语言也不再是壁垒," 开始还有点不自信,但真聊起来发现,依靠自己平时专业积累完全可以输出想法,交换观点 "," 本来以为说一会儿就完事,结果连讲 4 个小时没顾上喝水。" 如果说产业界还有些浮躁、焦虑或芥蒂,学术界则更偏向于敞开心胸,共享知识进步。

不过有意思的是,也有些业界大哥略显内敛。比如特斯拉、Waymo、Zoox 这次提交的论文都很少,不知是自动驾驶行业今年挑战巨大成果难出,还是竞争激烈有意藏一手。毕竟这条赛道的商业化之路不容易,维护技术护城河也是情理之中。

变化中的 CVPR,AI 风暴眼中 FOMO 的人们

想来从上周末开始,就陆续听闻同行旧友们从世界各地飞抵西雅图塔科马机场。会程中,市中心酒店、餐厅、街边聚集每天都有自带学术气息的人群聚集,其中很多朝气蓬勃的华人面孔,成了这座尚未完全解锁夏天的城市一道热闹的风景线。生成式 AI 全面嵌入生产生活,也让更多人记住了 CVPR 这个历史悠久、硬核而神秘的学术顶会名字。

偌大几层楼的会场里,前两天已跑断腿:100 多场密集排满的工作坊和教程,主题横跨生成模型、人类理解、医疗视觉、3D/4D 建模,神经渲染、多模态、开放世界学习、通用 AI 代理… .

好多场次是从早上 8 点一直进行到下午 6 点。但即便你一早到场,也未必能挤得进去:几乎所有 workshop 的房间都很快满员。特别是那些 AI 相关的火热领域,或是 Meta、OpenAI、LumaAI 这些明星公司,瞬间就被围得水泄不通。人群中、空气里,弥漫的都是求知欲、交流欲和强烈的 FOMO 情绪。

主办方为了人均有座位控制人数,满员就不再放人。想听只得在门口等,出一进一。于是许多门前都排起了望眼欲穿、等待补位的长队。

图:小红书分享

勉强挤进「AI for Content Creation」房间。内容生成本就堪称最热门主题之一,这场又集合了 OpenAI Sora 团队研究主管 Tim Brooks, 南洋理工教授 Ziwei Liu 等业界大牛。

作为破了记录第一次有 1.2 万人涌入的学术大会,CVPR 的主办方显然一开始也有点招架不住。起初他们拒绝让更多人进入没有座位的 worksho 讲厅,后来随着社交媒体上的抱怨声多了,也做了调整。

主办方终于多放了些观众进来,席地而坐或站在过道听。

图:Junwei Zhang

午餐时间来到干饭现场,不小心再次接受了洗礼:一屋子肤色各异的研究员们,愣是吃出了气势磅礴的军训的气势。嗯,学术顶会是这样的 ~

图:小红书分享

记得今天开幕环节,主办方介绍这届 CVPR 大会的注册观众有来自 76 个国家和地区的 12000 人。来自美国的数目最多有 5074 人,紧随其后的就是来自中国的 1511 人。

而各种业界大神和隐藏大神也参与其中,于是好多小伙伴技术追星成功。

总体来说,不论是现场参会,还是看这届所有获奖和接受论文,明显感觉到生成式 AI 的爆火,特别是今年 Sora 打头阵的视频生成模型们,真正把「计算机视觉」推上了前所未有的热度高峰。

而 CV 也在被 Sora 们彻底 " 改造 " 着,这也让 CV 界有不少的争论。有人认为随便一个论文带上生成式的概念就能在今年爆火,而一些真正在 CV 领域长期耕耘的学者和他们略显 " 过时 " 的研究就被冷落了。

CV 领域的大神何恺明就缺席了本次 CVPR,他是 ResNet 这个计算机视觉领域的流行架构的提出者,相关论文的引用数量突破 20 万次,曾经多次获得 CVPR 最佳论文奖。而今年是 2009 年以来,第一次没有何恺明参与的论文入选的一次 CVPR。与此同时的另一个数据是,今年结合语言和视觉的论文增加了两倍,扩散模型和生成模型论文增加了三倍。那些有 OpenAI Sora 作者参加的 workshop,排队排出了明星见面会的效果,很多人抱怨还不如花这个时间去西雅图 citywalk 一下。

大模型时代也让产业界与学术界的发力方向高度集中。图像和视频等内容生成成为最热门研究领域,三维视觉和人体行为识别、语言与语言推理不遑多让,多模态信息融合和高层次语义理解受到空前关注。

但生成式带来的冲击也彻底让 CV 走上了巅峰。而每一个参会的人都处在某种 FOMO(害怕错过)的情绪里,他们知道属于自己的机会来了,又害怕研究方向或者工作方向跟不上技术的变化,一切过往的积累可能顷刻失去价值,一切过去的落后又可能瞬间被抹平。

另外,虽然这次中国团队没有续写去年上海人工智能实验室和商汤等团队合作拿下最佳论文的佳绩。但细看四篇最佳,谷歌论文一作是 DeepMind 研究员 Zhengqi Li,UCSD 论文前四位作者都是华人,包括 Runner Ups 得主中的两篇北大出品,核心作者里华人名字其实比比皆是。

而上海人工智能实验室教授 Yu Qiao、腾讯杰出科学家 Ying Shan、南阳理工大学大牛教授 Ziwei Liu 位列最多接受论文作者榜前三名。清华、浙大、北大则在接受论文单位中领先群雄。可见不论 AI 大潮怎么风起云涌,在计算机视觉这类硬核领域的科研前线,华人学者及中国研究团队仍是带来最大贡献的那股力量。而对于无论来自哪里的学者和研究者,CVPR 这样的密切交流是所有人都需要的。

相关推荐

​夏堇的价值

​夏堇的价值

78

夏堇的价值 夏堇的观赏价值 夏堇开花很美。夏堇的花朵小巧,玲珑可爱,并且花色众多,十分丰富。 夏堇经常被用作公共空间里的花坛美化用花,能够给单调的马路,平淡的绿化带增...

​青葙的养殖方法及注意事项

​青葙的养殖方法及注意事项

133

青葙的养殖方法及注意事项 一、时间的要求 青葙适宜在露地上种植栽培。最好是在温度15℃以上的条件下种植。春季种植生长周期较长,植株比较娇嫩,产量也非常高;夏秋季节种植,...

​葵百合有毒吗

​葵百合有毒吗

68

葵百合有毒吗 1.有没有毒 葵百合是一种人工培育的杂交的百合,植株高度有60到90厘米。地下还有鳞茎,像球的形状或者扁球形的。它开花的时候是非常好看的,紫色花朵非常的大,还...

​夹竹桃可以在室内养吗?

​夹竹桃可以在室内养吗?

149

夹竹桃可以在室内养吗? 生活环境 夹竹桃性喜充足的光照,温暖和湿润的条件。所以如果家里光照不足的话,最好不要养殖夹竹桃。养护时尽量摆在阳台窗台接触到外部环境的地方。...

​蝴蝶之舞的养殖方法和注意事项

148

蝴蝶之舞的养殖方法和注意事项 一、养护方法 1、基质:选择土的要求是肥沃、排水性良好、疏松性良好,这样的土壤更有利于蝴蝶之舞的生长。 2、光照:喜欢充光照足的散光,夏天...

​鹤望兰怎么养

​鹤望兰怎么养

124

鹤望兰怎么养 养殖方法 温度 鹤望兰不耐寒,最适宜的生长温度为15~25℃,而在8℃以下即停止生长。冬季的温度不低于4℃时,可置于背北向南而有光照的地方,适当少浇水,露地越冬...

​多花野牡丹的养殖方法和注意事项

​多花野牡丹的养殖方法和注意事项

137

多花野牡丹的养殖方法和注意事项 多花野牡丹的养殖方法 土壤 养殖多花野牡丹,要求土壤疏松、肥沃,排水性良好,并呈现中性或者微碱性,以沙质土壤或者腐叶土为佳。定植前,需...

​大雪素的价值

​大雪素的价值

135

大雪素的价值 观赏价值 大雪素的观赏价值极高。 兰花作为家庭常见花卉,种植范围广,养殖简单,是一种常见的观赏花卉。大雪素就是其中非常著名的一种。 大雪素花瓣全素,舌心有...

​茶花的繁殖方法

​茶花的繁殖方法

154

茶花的繁殖方法 1.播种繁殖 秋天果实开口的时候收集种子,放在屋里通风的地方晾干,等到果实自己裂开后就可以拿出种子了。它的种子皮很硬,经过处理的种子才能更快萌发,可以用...

​女生送糖给男生的寓意,难道她是在对我示好?

​女生送糖给男生的寓意,难道她是在对我示好?

61

女生送糖给男生的寓意,难道她是在对我示好? 一般来说,那种软萌的萌妹纸一般会随身携带糖果,因为她们自己喜欢吃糖,时时刻刻都保持着甜丝丝的感觉,就像她们的外表给人的感...

​相亲两个人都内向没话题聊该怎么办?

​相亲两个人都内向没话题聊该怎么办?

56

相亲两个人都内向没话题聊该怎么办? 一般来说,不管是男生还是女生,要靠相亲找对象的人一般是比较内向的人,不然可能自己早就恋爱了。而如果相亲两个人都内向没话题聊该怎么...

​一段简短而深情的告白,句句打动人心

​一段简短而深情的告白,句句打动人心

80

一段简短而深情的告白,句句打动人心 暧昧让人受尽委屈,找不到相爱的证明。也许暧昧期的你们,就差这么一个表白。表白的事当然应该男生来说,如果不知道怎么表白,就看看下面...

​好朋友成为恋人征兆,朋友升级为恋人的迹象

​好朋友成为恋人征兆,朋友升级为恋人的迹象

148

好朋友成为恋人征兆,朋友升级为恋人的迹象 爱情不分年龄、国度、文化水平、地位高低……当爱情来临,就纵情享受,什么好马不吃回头草、兔子不吃窝边草的说法都是世俗的羁绊,...

​女生说无聊中该怎么高情商回复

​女生说无聊中该怎么高情商回复

69

女生说无聊中该怎么高情商回复 这篇文章给兄弟们分享的是“女生说无聊中该怎么高情商回复”,“女生说无聊”在微信聊天中是很有常见的,白鹤老师给大家分享高情商的回复和幽默...