​免费 AI “神器”系列第三弹:AI 视频领域的“字节跳动”诞生,首个GPT-4V盲

免费 AI “神器”系列第三弹:AI 视频领域的“字节跳动”诞生,首个GPT-4V盲测工具发布

图片来源:unsplash

近期,生成式人工智能(AIGC)领域又涌现出多款创意十足的新应用。

今天,钛媒体 AGI 梳理了免费 AI " 神器 " 系列第三弹,共五款,其中大多数实用工具能帮你提升一定的生产力。

AI 视频编辑神器—— Runway   Gen-2

胸部 x 光片诊断神器—— CheXagent

AlphaZero 升级版—— DeepMind 下象棋模型

Vision Arena:视觉模型盲测工具

图片 3D 转换器—— ComfyUI 3D Pack

1、AI 视频编辑神器—— Runway   Gen-2

产品信息:Runway   Gen-2 是一款功能强大的 AI 视频编辑软件,用户可以直接使用 " 文本 "、" 图片 " 和 " 文本 + 图片 " 三种方式提示生成视频内容,并自动剪辑视频。

产品功能:用户在主界面可自由选择 " 文本 "、" 图片 " 和 " 文本 + 图片 " 三种方式来生成视频内容。以 " 文本 " 生成视频为例,在输入框输入一段描述词后,等待两分钟左右就会生成一段 4 秒的视频内容。

除此之外,Runway   Gen-2 还配备有其他 30 种强大的 AI 工具,比如:"Remove Background"(绿幕去背景)、"Expand Image"(图片扩展)、"Blur Faces"(模糊人脸)、"Inpainting"(移除视频杂物 / 人)等,可以帮助视频内容创作者极大提高工作效率。

Runway   Gen-2 配备有 30 种 AI 功能

据悉,Runway   Gen-2 背后的开发团队来自 Runway 公司,他们致力于开发用于生成视频、图像和多媒体内容的产品和模型。在 2023 年 6 月,该公司以 15 亿美元的估值,完成了 1.41 亿美元的 C 轮融资,谷歌、英伟达等科技巨头都参与了投资,被誉为 "AI 视频生成领域的字节跳动 "。

Runway Gen-2 首席执行官 Cristobal Valenzuela 曾表示," 创意软件的时代已经结束。" 而有科技博主认为:" 如果(Runway)按照这个速度发展下去,到 2024 年底,我们或许能够看到导演们手工制作出好莱坞水准的生成式视频作品。"

体验链接:https://app.runwayml.com/

2、胸部 x 光片诊断神器—— CheXagent

产品信息:CheXagent 是一个专门用来解读胸部 x 光片的 AI 模型,旨在提高医疗影像诊断效率与准确性。

产品功能:用户只需在 CheXagent 主界面上传一张胸部 x 光片,等待数秒后即可生成相关的诊断结果,包括疾病识别、异常检测、重要结构分析以及后续步骤建议。

CheXagent 界面

CheXagent 由斯坦福大学与 Stability AI 合作开发,结合了临床医学大语言模型、视觉编码器和视觉 - 语言桥接网络,利用超过 600 万组数据的大型集合进行训练,提升了解读 X 光图像的能力。如若未来进入大规模应用,医疗工作者的工作效率和诊断准确率都将得到提升。

体验链接:https://stanford-aimi.github.io/chexagent.html

3、AlphaZero 升级版—— DeepMind 下象棋模型

产品信息:Google DeepMind 抛弃传统的搜索方法,使用 Transformer 模型,训练了一个 AI 模型来下国际象棋。

产品功能:Google DeepMind 下象棋模型使用了一个国际象棋程序 Stockfish 16 来训练,AI 不再需要像此前普通 AI 国际象棋依赖于搜索算法来预测和评估最佳选择的走法,而是直接学习成千上万棋局中的模式和策略,达到只需通过观察当前棋盘的状态,做出高水平决策的大师级棋艺。

DeepMind 下象棋模型相关论文

该模型在性能上超越了 AlphaGo Zero 和 GPT-3.5-Turbo-Instruct,证明了深度学习模型,特别是 Transformer 模型,能够在复杂的决策和策略游戏中学习和模拟高级人类智能,显著减少了计算需求,为 AI 的自主学习和理解复杂系统提供了新的范例。

与 AI 下棋体验地址:https://lichess.org/

4、Vision Arena:视觉模型盲测工具

产品信息:Vision Arena 是一款视觉模型领域的开放评测对比平台,目的是测试和比较不同的视觉语言模型(VLMs),比如 GPT-4V、Gemini(谷歌模型)、Llava、Qwen-VL(通义模型)等。

产品功能:用户可以在 Vision Arena 工具上同时测试两个视觉模型,并对它们进行投票,以决定哪个更优秀。而且整个过程处于 " 盲测 " 状态,需要选择你认为好的结果才会告诉你模型是什么。

据透露,这是全球首个 GPT-4V 的盲测工具软件。未来,基于该工具的模型基准排行榜(Elo Rating)功能也将推出。

体验地址:https://huggingface.co/spaces/WildVision/vision-arena

5、图片 3D 转换器—— ComfyUI 3D Pack

产品信息:ComfyUI 是一款基于稳定扩散模型(Stable Diffusion Model)架构技术,直观、功能强大且实现模块化的图形平台,允许用户创建复杂的 AI 文生图工作,无需编程知识。

产品功能:今年 1 月,ComfyUI 宣布引入 3D 图像处理模型,能快速将图片转换成 3D 模型。如今,用户可在 ComfyUI 3D Pack 平台上将图片快速转换成一个 3D 模型,并能从不同角度查看该 3D 模型,还能使用 3D 高斯扩散技术提升模型质量,让 3D 模型看起来更加真实和具有立体感。此外,ComfyUI 3D Pack 还支持多种格式导出,集成了先进的 3D 处理算法。

ComfyUI 3D Pack 界面

体验地址:https://github.com/MrForExample/ComfyUI-3D-Pack/tree/main

(本文首发钛媒体 App,作者|任颖文,编辑|林志佳)

相关推荐

​上海小囡新年家族饭局记

​上海小囡新年家族饭局记

95

上海小囡新年家族饭局记 今年春节,我在埃及,看到了 年轻人断亲 又双叒上了热搜。每逢春节,这个话题总能引发一波热议,而我则想起了如果不是出国旅行,我可能也在家族聚会上...

​太二酸菜鱼开放加盟,加盟商300万合法现金起步

​太二酸菜鱼开放加盟,加盟商300万合法现金起步

165

太二酸菜鱼开放加盟,加盟商300万合法现金起步 近日,九毛九集团(09922.HK)发布公告称,将于 2024 年 2 月 3 日起,将旗下太二酸菜鱼和山的山外面酸汤火锅两个品牌开放加盟合作业务...

​新能源车险蓝海,非车险有望成为增长新动能

​新能源车险蓝海,非车险有望成为增长新动能

110

新能源车险蓝海,非车险有望成为增长新动能 图片来源:视觉中国 2023 年,财险保费规模延续企稳态势,保障持续增强,给行业对 2024 年的期待增添乐观底色。向前展望,2024 年,国内...

​广东省中小微企业商标品牌发展研究报告

​广东省中小微企业商标品牌发展研究报告

89

广东省中小微企业商标品牌发展研究报告 为持续加强对中小微企业知识产权的保护,加快培育中小企业自主创新品牌,助力广东中小微企业创新发展,《广东省中小微企业商标品牌发展...