免费 AI “神器”系列第三弹：AI 视频领域的“字节跳动”诞生，首个GPT-4V盲

免费 AI “神器”系列第三弹：AI 视频领域的“字节跳动”诞生，首个GPT-4V盲测工具发布

图片来源：unsplash

近期，生成式人工智能（AIGC）领域又涌现出多款创意十足的新应用。

今天，钛媒体 AGI 梳理了免费 AI " 神器 " 系列第三弹，共五款，其中大多数实用工具能帮你提升一定的生产力。

AI 视频编辑神器—— Runway Gen-2

胸部 x 光片诊断神器—— CheXagent

AlphaZero 升级版—— DeepMind 下象棋模型

Vision Arena：视觉模型盲测工具

图片 3D 转换器—— ComfyUI 3D Pack

1、AI 视频编辑神器—— Runway Gen-2

产品信息：Runway Gen-2 是一款功能强大的 AI 视频编辑软件，用户可以直接使用 " 文本 "、" 图片 " 和 " 文本 + 图片 " 三种方式提示生成视频内容，并自动剪辑视频。

产品功能：用户在主界面可自由选择 " 文本 "、" 图片 " 和 " 文本 + 图片 " 三种方式来生成视频内容。以 " 文本 " 生成视频为例，在输入框输入一段描述词后，等待两分钟左右就会生成一段 4 秒的视频内容。

除此之外，Runway Gen-2 还配备有其他 30 种强大的 AI 工具，比如："Remove Background"（绿幕去背景）、"Expand Image"（图片扩展）、"Blur Faces"（模糊人脸）、"Inpainting"（移除视频杂物 / 人）等，可以帮助视频内容创作者极大提高工作效率。

Runway Gen-2 配备有 30 种 AI 功能

据悉，Runway Gen-2 背后的开发团队来自 Runway 公司，他们致力于开发用于生成视频、图像和多媒体内容的产品和模型。在 2023 年 6 月，该公司以 15 亿美元的估值，完成了 1.41 亿美元的 C 轮融资，谷歌、英伟达等科技巨头都参与了投资，被誉为 "AI 视频生成领域的字节跳动 "。

Runway Gen-2 首席执行官 Cristobal Valenzuela 曾表示，" 创意软件的时代已经结束。" 而有科技博主认为：" 如果（Runway）按照这个速度发展下去，到 2024 年底，我们或许能够看到导演们手工制作出好莱坞水准的生成式视频作品。"

体验链接：https://app.runwayml.com/

2、胸部 x 光片诊断神器—— CheXagent

产品信息：CheXagent 是一个专门用来解读胸部 x 光片的 AI 模型，旨在提高医疗影像诊断效率与准确性。

产品功能：用户只需在 CheXagent 主界面上传一张胸部 x 光片，等待数秒后即可生成相关的诊断结果，包括疾病识别、异常检测、重要结构分析以及后续步骤建议。

CheXagent 界面

CheXagent 由斯坦福大学与 Stability AI 合作开发，结合了临床医学大语言模型、视觉编码器和视觉 - 语言桥接网络，利用超过 600 万组数据的大型集合进行训练，提升了解读 X 光图像的能力。如若未来进入大规模应用，医疗工作者的工作效率和诊断准确率都将得到提升。

体验链接：https://stanford-aimi.github.io/chexagent.html

3、AlphaZero 升级版—— DeepMind 下象棋模型

产品信息：Google DeepMind 抛弃传统的搜索方法，使用 Transformer 模型，训练了一个 AI 模型来下国际象棋。

产品功能：Google DeepMind 下象棋模型使用了一个国际象棋程序 Stockfish 16 来训练，AI 不再需要像此前普通 AI 国际象棋依赖于搜索算法来预测和评估最佳选择的走法，而是直接学习成千上万棋局中的模式和策略，达到只需通过观察当前棋盘的状态，做出高水平决策的大师级棋艺。

DeepMind 下象棋模型相关论文

该模型在性能上超越了 AlphaGo Zero 和 GPT-3.5-Turbo-Instruct，证明了深度学习模型，特别是 Transformer 模型，能够在复杂的决策和策略游戏中学习和模拟高级人类智能，显著减少了计算需求，为 AI 的自主学习和理解复杂系统提供了新的范例。

与 AI 下棋体验地址：https://lichess.org/

4、Vision Arena：视觉模型盲测工具

产品信息：Vision Arena 是一款视觉模型领域的开放评测对比平台，目的是测试和比较不同的视觉语言模型（VLMs），比如 GPT-4V、Gemini（谷歌模型）、Llava、Qwen-VL（通义模型）等。

产品功能：用户可以在 Vision Arena 工具上同时测试两个视觉模型，并对它们进行投票，以决定哪个更优秀。而且整个过程处于 " 盲测 " 状态，需要选择你认为好的结果才会告诉你模型是什么。

据透露，这是全球首个 GPT-4V 的盲测工具软件。未来，基于该工具的模型基准排行榜（Elo Rating）功能也将推出。

体验地址：https://huggingface.co/spaces/WildVision/vision-arena

5、图片 3D 转换器—— ComfyUI 3D Pack

产品信息：ComfyUI 是一款基于稳定扩散模型（Stable Diffusion Model）架构技术，直观、功能强大且实现模块化的图形平台，允许用户创建复杂的 AI 文生图工作，无需编程知识。

产品功能：今年 1 月，ComfyUI 宣布引入 3D 图像处理模型，能快速将图片转换成 3D 模型。如今，用户可在 ComfyUI 3D Pack 平台上将图片快速转换成一个 3D 模型，并能从不同角度查看该 3D 模型，还能使用 3D 高斯扩散技术提升模型质量，让 3D 模型看起来更加真实和具有立体感。此外，ComfyUI 3D Pack 还支持多种格式导出，集成了先进的 3D 处理算法。