免费 AI “神器”系列第三弹:AI 视频领域的“字节跳动”诞生,首个GPT-4V盲测工具发布
图片来源:unsplash
近期,生成式人工智能(AIGC)领域又涌现出多款创意十足的新应用。
今天,钛媒体 AGI 梳理了免费 AI " 神器 " 系列第三弹,共五款,其中大多数实用工具能帮你提升一定的生产力。
AI 视频编辑神器—— Runway Gen-2
胸部 x 光片诊断神器—— CheXagent
AlphaZero 升级版—— DeepMind 下象棋模型
Vision Arena:视觉模型盲测工具
图片 3D 转换器—— ComfyUI 3D Pack
1、AI 视频编辑神器—— Runway Gen-2
产品信息:Runway Gen-2 是一款功能强大的 AI 视频编辑软件,用户可以直接使用 " 文本 "、" 图片 " 和 " 文本 + 图片 " 三种方式提示生成视频内容,并自动剪辑视频。
产品功能:用户在主界面可自由选择 " 文本 "、" 图片 " 和 " 文本 + 图片 " 三种方式来生成视频内容。以 " 文本 " 生成视频为例,在输入框输入一段描述词后,等待两分钟左右就会生成一段 4 秒的视频内容。
除此之外,Runway Gen-2 还配备有其他 30 种强大的 AI 工具,比如:"Remove Background"(绿幕去背景)、"Expand Image"(图片扩展)、"Blur Faces"(模糊人脸)、"Inpainting"(移除视频杂物 / 人)等,可以帮助视频内容创作者极大提高工作效率。
Runway Gen-2 配备有 30 种 AI 功能
据悉,Runway Gen-2 背后的开发团队来自 Runway 公司,他们致力于开发用于生成视频、图像和多媒体内容的产品和模型。在 2023 年 6 月,该公司以 15 亿美元的估值,完成了 1.41 亿美元的 C 轮融资,谷歌、英伟达等科技巨头都参与了投资,被誉为 "AI 视频生成领域的字节跳动 "。
Runway Gen-2 首席执行官 Cristobal Valenzuela 曾表示," 创意软件的时代已经结束。" 而有科技博主认为:" 如果(Runway)按照这个速度发展下去,到 2024 年底,我们或许能够看到导演们手工制作出好莱坞水准的生成式视频作品。"
体验链接:https://app.runwayml.com/
2、胸部 x 光片诊断神器—— CheXagent
产品信息:CheXagent 是一个专门用来解读胸部 x 光片的 AI 模型,旨在提高医疗影像诊断效率与准确性。
产品功能:用户只需在 CheXagent 主界面上传一张胸部 x 光片,等待数秒后即可生成相关的诊断结果,包括疾病识别、异常检测、重要结构分析以及后续步骤建议。
CheXagent 界面
CheXagent 由斯坦福大学与 Stability AI 合作开发,结合了临床医学大语言模型、视觉编码器和视觉 - 语言桥接网络,利用超过 600 万组数据的大型集合进行训练,提升了解读 X 光图像的能力。如若未来进入大规模应用,医疗工作者的工作效率和诊断准确率都将得到提升。
体验链接:https://stanford-aimi.github.io/chexagent.html
3、AlphaZero 升级版—— DeepMind 下象棋模型
产品信息:Google DeepMind 抛弃传统的搜索方法,使用 Transformer 模型,训练了一个 AI 模型来下国际象棋。
产品功能:Google DeepMind 下象棋模型使用了一个国际象棋程序 Stockfish 16 来训练,AI 不再需要像此前普通 AI 国际象棋依赖于搜索算法来预测和评估最佳选择的走法,而是直接学习成千上万棋局中的模式和策略,达到只需通过观察当前棋盘的状态,做出高水平决策的大师级棋艺。
DeepMind 下象棋模型相关论文
该模型在性能上超越了 AlphaGo Zero 和 GPT-3.5-Turbo-Instruct,证明了深度学习模型,特别是 Transformer 模型,能够在复杂的决策和策略游戏中学习和模拟高级人类智能,显著减少了计算需求,为 AI 的自主学习和理解复杂系统提供了新的范例。
与 AI 下棋体验地址:https://lichess.org/
4、Vision Arena:视觉模型盲测工具
产品信息:Vision Arena 是一款视觉模型领域的开放评测对比平台,目的是测试和比较不同的视觉语言模型(VLMs),比如 GPT-4V、Gemini(谷歌模型)、Llava、Qwen-VL(通义模型)等。
产品功能:用户可以在 Vision Arena 工具上同时测试两个视觉模型,并对它们进行投票,以决定哪个更优秀。而且整个过程处于 " 盲测 " 状态,需要选择你认为好的结果才会告诉你模型是什么。
据透露,这是全球首个 GPT-4V 的盲测工具软件。未来,基于该工具的模型基准排行榜(Elo Rating)功能也将推出。
体验地址:https://huggingface.co/spaces/WildVision/vision-arena
5、图片 3D 转换器—— ComfyUI 3D Pack
产品信息:ComfyUI 是一款基于稳定扩散模型(Stable Diffusion Model)架构技术,直观、功能强大且实现模块化的图形平台,允许用户创建复杂的 AI 文生图工作,无需编程知识。
产品功能:今年 1 月,ComfyUI 宣布引入 3D 图像处理模型,能快速将图片转换成 3D 模型。如今,用户可在 ComfyUI 3D Pack 平台上将图片快速转换成一个 3D 模型,并能从不同角度查看该 3D 模型,还能使用 3D 高斯扩散技术提升模型质量,让 3D 模型看起来更加真实和具有立体感。此外,ComfyUI 3D Pack 还支持多种格式导出,集成了先进的 3D 处理算法。
ComfyUI 3D Pack 界面
体验地址:https://github.com/MrForExample/ComfyUI-3D-Pack/tree/main
(本文首发钛媒体 App,作者|任颖文,编辑|林志佳)