谷歌深夜发布全球最强开源大模型Gemma,性能“吊打”130亿的Llama
就在刚刚,谷歌扔下 " 震撼弹 "。
北京时间 2 月 21 日晚 21 点,美国科技巨头谷歌(Google)宣布推出全球性能最强大、轻量级的开源模型系列 Gemma,分为 2B(20 亿参数)和 7B(70 亿)两种尺寸版本,2B 版本甚至可直接在笔记本电脑上运行。
谷歌表示,Gemma 采用与 Gemini 模型相同的研究和技术,由 Google DeepMind 和谷歌其他团队开发,专为负责任的 AI 开发而打造。谷歌声称,Gemma 模型 18 个语言理解、推理、数学等关键基准测试中,有 11 个测试分数超越了 Meta Llama-2 等更大参数的开源模型。
平均分数方面,Gemma -7B 的基准测试平均分高达 56.4,远超过 Llama-13B(52.2)、Mistral-7B(54.0),成为目前全球最强大的开源模型。
请输入图说
谷歌和 Alphabet 公司 CEO 桑达尔 · 皮查伊(Sundar Pichai)表示,Gemma 展示了强大的性能,从今天开始,该模型将在全球范围内提供,并可在笔记本电脑、工作站或谷歌云上运行。
Google DeepMind CEO Demis Hassabis 表示,轻量开源的 Gemma 是同类尺寸中性能最佳的模型。
如今,谷歌不仅将对手瞄向 OpenAI,而且打算占据一切,新模型将比扎克伯格的 Llama-2" 遥遥领先 "。
性能超越 Llama-2 开源模型,谷歌 Gemma 为何那么强?
自 Gemini 发布至今,谷歌持续在 AI 方面 " 狂飙 "。
2023 年 12 月,谷歌推出全球最强大、最通用的多模态通用大模型:Gemini,中文称 " 双子座 ",共包括三个不同尺寸版本:Ultra(超大杯)、Pro(大杯)和 Nano(中杯),全面内置最新、最强大的自研 AI 超算芯片 Cloud TPU v5p。
谷歌表示,在六项基准测试中,Gemini Pro 性能表现优于 GPT-3.5;而在 30 项性能基准测试中,Gemini Ultra 超越了目前最强模型 GPT-4,甚至在数学、物理、法律等 57 个领域测试中成为全球第一个超越人类专家水平的 AI 模型。
如此强大的 AI 技术,谷歌必然要持续推进。
所以,谷歌不仅统一了 AI 人才和算力资源,而且全力投资 Gemini。今年 1 月,谷歌宣布全球一项大模型基准测试中 Gemini 超越 GPT-4;2 月,谷歌宣布对标 ChatGPT 的 AI 聊天机器人平台 Google Bard 更名为 Gemini,并推出安卓版本的独立 App,以及发布史上性能和功能最强大的 Gemini Ultra 1.0 模型等。
然而,2 月中旬 Gemini 1.5 发布的同时,OpenAI 全新视频生成模型 Sora 突然亮相,一经面世瞬间成为顶流,话题热度只增不减。所有人都在讨论 Sora 为行业带来的改变,但这让谷歌在 AI 领域的努力一下子 " 黯然失色 "。
仅过了不到半个月,如今,谷歌卷土重来,正式推出全球最强大的开源模型 Gemma。
相比 ChaGPT 和 Gemini,Gemma 可能更适合较小规模的任务,例如简单的 AI 聊天或摘要。
谷歌表示,Gemma 其灵感来自于此前谷歌发布的 Gemini 大模型,名字在拉丁语中意为 " 宝石 "。
具体来说,谷歌此次主要展示 Gemma 模型架构、性能表现、自研芯片、训练基础设施、软件工具、碳减排、安全和评估、负责任等多个方面的努力。
其中,模型架构方面,Gemma 基于谷歌 Gemini 模型以及 Transformer 自注意力机制的深度学习技术研发,Gemma 2B 和 7B 分别针对来自网络文档、数学和代码的 2T 和 6T 规模英文标注数据进行训练。与 Gemini 不同,这些模型不是多模式的,也没有针对多语言任务的最先进性能进行训练。
不仅如此,Gemma 还使用了改进后的多头注意力、RoPE 嵌入、GeGLU 激活函数等新的技术,旨在文本领域实现通用能力,同时具备最先进的理解和推理技能。
性能表现方面,根据技术文件,Gemma 在 MMLU、MBPP 等 18 个基准测试中,有 11 个测试结果超越了 Llama-13B 或 Mistral-7B 等模型。
自研芯片方面,谷歌 Gemma 使用自研 AI 加速芯片 TPUv5e 进行训练。其中 7B 模型在 16 个 Pods 上训练,2B 模型在 2 个 Pods 上训练,每个 Pod 可占用的 256 个芯片更少,v5e 经过优化,可以成为转换器、文本到图像和卷积神经网络 ( CNN ) 训练、微调和服务的最大价值产品。
而通过 TPUv5e,Gemma 模型可在文本领域实现强大的通用能力,同时具备最先进的理解和推理技能。
值得一提的是,谷歌今天还宣布与英伟达(NVIDIA)展开合作。这意味着,Gemma 不止使用 TPUv5e 芯片,而且使用 NVIDIA GPU 来优化 Gemma 模型。
软件工具层面,谷歌发布了全新 AI 软件工具包,名为 Responsible Generative AI Toolkit,从而帮助开发者和研究人员优先构建安全和负责任的 AI 应用。此外,Gemma 提供 Keras 3.0、原生 PyTorch、JAX 和 Hugging Face Transformers 多个框架工具,并支持基于 Google Cloud 的优化,以及在笔记本电脑、台式机、物联网、移动设备和云端等多个跨设备中兼容,从而让 Gemma 实现推理和微调。
除了上述提及的层面,谷歌还在碳减排、安全和评估、负责任等方面有新的进展。其中,预训练 Gemma 模型的碳排放量大大减少,约为 131000 吨二氧化碳;同时 Gemma 使用过滤后的预训练数据集,以减少不安全内容的风险;以及通过监督式微调和基于人类反馈的强化学习(RLHF)进行微调。
谷歌表示,在人类偏好评估中,Gemma 在遵循指令和基本安全协议方面的表现优于 Mistral v0.2 7B Instruct 模型。
另外,Google DeepMind 采取结构化的方法来确保模型的负责任开发和部署,包括评估潜在的社会影响。
谷歌 DeepMind 产品管理总监 Tris Warkentin 表示,由于担心开放模型存在部分风险,该公司 " 对 Gemma 进行了更广泛的红队(专家、开发者等内部对抗性测试的外部团队)",从而提前挖掘出了更多 AI 系统存在的缺陷和风险。
署名研究人员高达 57 人,其中 31 人来自亚洲
技术论文显示,此次参与谷歌 Gemma 开源模型的研发人员数量高达 57 位。
其中包括核心贡献者(Core Contributors)14 人,参与者(Contributors)达 35 人,产品管理(Product Management)2 人,项目管理(Program Management)1 人,执行赞助人(Executive Sponsors)5 人。此外,谷歌还对内部其他多个团队进行感谢。
据钛媒体 AGI 通过 Kimi Chat 提供的信息、研发者名字进行梳理和猜测,此次参与 Gemma 模型研发的 57 人中,可能有大约一半以上(31 人)的开发者来自亚洲,或与华人或具有华人血统的个人有关。
例如,谷歌 Gemma 团队当中的 Le Hou(侯乐)博士,曾是谷歌 FLAN-T5 技术的作者。
在加入谷歌之前,侯乐在纽约州立大学石溪分校获得了博士学位。博士在读期间,他专注于分析高分辨率图像,如卫星和医学图像。
侯乐在谷歌的研究主要集中于 NLP 方面,包括高效的语言模型训练、指令微调和提示工程等,核心能力是通过更好的微调和提示工程来提高最先进语言模型的推理能力。
而谷歌 Gemma 团队另一位华人 Geng Yan,也是 AI 领域大神级人物。他毕业于浙江大学计算机科学系,随后在美国美国卡内基梅隆大学完成计算机视觉专业的硕士学位。
Geng Yan 曾在商汤、亚马逊等公司任职过,主要研究 AI 机器算法技术,曾在谷歌参与研发 Google Facemesh 追踪面部的 AI 模型,在谷歌相机自拍、手机支付等多个场景中发挥更大作用。
事实上,据 The Information 报道称,目前谷歌公布的最新论文中,Gemini 的研发团队超过 800 人。因此,参与 Gemma 研发人员占比可能只有 Gemini 团队的 7.1%。
人员少,但 Gemma 性能毫不逊色。
然而,谷歌在技术报告中也坦言,尽管 Gemma 模型在性能、安全性和负责任开发方面实现了突飞猛进的进展,但谷歌承认 " 此发布是不可逆转的 ",并且开放模型造成的危害尚未明确定义。谷歌仍需要进一步研究来创建可靠、按预期执行的稳健、安全的模型。
" 因此我们将继续采取与这些模型的潜在风险相称的评估和安全缓解措施。" 谷歌表示,Gemma 在 6 个安全基准以及人类并行评估方面均优于竞争对手。
Warkentin 表示,Gemma 模型目前先适配了英语这一广泛语言,但他也指出,未来谷歌团队也 " 希望能够与社区共同努力,满足英语任务之外的市场需求。"
目前,开发者可以在 Kaggle 中免费使用 Gemma,首次使用 Google Cloud 的用户将获得 300 美元的积分,并可申请高达 50 万美元的 Google Cloud 积分来使用这些模型。具体可通过 ai.google.dev/gemma 进行查询。
另外,谷歌方面今晨还宣布,Google One AI Premium 正在将 Gemini 整合到谷歌 Gmail、Docs、Sheets、Slides 和 Meet 当中,提供书写、校对和生成图像等 AI 增强功能。而作为账户付费产品,前两个月免费使用,之后每月 19.99 美元。
小结:谷歌拼命 " 卷 ",只想成为王者
三个月发布三款大模型系列,谷歌 AI 技术产品的更新迭代之快,让人始料未及。
OpenAI CEO 奥尔特曼(Sam Altman)曾私下表示,与谷歌相比,OpenAI 在算力上处于劣势。
在 AI 三要素中,谷歌在算力、算法、数据方面都具有很明显的技术领先优势。那么如今,谷歌连续发布 Gemini、Gemma 模型,覆盖开源和闭源方向,希望成为 "AI 行业王者 " 的野心暴露无遗。
我们预计,接下来 Gemma 将成为开源社区的关注焦点。
谷歌开发者 X 副总裁兼总经理、谷歌开发者关系主管 Jeanine Banks 认为,Gemma 模型 " 感觉像是谷歌从 TensorFlow 等工具开源 AI 开发技术的历史的延续 " 的最新 AI 系统,从 PaLM2、AlphaFold 到 Gemini,最后形成了 Gemma。
" 我们认为,如果谷歌能够成为 API 和开放模型的唯一提供商,为社区提供最广泛的功能集,那就完美了。"Jeanine Banks 表示。
接下来,我们就看 " 刚刚跌落神坛 " 的开源模型 Meta Llama 如何再接招了。
(本文首发钛媒体 App,作者|林志佳)