​当算力迈向万卡集群,服务器市场上演角力赛

当算力迈向万卡集群,服务器市场上演角力赛

  图片来源 @pixabay

" 预训练大模型的发展为实现通用人工智能提供了可能。其中算力一定要有比较大的进步,才可能有下一代。但短期内不太可能是 GPU 架构本身的明显跨越,而是需要千卡、万卡来适应大模型。"2021 年末的一次交流中,某 NLP 创企 CEO 对钛媒体表达。

在当时,这家企业已经遇到不少在算力层面的挑战,他们与高校、英伟达、云厂商都在保持密切沟通,希望对方能给予一些技术支持。但对于这些算法领域的专家或创企而言,由于之前的工作并不太涉及硬件领域," 做模型的不懂算力,做算力的不懂模型 " 的现象非常常见。

" 很多情况下需要双方一线面对面沟通,才可能把真正的需求痛点解决掉。" 该 CEO 表示。

三年后,类似于 ChatGPT、Sora 的大量生成式 AI 杀手级应用出现,也正在倒逼更强的算力基础设施进一步升级。上述 CEO 所面临的问题不仅依然存在,且受到了更上游英伟达等供应商对于 GPU 及相关专用芯片的限制,带来了一系列连锁反应。对于该 NLP 企业而言,如果有必要采购国产芯片,那么不同性能、不同场景下的异构芯片 " 组合 " 方案将变得日常,而真正挑战在于 " 怎么组合 "。

多位专家近来反复也提及,大模型对算力需求增长已远高于单颗 AI 芯片性能的增长速度。因此,需要通过芯片的互联组成万卡、甚至数万卡的集群,来提供更高算力。但问题是,建设下一代数据中心,对卡间的网络互联,集群间的互联要求会变得更高,受绿色算力目标的牵制也会更明显,就连英伟达自身也无法回避这一问题。

浪潮信息高级副总裁刘军的观点是,实现更大的算力已经不在芯片,而是在算法层面做创新,比如怎么把算力分布到系统层面上,怎么解决卡间互联问题,怎么让更多的 GPU 高效协同。

钛媒体注意到,在大模型算法、云、芯片这些对算力基础设施产生不同推力的角色之外,像浪潮信息、新华三等处于产业链中游的主要服务器供应商,纷纷发力生成式 AI,围绕算力、算法、数据、互联等范畴布局。

万卡集群军备赛

万卡集群是个什么概念?即使用数万个 GPU 构建大型人工智能集群,用以训练基础大模型。这种集群有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代。

目前看来,包括电信运营商、互联网企业等服务器采购的头部客户在内,他们对 AI 算力集群的设计起点已经到了千卡级别,蚂蚁集团在去年透露已建成万卡异构算力集群,中国移动不久前透露今年将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近 6 万张 GPU 卡。

但别看万卡集群似乎成为大模型基建军备赛的目标,其建设和维护仍面临诸多挑战。

钛媒体此前分析,大模型场景下,算力需要大规模集中式训练,服务器也无法被切分成单个虚机,单个 GPU 无法完全容纳整个模型训练,采用分布式训练是必然。这也同时导致了 GPU 通信问题,由于卡与卡之间存在的通信开销,增加一倍卡并不能带来线性的性能加速。在实际的 AI 集群环境中,会存在 GPU 之间的互联带宽受限或 AI 服务器之间的网络互联带宽有限。

此外,卡数量增多后,过热、故障就会一定比例出现,这往往会导致训练中断、梯度爆炸、算法重跑一遍等,模型训练成本也会居高不下。即便单卡算力再强,不考虑带宽的优化,也会带来极大的算力资源浪费。

在字节跳动年初公布的一份论文中也列举了基于万卡集群训练大模型的挑战,即高效率、高稳定性,并提出将 MegaScale 系统部署到数据中心。

能够看到,为了解决这些问题,各大科技公司纷纷投入研发,提出各种在万卡集群上用于训练大模型的方案。浪潮信息董事长彭震在近日与媒体沟通中指出,今天想要建一个能承载万卡集群的机房还是很难的事情,它对基础设施要求非常高。

因而,对于服务器厂商而言,当其身量已不再局限于提供单一硬件产品时,而是综合性解决方案,这些解决方案可能包括服务器、存储、网络、安全等方面,同时还需要针对下游客户的具体需求,提供定制方案。服务器作为算力资源的重要载体,也正成为企业构建万卡集群的核心一环。

当前中国市场局面则是,国家将数字基础设施建设上升到战略层面,全国一体化算力网络建设的布局拉开,服务器的潜力已经引发新一轮的市场热潮。而随着生成式 AI 的浪潮袭来,通用型服务器已难以满足其带来的日益增长的算力需求,面向 AI 场景的专用服务器也应运而生,围绕计算能耗的服务器液冷等技术创新日渐成熟,也在驱动客户主动布局该类方案。

根据 IDC 此前公布的两组数据:预计 2023 年中国人工智能服务器市场规模将达到 91 亿美元,同比增长 82.5%,五年年复合增长率达 21.8%;2023 全年中国液冷服务器销售额为 101 亿元,同比增长 48.0%,其中 95% 以上均采用冷板式液冷解决方案。

刘军指出,AI 时代只卖算力服务器是不够的,还需要其他手段去承载时代下的用户需求。

迈向万卡集群,要靠生态

不过,能设计并有效运行万卡集群的企业,仍掌握在少数人手中。

举一个最近的合作样板:中国电信天翼云点亮规模达 15000 卡的算力集群,很快得到人工智能研究院、稀宇科技、百川智能、思必驰科技、亿熵智能科技、澜码科技、赛陇生物科技、天壤智能科技 8 家国内合作伙伴的入驻。

目前看来,不同芯片在不同场景下取得的效果和效率仍有差别,浪潮信息更希望从算力层提供一个平台,支撑多元算力入驻。对于芯片企业而言,只需要专注在芯片本身而不需要研究互联带宽问题。彭震强调,芯片算力并非是 AI 发展不起来的直接原因,更多的其实是系统问题。

浪潮信息在将目光聚焦到与其他产业链伙伴,如芯片供应商、软件开发商、系统集成商等合作,以应对当前 GPU 及相关专用芯片出口限制的影响。以 EPAI 品牌下的大模型计算框架 TensorGlue 为例,它针对多种模型,与多款深度学习框架和异构芯片适配,降低算法与应用向异构算力设备迁移的框架适配成本,帮助用户在多模多元算力场景下的试错和适配成本,推进大模型应用研发能力。

近期举办的 IPF 生态伙伴大会上,浪潮信息公布了几项最新进展:算法方面,发布企业大模型开发平台 EPAI" 元脑企智 ",加速企业大模型落地应用;算力方面,面向大模型推理场景,联合英特尔发布 AI 通用服务器;存储方面,发布分布式全闪存储 AS13000G7,解决大模型训练数据挑战;互联方面,发布超级 AI 以太网交换机 X400,加速大模型训练推理。

从 2021 年推出 " 源 " 大模型为初始,出于对计算的理解,对市场价值创新的探索,以及企业内部数字化转型的考虑,经过多年筹备,浪潮信息形成了从算力、算法、数据、场景的从研发到产品线的全面战略布局。如今," 以应用为导向,以系统为核心 ",表达出浪潮信息接下来想要做的事情。

钛媒体还注意到,英伟达的 NVlink,正在被服务器厂商提及甚至对标。NVlink 提供一种高效可扩展的芯片通信间协议,允许所有 GPU 同时全速实时通信,就好像整个系统是单个 GPU 一样。在今年 4 月的 GTC 大会上,英伟达也宣布 NVlink 更新到第五代,包括可扩展至 576 个 GPU,能够解决万亿参数混合专家模型通信瓶颈。

正如钟摆理论的核心是围绕某个中心值有规律摆动。刘军告诉钛媒体,无论是算力、算法,还是数据,浪潮信息在不同时间节点可能都会有不同的侧重," 关键是要走在钟摆的前面,而不是走在后面。"(本文首发于钛媒体 APP, 作者|杨丽,编辑 | 盖虹达)  

相关推荐

​假期重磅事件!信息量大

​假期重磅事件!信息量大

152

假期重磅事件!信息量大 伯克希尔股东大会在奥马哈举行,巴菲特谈到好友芒格、减持苹果和现金储备等问题。 假期中国资产大幅拉涨,纳斯达克中国金龙指数一日大涨 6%;恒生指数...

​21岁纯爱战神“胖猫”事件后续,魔幻照进现实

​21岁纯爱战神“胖猫”事件后续,魔幻照进现实

172

21岁纯爱战神“胖猫”事件后续,魔幻照进现实 文 | 来咖智库,作者 | 金刀,编辑 | G3007 近日,21 岁湖南男生(游戏 id:胖猫)在重庆长江大桥投江自尽的新闻在短视频平台热度颇高,...

​悦芙媞适合什么年龄?悦芙媞适合什么肤质

​悦芙媞适合什么年龄?悦芙媞适合什么肤质

95

悦芙媞适合什么年龄?悦芙媞适合什么肤质 来自韩国的品牌——悦芙媞,现在已经属于珀莱雅旗下了,代言人有李钟硕等等,产品价格十分亲民,走的开架路线,它们家的素颜霜和气垫...

​学历是衬衫上的第一粒纽扣

​学历是衬衫上的第一粒纽扣

170

学历是衬衫上的第一粒纽扣 本文来自微信公众号:知趣同学(ID:liuzhiqu7788),作者:刘知趣,题图来自:视觉中国 朝为田舍郎,暮登天子堂。 中国语境下的教育神话最动人心弦的点...

​2024,AI手机“元年”?

126

2024,AI手机“元年”? 文 | 伯虎财经,作者 | 铁观音 2024 年,小米、荣耀、vivo、一加、努比亚等品牌的 AI 手机新品如雨后春笋般涌现。因此,这一年也被业界广泛视为 AI 手机的 元年...

​使用护肤品小知识 护肤品使用小常识

​使用护肤品小知识 护肤品使用小常识

56

使用护肤品小知识 护肤品使用小常识 护肤,一直都是姑娘们最关心的话题,如何能让自己的皮肤变得越来越好,是大家矢志不渝为之风斗的目标。什么样的肌肤才是好的肌肤,我的答...

​beauty buffet身体乳孕妇可以用吗 真假辨别

​beauty buffet身体乳孕妇可以用吗 真假辨别

173

beauty buffet身体乳孕妇可以用吗 真假辨别 beauty buffet是泰国很有名的一个护肤品牌,beauty buffet的洗面奶很多人洗面,价格便宜又好用,尤其是味道非常好闻,一股甜甜的牛奶味,他们家...

​学生性价比高的防晒霜 学生党必备防晒霜

​学生性价比高的防晒霜 学生党必备防晒霜

53

学生性价比高的防晒霜 学生党必备防晒霜 防晒是我们每天都要做的护肤工作,涂抹防晒霜是最常见的防晒方法,市面上好用的防晒产品有很多,适合学生,性价比高的防晒深受大家的...

​迪奥粉底液哪款好用 迪奥最好用的粉底液

​迪奥粉底液哪款好用 迪奥最好用的粉底液

143

迪奥粉底液哪款好用 迪奥最好用的粉底液 粉底液是我们化妆必不可少的一样底妆产品,粉底液的选择是很重要的,适合自己的粉底液打造出来的底妆才更自然,迪奥粉底液是很多人喜...

​手绘美甲有哪些 紫色撞色美甲做法

​手绘美甲有哪些 紫色撞色美甲做法

111

手绘美甲有哪些 紫色撞色美甲做法 美甲我们平常生活中很多人都喜欢的一件事情,做美甲可以让我们的双手看起来更加精致漂亮,好看的美甲图案让你告别土味,手绘美甲一直特别流...

​格纹光疗美甲图片 让指尖的气质发光发热

​格纹光疗美甲图片 让指尖的气质发光发热

119

格纹光疗美甲图片 让指尖的气质发光发热 秋冬时尚绝对不能让格纹缺席,不只要把网路购物车塞满格纹单品,就连指尖的光疗也要紧紧跟上才行。小编搜罗了日韩美甲师的光疗作品,...

​去黑头的方法有哪些 最好去黑头方法

​去黑头的方法有哪些 最好去黑头方法

186

去黑头的方法有哪些 最好去黑头方法 我们每个人的肤质都不一样,护肤方法习惯也不一样,黑头是比较常见的一种肌肤问题,很多人都很苦恼黑头的存在,皮肤白白嫩嫩看着多好,那...

​电话手表有什么缺点

​电话手表有什么缺点

123

电话手表有什么缺点 电话手表有的缺点包括会使孩子产生依赖性、忽略周围的人和事、容易丢失。 近来,电话手表成为越来越多家长的选择,除了种种好处外,也可能对孩子带来一些...

​盐城公租房的申请条件-盐城公租房管理办法

127

盐城公租房的申请条件-盐城公租房管理办法 盐城公租房的申请条件 具有城区户籍的中等偏低收入住房困难家庭,以家庭为单位申请公租房,每个申请家庭只限承租1套住房。申请家庭确...

​秋田犬是什么品种?秋田犬怎么养?

196

秋田犬是什么品种?秋田犬怎么养? 秋田犬的简介 它的祖先,被称呼为山地狩猎犬。本来在日本犬里大型犬是不存在的,秋田犬是大型的熊猎犬。除了协助猎熊外,它还被利用来捕鹿...

​牛皮凉席如何保养?牛皮凉席选购要点

93

牛皮凉席如何保养?牛皮凉席选购要点 牛皮凉席选购要点 随着牛皮凉席的不断普及,越来越多的假、次商品也在市场上出现,因此,如何选购一床正宗上好的牛皮凉席就显得至关重要...

​轮胎进货哪里便宜

​轮胎进货哪里便宜

110

轮胎进货哪里便宜 轮胎是汽车的重要组成部分,而且需要定期更换。许多车主在购买轮胎时都会考虑价格问题,不希望花费过多的金钱在轮胎的购买上。那么,轮胎进货哪里便宜呢?...