亚马逊表示,为AI初创公司Anthropic打造的巨型芯片集群将成为全球最大的AI模型训练集群之一,而该公司的新巨型服务器将降低AI成本。该公司正在将自主设计的Trainium芯片定位为英伟达GPU产品的可行替代品。
亚马逊公司(Amazon)云计算部门Amazon Web Services (简称AWS)周二宣布了“超集群(Ultracluster)”计划——一台由数十万枚自主研发的Trainium芯片组成的大型人工智能(AI)超级计算机——以及一台新服务器,这是其得州奥斯汀AI芯片设计实验室的最新成果。
AI初创公司Anthropic将使用这个芯片集群,亚马逊最近向Anthropic追加投资40亿美元。这个名为“Project Rainier”的集群项目将位于美国。AWS负责计算和网络服务的副总裁Dave Brown表示,预计该项目在2025年准备就绪,届时将成为全球最大的AI模型训练集群之一。
AWS周二在拉斯维加斯举行的年度re:Invent大会上还宣布推出一款名为Ultraserver的新服务器,该服务器由64枚相互连接的自研芯片组成。
此外,AWS周二宣布苹果公司(Apple)为其最新的芯片客户之一。
周二宣布的这些消息凸显出AWS对Trainium芯片的投入。该公司正在将这款自主设计的芯片定位为芯片巨头英伟达(Nvidia)图形处理器(GPU)的可行替代品。市场研究机构国际数据公司(International Data Corporation, 简称IDC)的数据显示,2024年AI半导体市场规模估计为1,175亿美元,到2027年底预计将达到1,933亿美元。
IDC 12月发布的研报显示,英伟达在AI芯片市场占据了约95%的份额。
“如今,在GPU方面实际上只有一种选择,那就是英伟达,”AWS首席执行官Matt Garman说。“我们认为客户希望有多种选择。”
亚马逊AI战略的一个关键部分是更新其定制芯片,这样不仅能够为企业客户降低AI成本,还能让该公司对供应链有更多控制权。这也可能降低AWS对关系最密切的合作伙伴之一英伟达的依赖,客户可以在亚马逊的云平台上租用英伟达的GPU。
但想从英伟达的芯片收入中分一杯羹的公司并不在少数,其中包括Groq、Cerebras Systems和SambaNova Systems等AI芯片初创公司。亚马逊的云计算同行微软(Microsoft)和谷歌(Google)也在开发自己的AI芯片,目标是减少对英伟达的依赖。
在2018年之前,亚马逊早就在为客户开发自己的硬件,该公司于2018年发布了一款名为Graviton的中央处理器,该处理器基于英国芯片设计公司Arm的处理器架构。亚马逊高管表示,该公司的目标是复制Graviton的成功经验,即向客户证明,与市场领导者相比,Graviton的成本更低,但功能毫不逊色。
奥斯汀Annapurna Labs提供支持
AWS的核心研发力量位于得克萨斯州奥斯汀,那里有一家由以色列微电子公司Annapurna Labs运营的AI芯片实验室。亚马逊在2015年以约3.5亿美元的价格收购了Annapurna。
在亚马逊收购之前加入Annapurna的产品和客户工程总监Gadi Hutt表示,Annapurna创立之初就有这个芯片实验室,当时该公司希望在芯片巨头已经设有办事处的地点立足。
该实验室的工程总监Rami Sinno说,在实验室里,工程师们可能今天在装配车间,明天去干焊接的活儿。任何需要做的事情他们都会马上去做——这种拼劲十足的心态在初创公司中更为常见,而在亚马逊这样的万亿美元市值公司中则不然。
Sinno说,这是有意为之,因为Annapurna不像业内其他公司那样寻找专精某一方面的人才。例如,该公司要找的电路板设计师同时还要精通信号完整性和电力传输,而且还要会写代码。
“我们同时设计芯片、内核、完整的服务器和机架。我们不会等到芯片准备好了才开始围绕它设计电路板,”Sinno说,“这使得团队能够以超快的速度推进工作。”
AWS在2018年宣布推出Inferentia,这是一款专门用于推理的机器学习芯片,推理是指通过AI模型运行数据以生成输出的过程。亚马逊高级副总裁兼杰出工程师James Hamilton说,该团队首先瞄准推理,因为与训练相比,推理的任务难度略低。
2020年,Annapurna首款面向客户训练AI模型的芯片Trainium已经准备就绪。去年,亚马逊宣布推出Trainium2芯片,该公司称现在所有客户都可以使用这款芯片。AWS还表示,该公司目前正在开发Trainium3和基于Trainium3的服务器,其功能将是基于Trainium2的服务器的四倍。
越大越好
随着AI模型和数据集变得越来越大,为其提供动力的芯片和芯片集群也越来越大。科技巨头们不仅从英伟达购买更多芯片,或者设计自己的芯片;它们现在还试图在一个地方塞入尽可能多的芯片。
这是由Annapurna和Anthropic合作打造的亚马逊芯片集群的一个目标:让Anthropic使用该集群来训练和运行其未来的AI模型。AWS表示,按百亿亿次浮点运算(exaflop)能力衡量,该集群的能力是Anthropic现有训练集群的五倍。相比之下,埃隆·马斯克(Elon Musk)的xAI最近打造了一台名为Colossus的超级计算机,配备了10万枚英伟达Hopper芯片。
“服务器规模越大,解决特定问题所需的工作就越少,整个训练集群的效率就越高,”Hamilton说。“一旦你意识到这一点,你就会开始努力尽可能地升级每台服务器的大小和能力。”
亚马逊的Ultraserver将64个芯片集成到单一封装中,由四台服务器组成,每台服务器包含16个Tranium芯片。Brown说,相比之下,某些英伟达GPU服务器包含八个芯片。这些服务器连接在一起作为一个服务器工作,提供每秒高达83.2千万亿次浮点运算,为了实现这一点亚马逊还有一个秘诀,那就是该公司自有的NeuronLink网络连接技术,通过这项技术可以实现所有四台服务器通信。
亚马逊表示,这是在不导致过热的情况下,该公司能够在Ultraserver中封装的最大芯片数量。Hamilton说,从尺寸上看,它更接近于冰箱大小的大型机,而不是小型个人电脑。
但Brown和其他高管表示,从中传递的信息并不是绝对地“选择我们还是英伟达”。亚马逊表示,该公司希望告诉客户的是,他们可以在其云平台上坚持使用自己喜欢的任何硬件组合。
AI编码初创公司Poolside的联合创始人兼首席技术官Eiso Kant表示,与在英伟达GPU上运行其AI模型相比,这将节省大约40%的成本。但缺点是,这家初创公司需要工程师花费更多时间才能让亚马逊的相关芯片软件运行。
然而,Kant说,亚马逊直接通过台积电(Taiwan Semiconductor Manufacturing Co.)制造芯片,然后配置到自己的数据中心,这对Poolside来说是一个“安全的选择”。他说,这个选择非常关键,因为即使是六个月的硬件延迟也可能意味着其业务的终结。
苹果公司机器学习和AI高级总监Benoit Dupin周二上台表示,这家智能手机巨头正在测试Trainium2芯片,预计将节省约50%的成本。
隐藏计算层
分析人士表示,对大多数企业来说,选择英伟达还是亚马逊并不是一个紧迫的问题。这是因为大公司主要关心的是如何通过运行AI模型来获得价值,而不是深入了解实际训练的细节。
这种市场趋势对亚马逊来说是件好事,因为它并不真的需要客户去了解底层技术。亚马逊可以与云数据公司Databricks等企业合作,将Trainium隐藏在幕后运行,大多数企业不会注意到任何区别,因为它们只需要计算正常运行,而且成本越低越好。
市场研究和IT咨询公司Gartner的分析师Chirag Dekate表示,亚马逊、谷歌和微软都在开发自己的AI芯片,因为这些公司知道,定制设计可以节省时间和成本,同时提高性能。他说,这些公司的定制硬件可以提供非常具体且可能优于通用GPU性能的并行处理功能。
金融服务和研究公司Redburn Atlantic的分析师Alex Haissl表示,AWS在AI不太引人关注的领域也拥有“被低估”的优势,包括网络连接、加速器及其供企业使用AI模型的平台Bedrock。
不过,亚马逊领导层对AWS的芯片雄心能够走多远有清醒认识,至少目前是这样。
AWS首席执行官Garman表示:“实际上,我认为大多数公司很长一段时间内可能都会选择英伟达,因为目前英伟达芯片承担了99%的工作负载,所以这种情况可能不会改变。”但他说:“希望Trainium能够很好地开拓出一个利基市场,我真的认为它将成为承担许多、而非所有工作负载的绝佳选择。”