您的位置:主页 > 公告动态 > 期货市场资讯 > 期货市场资讯
围攻英伟达,三大巨头的芯片再出招!-国际黄金
替换英伟达,甚至说干掉英伟达已经不是什么新鲜事了。
依附其GPU的*优势,英伟达已往几年炙手可热,乘着ChatGPT热潮,公司的市值从今年年头至今更是大涨了93.6%,已往五年的涨幅更是到达惊人的385%。虽然GPU是英伟达的最主要倚仗,但这绝不是美国芯片“当红炸子鸡”的*武器。
通过已往几年的收购和自研,英伟达已经打造起了一个涵盖DPU、CPU和Switch,甚至硅光在内的多产物线巨头,其目的就是想在一个服务器甚至一个机架中做许多的生意。但和许多做GPGPU或者AI芯片的竞争对手想取替GPU一样,英伟达的“取替”设计似乎也不是不能一帆风顺。
克日,三巨头更是再次脱手,想把英伟达拒之门外。
01 博通芯片,瞄准Infiniband
熟悉博通的读者应该知道,面向Switch市场,美国芯片巨头拥有三条高端产物线,划分是面向高带宽需求的Tomahawk、面向更多功效的 Trident,以及虽然带宽不高,然则却拥有更深的Buffer和更高可编程性的Jericho。
昨日,他们带来了Jericho系列最新的产物Jericho3-AI。在他们看来,这是比英伟达Infiniband更适合AI的一个新选择。
据博通所说,大公司(甚至 NVIDIA) 都以为 AI 事情负载会受到网络延迟和带宽的限制,而Jericho3-AI 的存在则旨在削减 AI 训练时代花在网络上的时间。其结构的主要特征是负载平衡以保持链路不拥塞、结构调剂、零影响故障转移以及具有高以太网基数(radix)。
博通强调,AI 事情负载具有怪异的特征,例如少量的大型、耐久流,所有这些都在 AI 盘算周期完成后同时最先。Jericho3-AI 结构为这些事情负载提供最高性能,具有专为 AI 事情负载设计的怪异功效:
*的负载平衡将流量平均漫衍在结构的所有链路上,确保在最高网络负载下实现*网络行使率。
端到端流量调剂的无拥塞操作可确保无流量冲突和发抖。
超高基数怪异地允许 Jericho3-AI 结构将毗邻扩展到单个集群中的 32,000 个 GPU,每个 800Gbps。
零影响故障转移功效可确保在 10 纳秒内自动收敛路径,从而不会影响作业完成时间。
行使这一怪异的功效,与 All-to-All 等要害 AI 基准测试的替换网络解决方案相比,Jericho3-AI 结构的事情完成时间至少缩短了 10%。这种性能改善对降低运行 AI 事情负载的成本具有乘法效应,由于它意味着昂贵的 AI 加速器的使用效率提高了10%。此外,Jericho3-AI 结构提供每秒 26 PB 的以太网带宽,险些是上一代带宽的四倍,同时每千兆比特的功耗降低 40%。
此外,Broadcom 示意,由于它可以处置 800Gbps 的端口速率(对于 PCIe Gen6 服务器)等等,以是它是一个更好的选择。对于将“AI”放在产物名称中,Broadcom 并没有做出过多解读,甚至关于网络 AI盘算功效,他们也没涉及,这着实让人摸不着头脑,由于这是英伟达Infiniband 架构的主要卖点。
只管云云,Broadcom 示意其 Jericho3-AI 以太网在 NCCL 性能方面比 NVIDIA 的 Infiniband 好约莫 10%。
“Jericho3-AI 结构的一个怪异之处在于它提供了最高的性能,同时还实现了*的总拥有成本。这是通过长距离 SerDes、漫衍式缓冲和高级遥测等属性实现的,所有这些都使用行业尺度以太网提供。这些因素为*的硬件和软件提供商生态系统提供了网络架构和部署选项的高度天真性。”博通强调。
02 微软,自研芯片再曝希望
由于ChatGPT大火的企业除了英伟达外,作为ChatGPT投资人的微软也备受关注。在半导体行业考察日前公布的文章中我们也披露,为了生长ChatGPT,微软已经抢购了不少GPU。随着算力需求的增添,微软在后续必须要更多的芯片支持。
安聪慧:新能源汽车的终极未来
若是一如既往地购置英伟达GPU,这对英伟达来说会是一笔昂贵的支出,他们也会为此不爽。于是,就恰如其分地,微软的自研芯片有了更多信息曝光。
据路透社引述The Information 的报道,微软公司正在开发自己的代号为“Athena”的人工智能芯片,该芯片将为 ChatGPT 等人工智能谈天机械人背后的手艺提供支持。
凭证该讲述,这些芯片将用于训练大型语言模子和支持推理——这两者都是天生 AI 所需要的,例如 ChatGPT 中使用的 AI 来处置大量数据、识别模式并确立新的输出来模拟人类对话。讲述称,微软希望该芯片的性能优于现在从其他供应商处购置的芯片,从而为其昂贵的 AI 事情节约时间和款项。
虽然现在尚不清晰微软是否会向其 Azure 云客户提供这些芯片,但据报道,这家软件制造商设计最早于明年在微软和 OpenAI 内部更普遍地提供其 AI 芯片。据报道,该芯片的初始版本设计使用台积电 (TSMC) 的 5 纳米工艺,不外作为该项目的一部门,可能会有多代芯片,由于微软已经制订了包罗多个后裔芯片的蹊径图。
据报道,微软以为自己的 AI 芯片并不能直接替换 Nvidia 的芯片,但随着微软继续推动在Bing、Office 应用程序、GitHub和其他地方推出 AI 驱动的功效,内部的起劲可能会大幅削减成本。研究公司 SemiAnalysis 的 Dylan Patel 也告诉The Information,“若是 Athena 具有竞争力,与 Nvidia 的产物相比,它可以将每芯片的成本降低三分之一。”
关于微软造芯,最早可以追溯到2020年。据彭博社在那时的报道,微软公司正在研究用于运行公司云服务的服务器盘算机的内部处置器设计,以促进全行业削减对英特尔公司芯片手艺依赖的起劲。知情人士透露,这家全球*的软件制造商正在使用Arm的设计来生产将用于其数据中央的处置器。它还在探索使用另一种芯片来为其部门 Surface 系列小我私人电脑提供动力。
近年来,微软加大了处置器工程师的招聘力度,在英特尔、超微、英伟达等芯片制造商的后院招聘。2022年,他们甚至还从苹果公司挖走了一位履历厚实的芯片设计师,以扩大自身的服务器芯片营业。据报道,这位名为Mike Filippo 的资深专家将在由 Rani Borkar 运营的微软 Azure 团体内从事处置器方面的事情。微软谈话人证实了 Filippo 的聘用,他也曾在 Arm和英特尔公司事情过。
今年年头,微软更是宣布收购了一家名为Fungible的DPU芯片公司。
微软 Azure 焦点部门的 CVP Girish Bablani 在一篇博文中写道:“Fungible 的手艺有助于实现具有可靠性和平安性的高性能、可扩展、剖析、横向扩展的数据中央基础设施”。他进一步指出:“今天的通告进一步注释微软致力于数据中央基础设施举行耐久差异化投资,这增强了公司的手艺和产物局限,包罗卸载、改善延迟、增添数据中央折务器密度、优化能源效率和降低成本。”Fungible 在其网站上的一份声明中写道。“我们很自豪能成为一家拥有 Fungible 愿景的公司的一员,并将行使 Fungible DPU 和软件来增强其存储和网络产物。”
由此我们可以看到微软在芯片上做更多的公布也无独有偶。
03 谷歌TPU,已经第四代
在取代英伟达的这条路上,谷歌无疑是其中最坚定,且走得最远的一个。
根据谷歌所说,公司谷歌早在 2006 年就思量为神经网络构建专用集成电路 (ASIC),但到 2013 年情形变得紧迫。那时他们意识到神经网络快速增进的盘算需求可能需要我们将数目 增添一倍我们运营的数据中央。从2015年最先,谷歌就将其TPU部署到了服务器中,并在后续的测试中获得了不邵的反馈,以迭代其产物。
克日,谷歌对其TPUv4及其基于这个芯片的打造的超级盘算系统举行了深度披露。
据他们在一篇博客中先容,得益于互连手艺和领域特定加速器 (DSA) 方面的要害创新,谷歌云 TPU v4 在扩展 ML 系统性能方面比 TPU v3 有了近 10 倍的飞跃;与现代 ML DSA 相比,提高能源效率约 2-3 倍。在与Nvidia A100 相比时,谷歌示意,TPU v4比前者快 1.2-1.7 倍,功耗低 1.3-1.9 倍。在与Graphcore的IPU BOW相比,谷歌示意,其芯片也拥有*的优势。
基于这个芯片,谷歌打造了一个拥有 4,096 个张量处置单元 (TPU)的TPU v4 超级盘算机。谷歌示意,这些芯片由内部开发的行业*的光电路开关 (OCS) 互连,OCS 互连硬件允许谷歌的 4K TPU 节点超级盘算机与 1,000 个 CPU 主机一起运行,这些主机有时(0.1-1.0% 的时间)不能用而不会引起问题。
据谷歌先容,OCS 动态重新设置其互连拓扑,以提高规模、可用性、行使率、模块化、部署、平安性、功率和性能。与 Infiniband 相比,OCS 和底层光学组件更廉价、功耗更低且速率更快,不到 TPU v4 系统成本的 5% 和系统功耗的 5% 以下。下图显示了 OCS 若何使用两个 MEM 阵列事情。不需要光到电到光的转换或耗电的网络分组交流机,从而节约了电力。
值得一提的是,TPU v4 超级盘算机包罗 SparseCores,这是一种更靠近高带宽内存的中央芯片,许多 AI 运算都发生在该芯片上。SparseCores 的观点支持 AMD、英特尔和高通等公司正在研究的新兴盘算架构,该架构依赖于盘算更靠近数据,以及数据收支内存之间的协调。
此外,谷歌还在算法-芯片协同方面做了更大的投入。如半导体行业考察之前的文章中所说;“随着摩尔定律未来越来越靠近物理极限,预计未来人工智能芯片性能进一步提升会越来越倚赖算法-芯片协同设计,而另一方面,由于有算法-芯片协同设计,我们预计未来人工智能芯片的性能仍然将保持类似摩尔定律的靠近指数级提升,因此人工智能芯片仍然将会是半导体行业未来几年最为热门的偏向之一,也将会成为半导体行业未来继续生长的主要引擎。”
04 写在最后
综合上述报道我们可以直言,对于英伟达而言,其面临的挑战是方方面面的,而不是仅仅局限于其GPU。其对手也不仅仅是芯片公司,因此若何在规模化优势的情形下,保证其高性价比,是安然渡过未来潜在挑战的有用方式之一。
不外,可以一定的是,围绕着数据中央的创新远未靠近住手,甚至可以说由于大模子的盛行,这场战斗才刚刚最先。