您的位置:主页 > 公告动态 > 期货市场 > 期货市场

算力狂欢,谁是「我国版」英伟达?

ChatGPT意外掀起的一波AI革新,再次带火了AI芯片商场。

“A800 和 H800 这类芯片,从本来的12万人民币左右,变成了现在25万乃至30万,乃至有高达50万一片。”这是发生在国内芯片分销圈的实在一幕,除了价格不断暴升,国内大厂想大批量拿芯片,还要得和黄仁勋“有直接联系”。

正所谓“无芯片,不AI”,跟着大模型的算力需求飙升,身为AI技能地基的芯片迎来了重要商机。OpenAI曾估量,人工智能科学研讨要想取得打破,所需求耗费的核算资源每3到4个月就要翻一倍,资金也需求经过指数级添加取得匹配,这也被称为人工智能范畴的“摩尔定律”。

英伟达CFO克雷斯表明,现在AI 算力商场的需求现已超出了公司对未来数个季度的预期,订单现已多到做不过来。

生成式AI这波浪潮,让英伟达赚了个盆满钵满。在上市14年之后,英伟达成功跻身万亿美元市值沙龙,而完结这一方针,硅谷巨子们比如苹果用了37年、微软用了33年、亚马逊用了21年,特斯拉跑得最快,只用了11年。

这也影响着我国芯片企业摩拳擦掌,比如海光信息、寒武纪、龙芯中科、壁仞科技、天数智芯等国产芯片企业,都怀揣一颗“我国版”英伟达的大志,测验凭自研为国产大模型赋能。一些大厂也开端用自研AI芯片支撑模型的部分练习或推理使命,如百度昆仑芯片、阿里含光800......

面临AI算力带来的万亿商场,国内企业能不能吃到这波盈利呢?国产芯片厂商该怎么跳过英伟达“高山”?这是任何一家公司都无法躲避的问题。

01、AI狂潮缔造了一个万亿市值的英伟达

爱穿皮衣的男人*吃到了AI盈利。

2022年末,ChatGPT面世后,敏捷在全世界引起了 AI 狂潮。在这其间,一向押注AI未来的英伟达,成为了ChatGPT浪潮中获益最多的公司之一。在本年的英伟达GTC大会上,英伟达创始人CEO黄仁勋披露了全新的人工智能及芯片技能,并称人工智能的“iPhone时间”现已到来。

在发布会上,黄仁勋表明,相似ChatGPT的大型言语模型的布置是一个重要的全新推理作业负载,为了支撑大型言语模型推理,英伟达发布了一系列环绕 AI 范畴的产品和服务,其间,选用全新架构和更先进制程的 H100 芯片最为有目共睹。

这款 GPU是依据 NVIDIA Hopper 架构的 H100 ,配有一个 Transformer 引擎,旨在处理驱动相似ChatGPT的 预练习模型。与用于 GPT-3 处理的 HGX A100 比较,装备四对 H100 与双 GPU NVLink 的规范服务器的练习速度可提10 倍。

“H100能够将大言语模型的处理本钱下降一个数量级。”黄仁勋曾表明。依据H100芯片,英伟达还构建了最新的DGX超级核算机,搭载8个H100 GPU,使它们衔接成为一个巨大的GPU,为AI根底设施的构建供给“蓝图”,现在全新的DGX超级核算机现已全面投产。

在这之后,英伟达旗下 A100、H100、A800 和 H800 等高功用 GPU 芯片应声提价,特别旗舰级芯片H100,4 月中旬在海外电商渠道就已炒到超 4 万美元,乃至有卖家标价 6.5 万美元。

一起,英伟达的我国*版 A800 和 H800芯片也遭到了哄抢。“国内大模型企业基本上很难拿得到这些芯片。整个商场需大于求,缺货十分凶猛。”电子元器件收购供货商「广鑫世纪」创始人张觉对芯潮IC坦言:“本年,这类GPU芯片从本来的12万人民币左右,变成了现在是25万乃至30万,乃至有高达50万一片。”。

毫无疑问,英伟达在高功用GPU方面的技能*位置,旗下A100和H100两款AI芯片是ChatGPT这样的大言语模型的中心动力。

一些云核算专业人士以为,1万颗英伟达A100芯片是一个好的AI模型的算力门槛。而微软为OpenAI构建的用于练习其模型的AI超级核算机就装备了1万颗英伟达的GPU芯片。无独有偶,国内各互联网大公司也纷繁向英伟达下大单,据晚点 LatePost报导,字节本年向英伟达订货了逾越 10 亿美元的 GPU,另一家不方便泄漏名字的大公司,其订单也至少逾越 10 亿元人民币。

更夸大的是,这些公司终究能否抢到卡,更多是看商业联系,特别以往是不是英伟达大客户的企业。“你是和我国英伟达谈,仍是去美国找老黄(黄仁勋)直接谈,都有不同。” 

由此,英伟达的财务数据再度攀上新高。5月25日,英伟达发布一季度财报,AI芯片地点数据中心事务的营收创前史新高,坚持10%以上同比增速。

黄仁勋泄漏,现在整个数据中心产品系列都在出产中,都正在大幅添加供给,以满意激增的需求。

一系列好音讯,直接带动英伟达股价节节走高。5月30日晚,美股开盘,英伟达市值直接打破1万亿美元。而7月19日,英伟达总市值更是在一夜间飙升了1750亿美元,再次引发出资热潮。

依据companiesmarketcap网站显现,英伟达总市值排名全球第6,也是现在市值最高的芯片公司,挨近于两个台积电(5336亿美元),本年以来英伟达股价涨幅约180%。不得不供认,这波AI狂潮让黄仁勋的英伟达盆满钵满。

02、英伟达不或许独享算力狂潮

“英伟达不会永久在大规划练习和推理芯片商场占有独占位置。”

这是特斯拉CEO埃隆·马斯克对交际问答网站和在线常识商场Quora的首席执行官Adam D'Angelo一条推文的回应,后者写道:“人工智能热潮被轻视的一个原因是GPU/TPU缺少,这种缺少导致了产品推出和模型练习的各种约束,但这些都不显着。相反,咱们看到的是英伟达的股价飙升。一旦供给满意需求,作业就会加快开展。”

显着,硅谷钢铁侠对此并不认同,他还评论称:“许多其他的神经网络加快器芯片也在开发中,英伟达不会永久独占大规划练习和推理。

一场风暴行将来袭。

以大模型为中心的AI狂潮,能带动多大的算力商场?东吴证券以为,AI模型算力需求继续扩张,翻开高功用核算芯片的商场需求,估量2025年我国AI芯片商场规划将到达1780亿元,2019-2025复合年均添加率可达42.9%。从商场规划来看,AI芯片上处于起步阶段,但添加潜力巨大。

而AI芯片是一个广义概念,泛指专门用于处理人工智能运用中的核算使命的模块,是诞生于人工智能运用快速开展年代的处理核算使命硬件,但凡面向人工智能运用的芯片均被称为AI芯片。首要的技能道路有三种:通用型(GPU)、半定制型(FPGA)、定制型(ASIC)。

从大模型的练习、场景化的微调以及推理运用场景来看,以CPU AI芯片供给的异构算力,并行核算才干优胜、具有高互联带宽,能够支撑AI核算效能完结*化,成为智能核算的干流解决方案

从商场份额来看,据艾瑞咨询测算,到2027年,我国的AI芯片商场规划估量将到达2164亿元。跟着AI模型的优化落地,AI推理芯片的占比将日益进步。2022年,我国AI练习芯片以及AI推理芯片的占比分别为47.2%和52.8%。

现在,在AI芯片范畴有三类玩家:一种是以英伟达、AMD为代表的老牌芯片巨子,产品功用杰出;其二是以Google、百度、华为为代表的云核算巨子,这些企业纷繁布局通用大模型,并自己开发了AI芯片、深度学习渠道等支撑大模型开展。比如,华为的鲲鹏昇腾、CANN及Mindspore,百度的昆仑芯等。最终还有一些小而美的AI芯片独角兽,如寒武纪、壁仞科技、天数智芯等。

虽然国产大模型迸发,或许引发算力缺口,但国内芯片厂商吃上国产代替这波盈利仅仅时间问题。作为AI练习芯片研制商,“AI芯片*股”寒武纪再次得到商场重视,股价不断拉升,最新市值打破900亿。

在云端产品线,寒武纪现已推出了四代芯片产品:2018年的思元100、2019年的思元270、2020年的思元290(车载)、以及2021年发布的思元370系列,用以支撑在云核算和数据中心场景下杂乱度和数据吞吐量高速添加的人工智能处理使命。此外,寒武纪还有一款在研产品思元590,没有发布。此外,2022年末,思元370系列与AIGC产品百度飞桨完结II级兼容性测验。

但国内大模型公司是否选用了寒武纪芯片,没有得到精确音讯。“在高端AI芯片范畴,国产厂商处于刚刚起步的阶段,许多东西需求时间和金钱验证。”某资深芯片工程师裸露。哪怕是华为、百度、海光信息等企业的芯片也与英伟达产品有着显着间隔。

曾有人坦言,英伟达与其他芯片厂商的间隔,是院士与高中生的不同。就如同黄仁勋所言,英伟达“一向在奔驰”,想要逾越伟人的其它芯片厂商只能奋力狂奔。

03、AI大模型背面的“权利游戏”

除了英伟达之外,另一个GPU巨子AMD,最近也有了举动。

近来,AMD发布最新加快卡,就在AMD推出最新加快卡Instinct MI300X的发布会现场,PPT上专门打出一行字——大言语模型专用,这被业界视为直接向英伟达宣战!

据悉,MI300X的高带宽内存(HBM)密度,最高可达英伟达H100的2.4倍,高带宽内存带宽最高可达H100的1.6倍,显着MI300X能运转比H100更大的AI模型。

MI300X地点的MI300系列,是AMD为AI和HPC打造的一系列最新APU加快卡。其间,MI300A是“根底款”,MI300X则是硬件功用更高的“大模型优化款”。

现在来看,MI300A现已出样,估量不久就能买上;大模型专用卡MI300X、以及集成8个MI300X的AMD Instinct核算渠道,估量本年第三季度出样,第四季度就能推出。

这几年来,比较英伟达一向在AI范畴的大动作,AMD的举动显得有点缓慢。正如DeepBrain AI的CEO Eric Jang所言,感觉AMD这几年让他很绝望,5年来没什么改变。特别是在AIGC的迸发进程中,假如AMD不尽力跟上,间隔只会越拉越大。

跟着AMD此次MI300系列产品的推出,总算能看到AMD和英伟达正面打擂台了。

但惋惜的是,商场对AMD的新卡如同不太合作。

就在这次AMD发布会期间,其股价不升反降。比较之下,英伟达股价还上涨了一波。商场心情也不难理解,由于在高科技范畴,特别是新式商场,一步快步步快、强者恒强正在成为商业商场的遍及逻辑。

但其实细究原因也能发现,英伟达独占人工智能练习芯片商场的首要原因是其自研的CUDA生态。所以AMD MI300想要代替英伟达,首要需求兼容英伟达的CUDA生态,AMD为此推出ROCm生态圈,并完结经过HIP彻底兼容CUDA,借此来削减用户已知本钱。

对此,闻名出资博主慕容衣以为,走兼容英伟达 CUDA 的道路的难点在于其更新迭代速度永久跟不上 CUDA ,而且很难做到彻底兼容,即一方面迭代永久慢一步。英伟达 GPU 在微架构和指令集上迭代很快,在上层软件仓库上许多当地也要做相应的功用更新,可是 AMD 不或许知道英伟达的产品道路图,软件更新永久会慢英伟达一步(例如 AMD 有或许刚宣告支撑了 CUDA11, 可是英伟达现已推出 CUDA12了);另一方面,难以彻底兼容反而会添加开发者的作业量,像 CUDA 这样的大型软件自身架构很杂乱,AMD 需求投入许多人力物力用几年乃至十几年才干追赶上,由于不免存在功用差异,假如兼容做欠好反而会影响功用。所以,这些也是咱们现在不太合作的要害原因。

据Khaveen Investments测算,英伟达数据中心GPU 2022年市占率高达88%,AMD和英特尔分割剩余的部分。

自从上一年OpenAI发布ChatGPT以来,新一轮科技革新继续发酵。能够说,许多年都没有哪一项科技进步如ChatGPT这般招引全球的目光

国内外各个科技公司、科研机构、高等院校都在跟进,不到半年时间,就跑出了十分多的大模型运用的创业公司,融资规划也屡创新高。

据知乎博主wgang收拾,包含百度、科大讯飞、第四范式、清华、复旦在内的国内各个大厂、创业公司、科研院校都相继发布了大模型产品:

图源:知乎wgwang

能看到,不仅是在通用范畴,在详细的职业场景,特别是一些专业性强、常识密度高的范畴,科技公司们也在纷繁发布笔直范畴的大模型。比如美股上市公司百家云(RTC)结合对企业服务需求的洞悉,近来发布了AIGC产品「商场易」,这也是*适用于企业商场部内容出产场景的GPT大模型引擎。

有业内人士笑称:“国产大模型已形成群模乱舞、百模大战的局势,估量到年末会有逾越100个的大模型。”

但是,大模型的开展需求算法、算力、数据三大重要要素的支撑,算力是大模型练习的重要能量引擎,也是现在国内开展大模型工业的一大壁垒。

芯片才干直接影响着高算力练习作用和速度。上文说到,虽然国产大模型产品频出,但从其背面支撑的芯片来看,所有这些渠道运用的要么是英伟达 A100、H100 GPU,要么是上一年禁令后英伟达专门推出的减配版 A800、H800,这两款处理器带宽分别是原版的约3/4和约一半,避开了高功用 GPU 的约束规范。

本年 3 月,腾讯首先宣告已用上H800,在腾讯云发布的新版高功用核算服务中已运用了 H800,并称这是国内首发。

阿里云也在本年 5 月对内提出把 “智算战争” 作为本年的头号战争,GPU数量成为其战争的重要目标。

此外,商汤也声称,其 “AI 大设备” 核算集群中已一共布置了近3万块GPU,其间有1万块是英伟达A100。字节和美团则直接从公司其他事务团队那里匀出GPU供大模型练习运用。乃至有厂家自2022年下半年起就继续在商场中寻找能拆出A100的各类整机产品,意图仅是取得GPU芯片。“机子太多,寄存的当地都不够用。”

据了解,国内头部科技企业在AI和云核算方面投入较大,曩昔A100的堆集都到达上万块

与此一起,我国科技大厂还在进行新一轮的收购竞赛。

据某云服务商泄漏,字节、阿里等大公司首要是和英伟达原厂直接谈收购,代理商和二手商场难以满意其巨大需求。

正如上文说到的,字节跳动本年已向英伟达订货了逾越10亿美元的GPU产品,仅字节一家公司本年的收购量就现已挨近英伟达上一年在我国出售的商用GPU总出售额。报导称,还有另一家大公司的订单也至少逾越 10 亿元。

可见,我国大科技公司关于收购GPU十分急切。

不止国内企业,国外大客户对英伟达的A100/H100芯片需求相同十分激烈。据数据核算,最早开端测验类ChatGPT产品的百度,2020年以来的年本钱开支在8-20亿美元之间,阿里在60-80亿美元之间。同期,亚马逊、Meta、Google、微软这四家自建数据中心的美国科技公司的年本钱开支最少均超过150亿美元

现在英伟达订单能见度已至2024年,高端芯片十分紧缺。以现在的排产进展,就连A800/H800都要到本年末或下一年才干交货。短期内,从其受追捧程度来看,*影响英伟达高端GPU销量的或许只要台积电的产能。

04

“疯抢”英伟达背面,国产芯片软硬皆缺乏?

从大模型产品芯片供给状况来看,在AI大模型练习上,现在A100、H100及其*我国的减配版A800、H800找不到代替品。

那么,为什么在这一轮GPT热潮中,英伟达首先跑出来并体现出色?

华映本钱办理合伙人章高男表明,一方面是由于英伟达布局最早,其微内核结构也是一代一代去演进和改善的。现在无论是从并发才干、总线速度,仍是微内核对矩阵改换的老练支撑,其才干现已十分高效,包含它一起供给十分完善的CUDA核算渠道,事实上现已成为深度学习算法完结的潜在职业规范,整个工业链的配套也十分完好,归纳竞赛壁垒和护城河深度极高。

总结来看,英伟达GPU现在的不行代替性,源自负模型的练习机制,其间心进程是预练习(pre-training)和微调(fine-tuning),前者是打根底,适当于承受通识教育至大学毕业;后者则是针对详细场景和使命做优化,以进步作业体现。

那么,国产GPU芯片是否能够支撑大模型的算力需求呢?

在实践运用中,大模型关于算力的需求分为两个阶段,一是练习出ChatGPT大模型的进程;二是将这个模型商业化的推理进程。即AI 练习是做出模型,AI 推理是运用模型,练习对芯片功用要求更高。

依据此,国产AI芯片公司继续出现,连续发布产品推向商场。燧原科技、壁仞科技、天数智芯、寒武纪等公司都推出了自己的云端GPU产品,且理论功用目标不弱。海光信息的DCU芯片“深算一号”软硬件生态相对完好,且能够兼容CUDA架构。而腾讯、百度、阿里等互联网大厂也经过出资、孵化等方法在AI芯片范畴大力布局。

其间,大模型练习需求处理高颗粒度的信息,对云端练习芯片的芯片处理信息的精密度和算力速度要求更高,现阶段国产GPU大多还不具有支撑大模型练习所需的才干,更合适做对信息颗粒度要求没有那么高的云端推理作业。

国内部分相关企业AI产品与运用  芯潮IC据揭露材料收拾

本年3月,百度李彦宏曾揭露表明,昆仑芯片现在很合适做大模型的推理,将来会合适做练习。

天数智芯副总裁邹翾也向芯潮IC表明,国产芯片间隔英伟达最新产品仍存在必定间隔,不过在推理运算方面国产芯片能够做到不输干流产品的功用实力,而跟着人工智能的运用遍及,推理芯片的商场需求将加快添加,跟着需求的扩展,国产芯片也将具有更大的商场。

还有不乐意泄漏名字的业内人士表明“国内通用GPU产品确实在满意大模型练习上与世界旗舰产品存在间隔,但并非不行补偿,仅仅此前职业在产品界说里未朝着大模型方向做规划。”

现在,职业从业者在做相关的探究和尽力,如考虑能否经过Chiplet、先进封装的方法来进步芯片算力。现在国产GPU公司都在朝着大模型范畴去做芯片开发和布局。

而从本钱视点来看,华映本钱办理合伙人章高男向芯潮IC表明,华映很早就高度重视算力根底设施,无论是GPU、DPU仍是更前沿的光电混合核算,量子核算,都有针对性研讨和布局。全体上则侧重于通用算力根底设施,比如FPGA、边际核算等。比较之下,现在许多环绕深度学习、特别算法、部分算力优化等的算力芯片并不是其考虑的要点。

实践上,除了硬件功用间隔外,软件生态也是国产AI芯片厂商的短板

芯片需求适配硬件体系、东西链、编译器等多个层级,需求很强的适配性,不然会出现这款芯片在某个场景能跑出90%的算力,在另一场景只能跑出80%效能的情形。

上文说到,英伟达在这方面优势显着。早在2006年,英伟达就推出了核算渠道CUDA,这是一个并行核算软件引擎,CUDA结构里集成了许多调用GPU算力所需的代码,工程师能够直接运用这些代码,无须逐个编写。开发者可运用CUDA更高效地进行AI练习和推理,更好的发挥GPU算力。时至今日,CUDA已成为AI根底设施,干流的AI结构、库、东西都以CUDA为根底进行开发。

假如没有这套编码言语,软件工程师发挥硬件价值的难度会变得极大。

英伟达之外的GPU和AI芯片如要接入CUDA,需求自己供给适配软件。据业内人士泄漏,曾触摸过一家非英伟达GPU厂商,虽然其芯片和服务报价比英伟达更低,也许诺供给更及时的服务,但运用其GPU的全体练习和开发本钱会高于英伟达,还得承当成果和开发时间的不确定性。

虽然英伟达GPU价格贵,但实践用起来反而是*的。这对有意捉住大模型时机的企业来说,钱往往不是问题,时间才是更名贵的资源,咱们都必须赶快取得足够多的先进算力来保证先发优势。

因而,关于国产芯片供货商来讲,哪怕能经过堆芯片的方法能堆出一个算力适当的产品,但软件适配与兼容让客户承受更难。此外,从服务器运营的视点,它的主板开支、电费、运营费,以及需求考虑的功耗、散热等问题,都会大大添加数据中心的运营本钱。

由于算力资源常需求以池化的方式出现,数据中心一般更乐意选用同一种芯片,或许同一家公司的芯片来下降算力池化难度。

算力的开释需求杂乱的软硬件合作,才干将芯片的理论算力变为有用算力。对客户而言,把国产AI芯片用起来并不简单,替换云端AI芯片要承当必定的搬迁本钱和危险,除非新产品存在功用优势,或许能在某个维度上供给其他人解决不了的问题,不然客户替换的志愿很低。

作为当时*能够实践处理ChatGPT的GPU供货商,英伟达是名副其实的“AI算力*”。6年前,黄仁勋亲身向OpenAI交付了*台搭载A100芯片的超级核算机,协助后者发明ChatGPT,并成为AI年代的引领者

不过,上一年美国施行出口控制以来,英伟达现已被制止向我国出口两款*进的GPU芯片H100和A100。这关于下流运用企业来说,无疑是遭到冲击的。

从安全性以及自主可控的视点来说,这也为国内芯片企业供给了新的机会窗口。虽然国产芯片在功用和软件生态上比不过英伟达、AMD等职业巨子,但在杂乱的世界贸易联系及地缘政治要素等驱动下,“国产代替”成为国内半导体职业开展的主旋律。

05、结语

算力的每一次进步,都会掀起技能与工业革新的浪潮:CPU带领人类进入PC年代,移动芯片掀起移动互联网浪潮,而AI芯片打破了AI工业此前长达数十年的算力瓶颈。

现在,“人工智能的iPhone时间”现已降临,走向下一个年代的路,或许现已摆在咱们眼前。

虽然这些数据中心的AI芯片、软件体系等范畴仍是国外厂商的全国,但现在,“算力国产化”的商场大门或许正在翻开。