挑战英伟达，谁最可能成为颠覆者？

·“科技巨头的容错能力强，每一次科技领域的革命并不源于大公司犯错，而是源于一项新兴技术的快速崛起。老公司的退潮和新公司的崛起都是时代变化所致。在芯片领域，也许未来会出现适用于大模型的更专用的芯片，而带来这一革命的也许是一家没有历史包袱的新兴公司。”

在人工智能浪潮里掘金的“铲子”成了硬通货。

GPU（图形处理器）是发展人工智能的关键芯片，科技巨头英伟达凭借其GPU在人工智能芯片市场一家独大，占据约80%的份额。

当地时间2024年3月19日，美国加州圣何塞，英伟达2024 GTC AI大会举行，正式推出名为Blackwell的新一代AI图形处理器（GPU）。视觉中国资料图

AI芯片价格高昂，依然稀缺，Meta、谷歌、超威半导体（AMD）、英特尔、微软等科技巨头纷纷挑战英伟达的市场统治，推出对标产品。芯片大战愈演愈烈，谁是潜在颠覆者？

芯片大战愈演愈烈

H100芯片（英伟达于2022年公布的一款GPU芯片）供不应求，虽然英伟达今年3月又推出了H100的继任者——新一代人工智能芯片B200。但大大小小的企业都在寻求替代英伟达的GPU，试图破解AI芯片市场的一家独大的现状。

当地时间4月10日，Meta公布新一代Meta训练和推理加速器（MTIA）的计算和内存带宽是上一代解决方案的2倍多。最新版本芯片有助于驱动Meta在Facebook和Instagram上的排名和推荐广告模型。

就在前一天，英特尔也公布了人工智能芯片细节对抗英伟达。英特尔用于AI训练和推理的Gaudi 3加速器预计可大幅缩短70亿和130亿参数Llama2模型以及1750亿参数GPT-3模型的训练时间。英特尔表示，Gaudi 3芯片比英伟达H100训练特定大语言模型的速度快50%。

谷歌专用于训练生成式AI大模型的下一代加速器TPU v5p也通过谷歌云服务上线。微软首款人工智能芯片Maia 100预计今年上市。

去年12月，AMD推出了MI300人工智能加速器系列产品。其中MI300X拥有1530亿个晶体管，是适用于人工智能计算的高级GPU，专为大语言模型训练而设计，MI300A将图形处理功能与标准中央处理器（CPU）相结合，面向人工智能和科学研究。AMD表示，其MI300人工智能加速器正成为其历史上营收增长最快的产品，称其MI300X芯片的推理性能优于英伟达H100。

“谷歌的TPU已经迭代到了第五代，展现出了非常强大的芯片开发能力，并且结合自己对业务线的理解，能够定义出效率更高的产品。”耀途资本执行董事于光日前对澎湃科技（www.thepaper.cn）评价说。至于英伟达的追赶者AMD也是一个大玩家，AMD作为一个老牌的CPU和GPU厂商，过去在服务器CPU领域形成了追赶反超，如今发力AI芯片，是英伟达较为强劲的竞争对手之一。

也有科技投资人对澎湃科技表示，英特尔在AI芯片方面也一直落后于英伟达。

英特尔2019年以来一直在制造Gaudi芯片，去年12月在“AI无处不在”（AI Everywhere）发布会上发布了Gaudi3芯片。但罗森布拉特证券分析师汉斯·莫塞曼（Hans Mosesmann）表示，“除了英特尔，AI似乎无处不在。”英国投资服务机构AJ Bell投资总监拉斯·莫尔德（Russ Mould）则表示，随着英伟达和AMD等公司的芯片在AI行业发挥越来越重要的作用，英特尔有被甩在后面的危险。

“英伟达的技术、产品和业务处于竞争最为激烈的领域，其特点是技术变革迅速和行业标准不断发展。”深圳中欧基金投资有限公司（即“中欧资本”）董事长张俊对澎湃科技（www.thepaper.cn）表示，未来竞争将更加激烈，竞争来自现有竞争对手和新市场进入者。尤其是新进入者，也是潜在颠覆者。

与其等待大公司犯错，不如创新

英伟达的AI芯片已经成为硬通货。

于光表示，英伟达在AI芯片上的布局深厚，产品适配灵活。“上一波AI浪潮中，出现了各种创新架构的AI芯片玩家，试图颠覆英伟达，但是都没有取得很广泛的成功。最后还是英伟达最先赶上了大模型这波机会。”从这一波浪潮来看，已经有很多玩家希望去做针对当前大模型更加优化的AI芯片，但要说颠覆，依然很难。目前来看，AI企业还无法摆脱英伟达这个角色，“基本上还得依赖英伟达的GPU芯片乃至整体解决方案。”

“从来没有哪一个领域的芯片有今天AI芯片这么大的市场，大到夸张。”国产GPU行业资深人士薛翔告诉澎湃科技（www.thepaper.cn），“芯片行业有一个说法，一个领域的芯片，只能有两家公司活得很好，第一家占80%市场份额，第二家占20%。”

过去，英特尔的CPU市场大，但单价低；而英伟达H100芯片单价超过了20万元人民币。特斯拉CEO马斯克曾透露，特斯拉今年仅在英伟达AI芯片上就要花5亿美元。这看似是一笔巨款，但实际上只相当于大约1万块H100。“很多公司发现，一年买10万张英伟达的加速卡，成本一点也不划算，不如养一个团队自己研发。”薛翔说，这是一个商业选择。

正如Meta斥资数十亿美元购买英伟达和其他公司的人工智能芯片，面对不断膨胀的算力需求，Meta走上自研之路，减少对英伟达的依赖，降低成本。ChatGPT之父、OpenAI首席执行官山姆·奥特曼也在拉拢中东投资者和芯片制造商，欲筹数十亿美元建芯片公司，构建半导体工厂网络。日本软银集团创始人兼首席执行官孙正义则计划为AI芯片企业筹资1000亿美元，与英伟达竞争。

科技巨头的容错能力强，每一次科技领域的革命并不源于大公司犯错，而是源于一项新兴技术的快速崛起。“老公司的退潮和新公司的崛起都是时代变化所致。”薛翔说，在芯片领域，也许未来会出现适用于大模型的更专用的芯片，而带来这一革命的也许是一家没有历史包袱的新兴公司。所以，与其等待大公司犯错，不如自我创新。

但于光认为，在国外的芯片创新生态里，创业公司很难颠覆芯片巨头。不同于大模型的快速迭代，AI芯片开发周期长，人力、物力投入大。“创业型AI芯片公司可以通过芯片架构的创新获得融资，然后迭代出前面几代产品，最后的路径有可能还是被那些大厂收购，因为真正到工程量产和商业化阶段，大厂更有优势。”

开发AI芯片不能仅盯算力性能

以大模型为代表的人工智能技术突飞猛进，算力需求激增，升级芯片成为必然。薛翔表示，英伟达等国外科技大厂自A100芯片后“刹不住车”，开发的芯片“一代更比一代强”，性能遥遥领先。“现在相当于在直道上开赛车，芯片生产技术和集群技术没有达到物理瓶颈之前，沿着这条路往前面跑可以跑得很快，两三代产品迭代以后会带来非常大的差距。”但薛翔表示，这是正常现象，不需要过于担忧。

目前GPU的存储性能和算力共同决定了大模型的推理速度。但薛翔表示，当前大模型的使用场景对模型生成速度要求并没有那么高。所以用AI芯片做单卡大模型推理时，瓶颈主要在存储。

于光表示，前几年的AI浪潮中，谷歌、Meta等科技巨头根据自身业务需求自研AI定制芯片。如今大模型带来AI迅速变革，这些玩家如何将AI芯片适配当前的大模型算法是共同面对的话题。他同样认为，开发AI芯片不能仅仅盯着算力性能，存储和互联是AI芯片需要解决的问题。

一方面，大模型参数多，需要大容量的存储空间，目前看起来需要塞下这么大的模型必须要用到HBM（一款新型的CPU/GPU内存芯片）。另一方面，数据需要从HBM高速传递给GPU的计算die（没有封装的裸片）, GPU之间需要高速互联例如NVLink（英伟达开发并推出的一种总线及其通信协议）和NVSwitch（英伟达的一种高速交换机技术）来实现高速通信，以及需要更上层的高速组网方式形成计算集群。于光表示。

再者，在薛翔看来，无限制堆参数和芯片更应该是一种科研行为而非应用行为，“那么大的模型运行一次很贵，并不符合商业逻辑。”反观当下，“有一个概念叫AI Infra（人工智能基础设施），基于现有大模型优化硬件和模型，目的是提高效率。”薛翔估计，“优化算力使用效率，优化模型结构，不用堆那么多参数，如果每一个方面都能节省20%，整体可以节省50%多的成本。”

深圳元始智能有限公司（即“RWKV元始智能”）首席运营官罗璇对澎湃科技（www.thepaper.cn）表示，中国大部分模型基于低计算效率的开源模型进行微调或重训练，大部分模型类似于Meta的LLaMA2模型。这是一个基于Transformer架构的大语言模型，从第一性原理角度看，Transformer复杂度过高，算力需求大，未来多智能体、具身智能、世界模型的开发将受限于计算复杂度。这也导致大模型企业被英伟达的GPU“卡脖子”，另一方面英伟达芯片以10倍定价出售，“这是一个非常不正常的算力成本。”

Transformer架构和芯片卡住了大模型商业落地和前端研究，罗璇认为一定要找到新的架构，企业才能跑出PMF（产品市场匹配度）。另一方面，“一定不要买高溢价的算力，大部分的钱是被英伟达赚走的。我们认为接下来会有新的算力把成本打到现在的1/10甚至1%。”站在芯片使用者的角度，罗璇表示，目前国产算力还不够便宜，如何把训练和推理成本降下来，是国产芯片要解决的问题。

本文作者2024-4-15 12:20

Ta的文章

上一篇：

下一篇：

关于我们

产品与服务

解决方案

产品与服务