站在潮头的英伟达与硬件护城河的隐忧

来源:
神译局
发布时间:2024-03-25
收藏收藏
分享
  • 复制链接
  • 微信扫一扫

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:黄仁勋在最近的英伟达大会上的表现可谓风光无限:在人工智能浪潮的推动下,前来聆听这家算力提供商的客户、伙伴和粉丝挤满了整座场馆。但一位知名科技博主却认为这也许是人工智能成为一切主宰之前的最后一场重大发布,憧憬着一块芯片如何改变世界。而英伟达苦心想要打造的硬件护城河,终究会被成为替代品所能带来利益的强大动力冲垮。文章来自编译。

来自华尔街日报:

本周一,当公司首席执行官黄仁勋在一个体育馆里向全世界揭晓了该公司的最新芯片时,英伟达对人工智能的狂热达到了顶点。这一幕被一位分析师说成是“人工智能界的伍德斯托克音乐节”。

众多客户、合作伙伴以及对这家芯片公司抱有极高期望的粉丝们纷纷聚集到 SAP 中心——美国冰球联盟圣何塞鲨鱼队的主场。在那里,他们聆听了黄仁勋为英伟达一场年度大会所做的主旨演讲。今年的会议地点可以容纳大约 11000 名听众。就在今年2月,职业摔角的 WWE Monday Night RAW 就曾在这里上演。今年5月,贾斯汀·汀布莱克(Justin Timberlake) 也将在这个舞台上举办演唱会。即便是每年备受瞩目的苹果 iPhone 与 iPad 发布会也未曾能让这样宽敞的空间座无虚席。但如今,能聚集科技圈所有目光焦点的,无疑是黄仁勋。他从一位拥有众多视频游戏忠实粉丝的半导体公司 CEO ,蜕变、成拥有足够吸引力,能吸引成千上万人参与公司庆典的人工智能专家。

或者,就像英伟达研究经理 Jim Fan 在 X 上所说那样:

老黄是新的泰勒·斯威夫特

我对《华尔街日报》以此为引子报道这场活动感到失望,但并不是因为我认为他们应该把报道具体公告作为重点。恰恰相反,我跟他们有着一样的看法。相对于公告本身,黄仁勋的主旨演讲最令人难忘的,恰恰是那壮观场面。

相对于《华尔街日报》的类比,我确实认为拿iPhone 发布会比较会更加合适;尤其是在 iPhone 早期,苹果本可以轻轻松松就吸引到 11000 人填满一个场馆。不过,恐怕还有一个更合适的对照,那就是 Windows 95 的发布。2021 年,Lance Ulanoff在 Medium 上曾写过一篇回顾:

光靠一个操作系统就能够几乎引发全世界的关注,这种情形是很难想象的,但 1995 年 Windows 95 发布的时候就是这样的。1995年8月24日,记者们从世界各地涌向了当时尽管郁郁葱葱、但规模尚小的微软雷德蒙德园区。入场券印着原先的 Windows 开始按钮的图案(我至今仍保存着我的那张入场券)——“开始”成为了整场活动的核心主题,开启了这场只对受邀人开放的嘉年华般的盛会......那是技术界一段相对快乐且纯真的时光,或许也是在互联网成为一切主宰之前最后一场重大发布。在彼时,软件平台,而不是某篇博客或一件产品,还能改变世界。

当人们在2040 年回首今天时,也许也会把它当作“技术界一段相对快乐且纯真的时光”来缅怀,因为我们目睹的“也许是在人工智能成为一切主宰之前的最后一场重大发布”,想象着“一块芯片可以如何改变世界”;而对于在此之前的岁月,我们也许会当作像我这样的人类作者最后的避难所来缅怀。

GTC,俱往矣

对于像我这样曾经看过多场黄仁勋主旨演讲的曾经和未来的老顽童来说,有趣的是这次活动的相对聚焦:是,黄仁勋是谈到了诸如天气、机器人、Omniverse以及汽车之类的话题,但最重要的是这是一场芯片发布会。发布的是 Blackwell B200 代 GPU,主旨演讲大部分内容都是讨论其各种功能特性、排列、性能、合作关系等。

我认为这跟 GTC 2022 形成了鲜明对比。在那场发布会上,黄仁勋发布了 Hopper H100代 GPU:谈芯片/系统架构的部分要短很多,主要是大量潜在用例以及所有英伟达为 CUDA 开发的各种库的讨论。就像我一年前解释那样,这对于 GTC 来说很正常:

说实话,这场主旨演讲实在是包罗万象。 Liberty 认为这很酷:

机器人、数字孪生、游戏、机器学习加速器、数据中心级的计算、网络安全、自动驾驶汽车、计算生物学、量子计算、元宇宙开发工具,万亿参数级的人工智能模型!

然而,黄仁勋在主旨演讲的引言中强调,这种规模的背后确实有其内在的规律和理由......

接下来,我深入讲解了 CUDA 以及它对于把握英伟达长远发展机遇的必要性,并总结道:

这是理解英伟达技术栈的一个有益视角:编写着色器(shader)就像编写汇编程序一样,因为很难写,而且很少有人能写好。 CUDA 把它抽象成一个通用 API,一个更加通用且易用的API——按照这一类比,它就是操作系统。不过,就像操作系统一样,拥有可以减少程序员的重复工作、让他们能够专注于自己的程序的库很有用。 CUDA 和黄仁勋提到的各种 SDK 也一样:这些库让实现能在 Nvidia GPU 上运行的程序变得更加简单。

这就是一场主旨演讲能够涵盖那么多主题的原因:机器人、数字孪生、游戏、机器学习加速器、数据中心规模的计算、网络安全、无人驾驶汽车、计算生物学、量子计算、开发元宇宙的工具,以及数万亿参数的人工智能模型——这些大部分都是在 CUDA 的基础上新增或更新的库,而英伟达做出来的库越多,其开发的能力也就越强。

但这只是 Nvidia 技术栈的一部分而已:公司还对硬件与软件层面的网络及基础架构进行了投资,这些投资让应用能够在整个数据中心内扩展,可运行在成千上万的芯片之上。这个过程同样需要独特的软件层支持,这突出了要理解英伟达最重要的一点,它并不仅仅是一家硬件公司,也不仅是一家软件公司,而是一家软硬件一体公司。

回想起来可以看出,过去的那些 GTC发布是由一家尚未实现产品与市场极大匹配的公司所举办的。当然,黄仁勋以及英伟达对 Transformer 和 GPT 模型不是不了解 — 黄仁勋甚至提到了 2016 年他曾把首台 DGX 超级计算器机亲自交付给 OpenAI 的情景——但请注意,他手绘的计算历史那张片子似乎遗漏了很多以前在 GTC 身上常见的东西:

主旨演讲的一张片子:计算之旅

突然之间,那几年里最重要的东西变成transformers!

需要明确的是,这并不是在贬低黄仁勋或是英伟达;实际情况正好相反。英伟达掌握了一种全新的计算方式,以往的 GTC 的目标是通过实验寻找和推动这种新式的应用场景;现如今,在 ChatGPT 问世之后的世界里,最大的应用场景,也就是生成式人工智能(generative AI)已经变得非常清晰,黄仁勋所要传递的最关键信息,是因那个伟大如何在可预见的未来继续主导这一领域。

Blackwell

说到 Blackwell,据彭博社报道:

在一年一度的GPU 技术大会,被部分分析师叫做人工智能领域的 ‘伍德斯托克节’上,英伟达公司展示了其迄今为止最强大的芯片架构。公司首席执行官黄仁勋亲自上台介绍了新的 Blackwell 计算平台的亮点——B200 芯片,这是一颗拥有超过 2080 亿个晶体管的超强芯片,其性能超越了英伟达业界领先的人工智能加速器。面对全球各大企业乃至国家把人工智能开发当作优先任务的局面,这颗芯片有望进一步巩固英伟达的领先地位。继前代产品 Hopper 帮助英伟达市值突破 2 万亿美元之后,英伟达对其最新的 Blackwell 也寄予了很高的期望。

关于 Blackwell首先应该知道的是,这块芯片实际上是由两块内核熔合在一起的。据该公司表示,这两个内核在操作时是完全协同的;这实际上意味着Blackwell 相对于 Hopper 的主要优势之一就是尺寸更很多。这是黄仁勋手持 Hopper 和 Blackwell 芯片对比的照片:

黄仁勋手持 Hopper GPU 和 Blackwell GPU

“Blackwell 更大”这一点也体现在英伟达开发的系统之中。一体化的 GB200 平台是两块 Blackwell 芯片配一块 Grace CPU 芯片,这与 Hopper 的一对一架构不同。黄仁勋还展示了 GB200 NVL72。这是一个液冷的系统,体积与机架相当,内含 72 颗用新一代的 NVLink 连接的 GPU。该公司宣称,与同等数量的 H100 GPU 相比,其在大语言模型(LLM)推理上的性能表现提高了 30 倍的(部分是因为专门用于基于 Transformer 的推理的硬件),同时将成本和能耗降低了 25 倍。这些幻灯片有一组数据特别值得注意:

相对于Hopper,Blackwell在训练中的表现有所提高

值得注意的是,两次训练所用的时间都是一样的——90 天。这是因为实际的计算速度基本相同;鉴于 Blackwell 和 Hopper 一样都是用台积电的 4nm 工艺制造的,并且实际上计算本质上是串行进行的(因此主要受芯片底层速度的影响)。尽管如此,所谓的“加速计算”并不依赖于单核速度,而在于并行处理能力,而且新一代芯片以及更新的网络技术,都可以实现更高效的并行处理,确保 GPU 得到充分利用;这也是为什么显著改进在于降低了所需的 GPU 数量,从而整体减少了能源消耗。

这样一来,Hopper 大小的 Blackwell GPU 系列就可以构建规模更大的人工智能模型。鉴于模型的规模和性能似乎呈线性增长关系,那么 GPT-6 以及之后的发展方向看起来仍然是清晰的(据推测 GPT-5 是用 Hopper GPU 训练的;而 GPT-4 是用 Ampere A100 训练的)。

有趣的是,据报道,尽管 B100 的生产成本是 H100 的两倍,英伟达上调的售价却远低于预期;这就解释了为什么公司预计将来利润率会相对较低。这份现已从互联网上消失的报告(或许是因为它是在主旨演讲之前发表的?)推测,面对着定价极具侵略性的 AMD,以及其最大客户试图自行设计芯片的情况,英伟达对维持其市场份额感到担忧。大家有巨大的动力去寻找替代品,尤其是在推理领域,这一点不用说。

英伟达的推理微服务 (NIM)

关于这一点,另一个在 GTC 宣布的消息提供了一些有用的背景信息。来自英伟达开发者博客的摘录:

生成式人工智能的普及速度之快令人瞩目。受到 2022 年 OpenAI 推出 ChatGPT 的催化,这项新技术在短短数月内就吸引了超过 1 亿的用户,几乎在所有行业中掀起了开发活动的高潮。到了 2023 年,开发人员纷纷尝试用来自 Meta、Mistral、Stability 等的 API 和开源社区模型进行概念验证(POCs)。

步入 2024 年之后,各组织开始把焦点转向全部部署生产环境,需要处理的事项包括将人工智能模型接入现有的企业基础架构、优化系统时延以及吞吐量、日志、监控、安全等。走向生产环境的道路既复杂又耗时,这一过程需要有特定技能、平台和流程的支持,尤其是在大规模部署时。

作为 NVIDIA AI 企业解决方案的一部分,NIM 为开发者提供了一条简化的路径,可以开发基于人工智能的企业应用以及在生产环境下部署人工智能模型。

NIM 是一套云原生的、优化过的系列微服务,其设计理念是为了减少产品进入市场的时间、简化生成式人工智能模型在各种环境下的部署过程,无论其是云平台、数据中心还是 GPU 加速的工作站。通过采用行业标准的 API,NIM 将人工智能模型开发和生产部署的复杂性抽象出来,从而扩大了开发者的资源池。

NIM 实际上是预先打包好的容器,内置了组织启动模型部署所需的全部资源,而且这不仅仅是满足当前的需要,更着眼于未来的长远需求。黄仁勋展现一个吸引人的场景,即企业能够利用多个 NIM 在一种类似人工智能体的框架内协同工作,以完成复杂的任务。

想象一下 AI API 能做什么:AI API 就是一个交互接口,你只需与之对话即可。因此它属于这样一种未来软件,这种软件有一个非常简单的 API,我们称之为“人类”。这些不可思议的软件包将经过进一步的优化和打包,然后我们会把它们上传到网站,你可以随时下载、随身携带,可以在任何云平台、数据中心,或者在工作站上运行(前提是兼容),你唯一需要做的就是访问 ai.nvidia.com。我们称之为 Nvidia 推理微服务,但在公司内部,我们都叫它NIM。

想象一下,也许有朝一日聊天机器人就封装在一个 NIM 里面。你可以组合很多类似这样的聊天机器人,而这正是未来软件的开发方式。未来我们会如何开发软件呢?你可能不会从头开始去写软件了,也不太可能编写大量的 Python 代码。你更可能会通过整合各种人工智能的功能来组建一支人工智能团队。

很有可能出现一种所谓的超级人工智能呢个,用户可以通过它来下达指令,并将之分解成一系列的执行计划。这些计划中的某些任务可能会委派给专门的 NIM 来处理,比如某个擅长理解 SAP(其语言是 ABAP)的 NIM。或者,NIM 可能要从 ServiceNow 平台上检索信息。接下来,另一个 NIM 可能会对这些信息进行分析处理——也许是去运行某种优化软件,应用组合优化算法;也许仅仅是进行基础运算;又或者是利用 Pandas 这样的工具做一些数值分析。随后,它会带着结果返回,并与其他各方的结果汇总。由于它被告知了“正确答案应该是什么样的”,所以能够生成出合适的输出,并把这些展示给用户。我们可以利用所有的 NIM,每个小时准时获得一份报告,报告内容可能包括项目计划、预测、客户警示或是数据库的错误记录等相关事务。

由于这些 NIM 已经被封装好,可以在你的系统就绪,只要你的数据中心或云服务里配备了 Nvidia 的 GPU,它们就能够协同工作,完成不可思议的任务。

但你注意到一个问题了吗?英伟达既会自己开发NIM,同时还会鼓励更广泛的生态体系去开发,其目标是免费提供给人使用——但这些 NIM 只能在英伟达的 GPU 上运行。

NIM 只能在英伟达的 GPU 上运行

于是这篇文章的讨论又回到了最初的原点:在 ChatGPT 发布之前那个时代,英伟达围绕着其 GPU 的软件生态体系构筑了一个相当强大的(免费)护城河,但挑战在于,市场对这些软件的应用前景还不是十分的明朗。时至今日,GPU 的具体用例已经非常明朗,而且这些用例都是发生在 CUDA 框架之上很高层面的;这一点,再加上寻求更经济的英伟达替代品的巨大动力,意味着摆脱 CUDA 的压力与可能性比以往任何时候都要大(尽管对于较为底层的工作,尤其对于模型训练而言,这种情况可能还很遥远)。

英伟达已经开始做出回应:我认为,从一个角度去理解的话,DGX Cloud 是英伟达的一种策略,想捕捉的是尽管 AMD 芯片性能更佳但仍购买 Intel 服务器芯片的同一片市场(因为已经围绕着英特尔进行标准化了);而 NIM 则是英伟达想搞锁定的又一次尝试。

不过,值得一提的是,跟很多人的预期相反,英伟达并不打算用 Blackwell 获取更高的利润;至于英伟达要不要在未来的产品当中做出更多的让步,这不仅取决于其芯片的性能,还取决于它们能否有效地应对软件护城河正面临的那个威胁——正好让 GTC 成为如此一场盛况的同一波浪潮。

译者:boxi。