来源:内容翻译自nextplatform,谢谢。
在所有超大规模计算提供商和云构建商中,我们一直期望 Meta Platforms 能够设计和制造自己的 CPU 和 XPU 加速器计算引擎。原因很简单。云平台必须购买 X86 CPU 和 Nvidia GPU,因为这些是企业和初创公司想要租用的“铁杆”。如今,许多人也想租用基于 Neoverse IP 模块的 Arm CPU,但这并非因为他们喜欢 Arm 软件,而是因为他们喜欢云平台声称这些自主研发的 CPU 能带来 30% 到 40% 的性价比提升。
Meta Platforms 不是云,因此,它不必在企业基础设施租户的需求与控制自身基础设施命运并开发专门针对其 Facebook、WhatsApp、Instagram、Messenger 和 Threads 社交媒体应用程序的 35 亿用户的需求的计算引擎(实际上是交换和存储)的愿望之间取得平衡。
其中约 85% 的用户使用 Facebook,因此 Meta Platforms 仍然是一家单一产品公司,但至少有部分用户正在从该用户群扩展到其其他应用。但这并不一定意味着 Meta Platforms 的处境轻松。这些应用类型各异,该公司热衷于开发自己的人工智能来增强和驱动这些应用,就像地球上其他所有公司现在都有这样的愿望一样。
因此不难看出为什么 Meta Platforms 至少想要设计自己的 CPU 和 XPU,并且依靠互连 ASIC 制造商(我们在这个类别中包括交换、路由和内存互连)来做它需要做的事情,并威胁说如果他们不这样做,就设计自己的交换机和内存结构互连。
Meta Platforms 想要跳过可授权但闭源的 Arm 架构,直接转向开源但仍有待完善且尚未成为主流的 RISC-V 架构及其未来的计算引擎,这已不是什么秘密。Meta 在开发定制计算引擎方面也遇到了一些问题,而且至今尚未推出通用 CPU 或 AI 训练 XPU,这也不是什么秘密。这显然是一个问题。
Rivos 成立于 2021 年 9 月,创始人包括陈炳耀和 Amarjit Gill,后者是 MIPS 芯片制造商 SiByte(2000 年被博通收购)和 Power 芯片设计公司 PA Semi(2008 年被苹果收购)的联合创始人。值得注意的是,PA Semi 团队正是苹果定制 Arm 客户端芯片的开发团队。Rivos联合创始人之一叶哲宇 ( Tse-Yu Yeh)在苹果公司工作了 17 年多,从架构和验证高级工程师一路晋升为 CPU 设计高级总监。他在 Rivos 一直担任这一职务。
联合创始人普尼特·库马尔(Puneet Kumar)(见上图)曾效力于数字设备公司(Digital Equipment Corp),在康柏和惠普企业被收购期间,他曾是数字系统研究中心(Digital Systems Research Center)的技术人员,并在SiByte被博通(Broadcom)收购之前担任其系统工程软件总监。之后,库马尔转投PA Semi,负责软件架构,并在苹果公司待到2009年,之后在Agnilux担任工程副总裁。Agnilux是一家神秘的芯片初创公司,拥有许多PA Semi的前员工,于2010年被谷歌收购。库马尔离开谷歌后,出任Rivos的首席执行官。
Rivos 的另一位联合创始人Mark Hayter也经历了类似的发展历程,从 DEC 到 SiByte,再到博通、PA Semi、苹果、Agnilux 和谷歌,他之前还担任过 Rivos 的首席战略官和系统架构师。Rivos 的最后一位联合创始人是 Belli Kuttanna,在加入 Rivos 之前,他曾在德州仪器、摩托罗拉、Sun Microsystems、高通(虽然时间很短)和英特尔担任芯片设计师和架构师。
Agnilux 之于 Google 或许就如同 Annapurna Labs 之于 AWS。或者更准确地说,反之亦然,因为 Google 是先起步的,而且 Agnilux 看起来更侧重于客户端硬件,而非服务器硬件。
在Walden International的支持下,以及Dell Capital Ventures 和 Matrix Capital Management 的帮助下,Rivos 成立第一天就拥有了 100 多名员工,陈志云被任命为董事长。这在一定程度上使 Rivos 能够使用先进的 EDA 工具以及台积电的代工专业知识和产能。2023 年,Rivos 从苹果挖走了近 50 名工程师,这导致其与苹果发生诉讼,陈志云最终通过谈判达成和解。当时,Rivos 正在从事 CPU 设计,但陈志云建议公司专注于 AI 加速,而与 Meta 的合作就是这一转变的结果。根据 Walden 的声明,Rivos 已流片“3.1 GHz 处理器并构建了与 CUDA 兼容的软件堆栈”,但我们在互联网上找不到任何相关信息。
还有一件事。自 2021 年以来,Nvidia CUDA-X 软件许可协议禁止使用允许已编译 CUDA 程序(二进制文件)在非 Nvidia 硬件上运行的转换层。Nvidia 不会(也不能)限制使用源到源转换器(例如 AMD 的 HIP 和 Intel 的 SYCL),这些转换器允许您重新编译 CUDA 代码以在其他硬件上运行。
我们不知道 Rivos 对其“兼容 CUDA 的软件堆栈”采取了什么策略,但这种模拟机制是一个棘手的问题,最终可能会成为法律问题。此外,值得一提的是,据传Nvidia 很久以前的“丹佛计划”Arm 服务器 CPU 具有 X86 硬件模拟功能,而 Nvidia 十年后推出的 Grace Arm 服务器 CPU 显然并未添加这些功能。
Rivos 承担不起与 Nvidia 的这种争斗。但如果真到了那一步,Meta Platforms 肯定承担得起,而且一位优秀的律师可以辩称 Nvidia 正在将其软件与硬件捆绑在一起,以维持垄断地位。可恶的是,一位糟糕的律师也可能辩称,鉴于 Nvidia 在 AI 处理领域拥有明显且不受监管的垄断地位,这种情况目前依然存在。此外,如果 Meta Platforms 将这项 CUDA 仿真技术用于个人用途,并且不出售,这是否违法?同样,这是一个灰色地带。Meta Platforms 肯定会从使用该技术中获得经济利益。