成本低20倍速度高10倍，“芯片即模型”打破GPU神话？

陪着寂寞看孤单 · 发表于 2025-11-1 21:28

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

两天前，AI芯片创业公司 Taalas 发布了一篇颇具宣言意味的文章：《The Path to Ubiquitous AI》（《通往无处不在的 AI 之路》，原文附后）

核心观点只有一句话：AI 要真正普及，必须解决两个问题，延迟和成本。

该文指出，如今的AI基础设施正在走向一种“数据中心+电厂”的畸形路径。

房间大小的服务器、数百千瓦功耗、液冷系统、HBM堆叠、复杂封装、成公里长的电缆。

这被认为不是AI的终局。

因为真正普及的技术，必须变得更简单、更快、更便宜。

为此，Taalas提出一个极端方向，为每一个模型，生产专用芯片。

也就是说，不搞通用 GPU，而是“模型即芯片”。

为此， Taalas 开发了一个平台，可以将任何 AI 模型转化为定制硅芯片。“从收到一个全新的模型开始，只需两个月，就能将其硬件化”。

据介绍，Taalas的核心开发理念有三点，即极致专用化、计算与存储融合，及激进简洁。

他们发布的首款产品，是硬编码的 Llama 3.1 8B，性能表现十分抢眼。

据介绍，该产品由 24 人团队完成，仅花费 3000 万美元。

比如，

17,000 tokens/秒、

接近现有方案 10 倍速度、

成本降低约 20 倍、

功耗降低约 10 倍……

Taalas由此还提出“即时 AI”的概念。

一些资深开发者在 X 上的发帖，“17000 tokens/s…，等待模型思考的时代结束了”。

Basecamp 创始人 DHH 试用后称，“感觉像作弊一样快”。

半导体行业投资人 Pierre Lamond 称，

团队做芯片的经验业内顶级，

认为他们的方向能
1000倍成本改善，从而
推动AI成为基础设施级能力。

Cambrian-AI首席分析师 Karl Freund 在 Forbes 专栏里称，早期用户把它的性能形容为“insane（疯狂）”。

他指出，如果被大规模数据中心采用，可能会改变行业格局。

Freund 的担忧是，每个模型一颗芯片，那么模型升级是否意味着换硬件？数据中心是否愿意承担这种不灵活？

因此他认为，模型即芯片方向很有吸引力，但能否成为主流还说不好。

行业媒体 Financial Express分析指出，

这种架构更适合稳定、高规模、单模型场景，

在多模型频繁迭代环境中可能受限。

而目前大模型的状态，更显然是后者。

但如果未来进入一个“少数基础模型长期统治”的阶段，那GPU是否仍是最优解？

尽管有所争议，但Taalas在 AI 基础设施方向与架构的探索值得反思。

比如，这是否意味着AI算力可能发生第三次的路线分裂？

第一次分裂，是 CPU → GPU。

深度学习爆发后，通用CPU迅速被淘汰。并行计算取代串行计算，成为基础设施底座。

NVIDIA 凭借GPU完成市值跃迁，成为AI时代最大赢家。

第二次分裂，是自建GPU → AI 云。

模型越来越大，企业越来越难自己部署，算力被抽象为API。

GPU不再只是硬件，而成为云服务的一部分。

亚马逊Web Services、微软 Azure、谷歌 Cloud 、阿里云、字节火山云等，成为 AI 基础设施代名词。

第三次分裂，会不会是 Taalas 提出的，模型即芯片？

不再

依赖HBM、

复杂封装，也不依赖液冷

，不是“更强GPU”，而是“推理专用ASIC的极端版本”。

或者，更本质的，Taalas 路线真正可能改变的，是AI的边际成本曲线？

以下为Taalas博文原文

《通往无处不在的 AI 之路》

作者：Ljubisa Bajic

许多人相信，AI 确实已经进入真正可用的阶段。在一些狭窄领域，它的表现已经超过人类。如果使用得当，它将成为前所未有的人类创造力与生产力放大器。

但它的大规模普及仍然受到两个关键障碍的限制：高延迟和天文级成本。

与语言模型的交互速度远远跟不上人类思考的节奏。编程助手可能要思考几分钟，这会打断程序员的心流状态，限制人与 AI 的高效协作。而自动化的智能体应用需要的是毫秒级响应，而不是按人类节奏慢慢输出。

在成本方面，部署现代模型需要巨大的工程投入和资本支出：占据整间房间的超级计算机，耗电数百千瓦，依赖液冷、先进封装、堆叠内存、复杂 I/O，以及成公里的线缆。这最终扩展为城市规模的数据中心园区和配套网络，带来极高的运营成本。

虽然当下的趋势似乎指向一个由数据中心和电厂构成的“反乌托邦未来”，但历史往往走向另一条路。过去的技术革命，往往始于笨重而夸张的原型，随后被更实用的突破所取代。

例如 ENIAC——一个充满真空管和电缆、占据整间房间的庞然大物。它让人类第一次见识到计算的魔力，但速度慢、成本高、无法扩展。晶体管的出现带来了快速演进：从工作站、个人电脑到智能手机，最终实现了无处不在的计算，世界并没有被 ENIAC 式机器所淹没。

通用计算之所以进入主流，是因为它变得易于制造、速度更快、成本更低。

AI 也必须走同样的道路。

关于 Taalas

成立于两年半前，Taalas 开发了一个平台，可以将任何 AI 模型转化为定制硅芯片。从收到一个全新的模型开始，只需两个月，就能将其硬件化。

由此生成的“硬核模型”（Hardcore Models），在速度、成本和功耗方面，相比软件实现提升一个数量级。

Taalas 的工作基于三大核心原则：

1. 极致专用化

在计算发展史上，深度首款产品由 24 人团队完成专用化始终是关键任务实现极致效率的最佳路径。

AI 推理是人类面临过的最重要计算负载之一，也是最适合专用化的领域。

其计算需求推动一个方向：为每一个模型生产最优的专用芯片。

2. 存储与计算融合

现代推理硬件受到一个人为分割的限制：内存与计算分离，而且运行速度完全不同。

这种分离源于一个长期矛盾：

DRAM 密度更高、成本更低，但访问片外 DRAM 的速度比片上内存慢数千倍；而计算芯片又无法采用 DRAM 工艺制造。

这种分割带来了现代推理硬件的大量复杂性：先进封装、HBM 堆叠、巨大的 I/O 带宽、不断上升的功耗，以及液冷系统。

Taalas 打破了这一边界。通过在单芯片上统一存储与计算，并达到 DRAM 级密度，其架构实现了前所未有的性能水平。

3. 激进简化

通过消除存储与计算的分离，并为每个模型定制芯片，Taalas 从第一性原理重新设计了整个硬件栈。

结果是一个不依赖复杂或前沿工艺的系统：无需 HBM、先进封装、3D 堆叠、液冷或高速 I/O。

工程上的简洁，带来了系统总成本数量级的下降。

首批产品

基于上述理念，Taalas 打造了全球最快、成本和功耗最低的推理平台。

目前发布的首款产品，是一个硬编码的 Llama 3.1 8B 模型，既提供聊天演示，也提供推理 API 服务。

这款硅基 Llama 实现：

每用户 17K tokens/秒
接近当前最先进方案的 10 倍速度
构建成本降低 20 倍
功耗降低 10 倍

之所以选择 Llama 3.1 8B，是因为它体积适中且开源，便于快速硬化部署。

虽然模型为速度进行了大量硬编码，但仍支持可配置上下文窗口，并通过 LoRA 进行微调。

第一代芯片采用自定义 3-bit 基础数据类型，并结合 3-bit 与 6-bit 量化，因此在质量上相较 GPU 基准略有下降。

第二代硅平台将采用标准 4-bit 浮点格式，在保持高性能的同时改善质量问题。

即将推出的模型

第二个模型将是一个中型推理型 LLM，仍基于第一代 HC1 平台，预计今年春季进入实验室并很快上线服务。

随后，将基于第二代 HC2 平台制造一个前沿级模型。HC2 具有更高密度和更快执行速度，计划于冬季部署。

即时 AI，触手可及

首个模型并非最前沿，但团队仍以 Beta 形式发布，希望开发者体验：当 LLM 推理达到亚毫秒级速度、接近零成本时，会带来什么可能性。

他们相信，这将使许多此前不可行的应用成为现实，并鼓励开发者探索新的应用场景。

关于团队与方法

Taalas 的核心团队规模很小，成员多为合作超过二十年的长期伙伴。团队增长缓慢，重视专业能力、使命一致性和工程纪律。

在这里：

实质重于声势
工艺重于规模
严谨重于冗余

在许多深科技创业公司依靠庞大团队、巨额融资和市场声量“围城式推进”的环境中，Taalas 选择的是一次精准打击。

首款产品由 24 人团队完成，仅使用 3000 万美元（总融资超过 2 亿美元）。这证明：明确目标与专注执行，可以胜过蛮力投入。

未来，团队将持续开放迭代，尽早发布系统，让开发者参与验证与完善。

结语

创新始于对既有假设的质疑，以及对被忽视路径的探索，这正是 Taalas 选择的方向。

他们的技术在性能、能效和成本上实现了跃迁式提升，并代表一种不同于主流的架构理念——重新定义 AI 系统的构建与部署方式。

真正的颠覆性技术，最初往往并不熟悉。团队将致力于推动行业理解并采用这一新范式。

从硬编码的 Llama 开始，并快速扩展到更强模型，Taalas 正在消除 AI 普及的两大核心障碍：高延迟与高成本。

他们已经把即时、超低成本的智能交到开发者手中，现在，期待看到人们将用它创造什么。

账号		自动登录	找回密码
密码			注册

[科技新闻] 成本低20倍速度高10倍，“芯片即模型”打破GPU神话？

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块