找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 58|回复: 0

[科技新闻] 成本低20倍速度高10倍,“芯片即模型”打破GPU神话?

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:410
发表于 2025-11-1 21:28 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
两天前,AI芯片创业公司 Taalas 发布了一篇颇具宣言意味的文章:《The Path to Ubiquitous AI》(《通往无处不在的 AI 之路》,原文附后)


1.webp



核心观点只有一句话:AI 要真正普及,必须解决两个问题,延迟和成本。


该文指出,如今的AI基础设施正在走向一种“数据中心+电厂”的畸形路径。



房间大小的服务器、数百千瓦功耗、液冷系统、HBM堆叠、复杂封装、成公里长的电缆。


这被认为不是AI的终局。



因为真正普及的技术,必须变得更简单、更快、更便宜。


为此,Taalas提出一个极端方向,为每一个模型,生产专用芯片。


也就是说,不搞通用 GPU,而是“模型即芯片”。


为此, Taalas 开发了一个平台,可以将任何 AI 模型转化为定制硅芯片。“从收到一个全新的模型开始,只需两个月,就能将其硬件化”。


据介绍,Taalas的核心开发理念有三点,即极致专用化、计算与存储融合,及激进简洁


他们发布的首款产品,是硬编码的 Llama 3.1 8B,性能表现十分抢眼。


据介绍,该产品由 24 人团队完成,仅花费 3000 万美元。


2.webp



比如,
17,000 tokens/秒、
接近现有方案 10 倍速度、
成本降低约 20 倍、
功耗降低约 10 倍……



Taalas由此还提出“即时 AI”的概念。

一些资深开发者在 X 上的发帖,“17000 tokens/s…,等待模型思考的时代结束了”。

3.webp



Basecamp 创始人 DHH 试用后称,“感觉像作弊一样快”。



半导体行业投资人 Pierre Lamond 称,
团队做芯片的经验业内顶级,
认为他们的方向能 
1000倍成本改善,从而
推动AI成为基础设施级能力。



Cambrian-AI首席分析师 Karl Freund 在 Forbes 专栏里称,早期用户把它的性能形容为“insane(疯狂)”。

4.webp

他指出,如果被大规模数据中心采用,可能会改变行业格局。

5.webp

Freund 的担忧是,每个模型一颗芯片,那么模型升级是否意味着换硬件?数据中心是否愿意承担这种不灵活?


因此他认为,模型即芯片方向很有吸引力,但能否成为主流还说不好。


行业媒体 Financial Express分析指出,
这种架构更适合稳定、高规模、单模型场景,
在多模型频繁迭代环境中可能受限。




而目前大模型的状态,更显然是后者。



但如果未来进入一个“少数基础模型长期统治”的阶段,那GPU是否仍是最优解?


尽管有所争议,但Taalas在 AI  基础设施方向与架构的探索值得反思。


比如,这是否意味着AI算力可能发生第三次的路线分裂?


第一次分裂,是 CPU → GPU。




深度学习爆发后,通用CPU迅速被淘汰。并行计算取代串行计算,成为基础设施底座。


NVIDIA 凭借GPU完成市值跃迁,成为AI时代最大赢家。

第二次分裂,是自建GPU → AI 云。



模型越来越大,企业越来越难自己部署,算力被抽象为API。


GPU不再只是硬件,而成为云服务的一部分。



亚马逊Web Services、微软 Azure、谷歌 Cloud 、阿里云、字节火山云等,成为 AI 基础设施代名词。



第三次分裂,会不会是 Taalas 提出的,模型即芯片?



不再
依赖HBM、
复杂封装,也不依赖液冷
,不是“更强GPU”,而是“推理专用ASIC的极端版本”。


或者,更本质的,Taalas 路线真正可能改变的,是AI的边际成本曲线?



以下为Taalas博文原文


《通往无处不在的 AI 之路》



作者:Ljubisa Bajic

许多人相信,AI 确实已经进入真正可用的阶段。在一些狭窄领域,它的表现已经超过人类。如果使用得当,它将成为前所未有的人类创造力与生产力放大器。


但它的大规模普及仍然受到两个关键障碍的限制:高延迟和天文级成本。

与语言模型的交互速度远远跟不上人类思考的节奏。编程助手可能要思考几分钟,这会打断程序员的心流状态,限制人与 AI 的高效协作。而自动化的智能体应用需要的是毫秒级响应,而不是按人类节奏慢慢输出。


在成本方面,部署现代模型需要巨大的工程投入和资本支出:占据整间房间的超级计算机,耗电数百千瓦,依赖液冷、先进封装、堆叠内存、复杂 I/O,以及成公里的线缆。这最终扩展为城市规模的数据中心园区和配套网络,带来极高的运营成本。



虽然当下的趋势似乎指向一个由数据中心和电厂构成的“反乌托邦未来”,但历史往往走向另一条路。过去的技术革命,往往始于笨重而夸张的原型,随后被更实用的突破所取代。


例如 ENIAC——一个充满真空管和电缆、占据整间房间的庞然大物。它让人类第一次见识到计算的魔力,但速度慢、成本高、无法扩展。晶体管的出现带来了快速演进:从工作站、个人电脑到智能手机,最终实现了无处不在的计算,世界并没有被 ENIAC 式机器所淹没。


通用计算之所以进入主流,是因为它变得易于制造、速度更快、成本更低。


AI 也必须走同样的道路。


关于 Taalas


成立于两年半前,Taalas 开发了一个平台,可以将任何 AI 模型转化为定制硅芯片。从收到一个全新的模型开始,只需两个月,就能将其硬件化。

由此生成的“硬核模型”(Hardcore Models),在速度、成本和功耗方面,相比软件实现提升一个数量级。

Taalas 的工作基于三大核心原则:

1. 极致专用化


在计算发展史上,深度首款产品由 24 人团队完成专用化始终是关键任务实现极致效率的最佳路径。


AI 推理是人类面临过的最重要计算负载之一,也是最适合专用化的领域。


其计算需求推动一个方向:为每一个模型生产最优的专用芯片。

2. 存储与计算融合


现代推理硬件受到一个人为分割的限制:内存与计算分离,而且运行速度完全不同。


这种分离源于一个长期矛盾:


DRAM 密度更高、成本更低,但访问片外 DRAM 的速度比片上内存慢数千倍;而计算芯片又无法采用 DRAM 工艺制造。

这种分割带来了现代推理硬件的大量复杂性:先进封装、HBM 堆叠、巨大的 I/O 带宽、不断上升的功耗,以及液冷系统。


Taalas 打破了这一边界。通过在单芯片上统一存储与计算,并达到 DRAM 级密度,其架构实现了前所未有的性能水平。

3. 激进简化


通过消除存储与计算的分离,并为每个模型定制芯片,Taalas 从第一性原理重新设计了整个硬件栈。

结果是一个不依赖复杂或前沿工艺的系统:无需 HBM、先进封装、3D 堆叠、液冷或高速 I/O。

工程上的简洁,带来了系统总成本数量级的下降。


首批产品



6.webp



基于上述理念,Taalas 打造了全球最快、成本和功耗最低的推理平台。

目前发布的首款产品,是一个硬编码的 Llama 3.1 8B 模型,既提供聊天演示,也提供推理 API 服务。

这款硅基 Llama 实现:



  • 每用户 17K tokens/秒
  • 接近当前最先进方案的 10 倍速度
  • 构建成本降低 20 倍
  • 功耗降低 10 倍


7.webp



之所以选择 Llama 3.1 8B,是因为它体积适中且开源,便于快速硬化部署。


虽然模型为速度进行了大量硬编码,但仍支持可配置上下文窗口,并通过 LoRA 进行微调。

第一代芯片采用自定义 3-bit 基础数据类型,并结合 3-bit 与 6-bit 量化,因此在质量上相较 GPU 基准略有下降。


第二代硅平台将采用标准 4-bit 浮点格式,在保持高性能的同时改善质量问题。


即将推出的模型


第二个模型将是一个中型推理型 LLM,仍基于第一代 HC1 平台,预计今年春季进入实验室并很快上线服务。


随后,将基于第二代 HC2 平台制造一个前沿级模型。HC2 具有更高密度和更快执行速度,计划于冬季部署。


即时 AI,触手可及


首个模型并非最前沿,但团队仍以 Beta 形式发布,希望开发者体验:当 LLM 推理达到亚毫秒级速度、接近零成本时,会带来什么可能性。

他们相信,这将使许多此前不可行的应用成为现实,并鼓励开发者探索新的应用场景。


关于团队与方法


Taalas 的核心团队规模很小,成员多为合作超过二十年的长期伙伴。团队增长缓慢,重视专业能力、使命一致性和工程纪律。

在这里:



  • 实质重于声势
  • 工艺重于规模
  • 严谨重于冗余

在许多深科技创业公司依靠庞大团队、巨额融资和市场声量“围城式推进”的环境中,Taalas 选择的是一次精准打击。

首款产品由 24 人团队完成,仅使用 3000 万美元(总融资超过 2 亿美元)。这证明:明确目标与专注执行,可以胜过蛮力投入。

未来,团队将持续开放迭代,尽早发布系统,让开发者参与验证与完善。


结语


创新始于对既有假设的质疑,以及对被忽视路径的探索,这正是 Taalas 选择的方向。

他们的技术在性能、能效和成本上实现了跃迁式提升,并代表一种不同于主流的架构理念——重新定义 AI 系统的构建与部署方式。

真正的颠覆性技术,最初往往并不熟悉。团队将致力于推动行业理解并采用这一新范式。

从硬编码的 Llama 开始,并快速扩展到更强模型,Taalas 正在消除 AI 普及的两大核心障碍:高延迟与高成本。

他们已经把即时、超低成本的智能交到开发者手中,现在,期待看到人们将用它创造什么。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-11 04:01 , Processed in 0.162398 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表