找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 12|回复: 2

[数码资讯] 24 人团队硬刚英伟达:AMD 前高管梦之队出手,新芯片每秒 17000 个 token

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:726
发表于 2026-2-22 09:44 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
造芯片的还有高手?刚刚推出的一款最新芯片,直接冲上硅谷热榜。峰值推理速度高达每秒 17000 个 token。

什么概念呢?当前公认最强的 Cerebras,速度约为 2000 token/s。速度直接快 10 倍,同时成本骤减 20 倍、功耗降低 10 倍。这就意味着,LLM 真正来到了亚毫秒级的即时响应速度。

但这块一夜之间刷屏硅谷的芯片,并非出自英伟达、AMD 之手,而是一家成立仅两年、团队仅有 24 人的初创公司 ——Taalas。



芯片代号 HC1,也是公司的首款产品。不同于所有竞争对手,Taalas 选择了迄今为止最极端的技术方案 —— 模型不再加载到内存里,而是直接刻在硅片上。换言之,芯片即模型。

结果显而易见,Taalas 撬动了芯片算力护城河:H100 买不到,试试 HC1 又何妨?

速度快 10 倍,功耗降至 10 分之一
HC1 目前搭载 Llama 3.1 8B 模型,用户每秒最高可生成 17000 token/s,远高于主流 GPU / ASIC。



其中,在同一模型下 Cerebras 接近每秒 2000 个 token,SambaNova 约为每秒 900 个 token,Groq 约为每秒 600 个,英伟达 Blackwell 架构的 B200 为每秒 350 个。

具体来说,HC1 采用台积电 N6 工艺,面积为 815mm²,体积小巧而且开源,单颗芯片即可满足 8B 模型需求。

每颗芯片典型功耗仅为 250W,一个服务器如果同时装配 10 颗 HC1,功耗也才 2.5kW,可以直接使用常规空气冷却机架部署。

那么是如何做到这么大的性能飞跃的呢?

首先 HC1 借鉴了 2000 年代初期的结构化 ASIC 芯片理念。结构化 ASIC 芯片采用门阵列和固化 IP,然后仅通过改变互连层就能使芯片适应特定的工作负载。

这样下来,结构化 ASIC 芯片不仅比全定制 ASIC 更便宜,也比 FPGA 性能更优。

  • 打卡等级:自成一派
  • 打卡总天数:186
发表于 2026-2-22 10:23 | 显示全部楼层
峰值推理速度高达每秒 17000 个 token,这个很强
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:728
发表于 2026-2-22 11:41 | 显示全部楼层
感谢分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-2-22 12:11 , Processed in 0.141793 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表