夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 175|回复: 1

[综艺大观] 这届CIO,都想把自己蒸馏了

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:805
发表于 2026-5-18 10:01 来自手机 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
1.webp


老夏,某大型制造企业CIO。
这两天,他恨不得把自己蒸馏了,变成skill,把那些糟心的需求扛起来。
这事儿的起因,是他们集团刚上线了三个Agent智能体。
按老夏原话说,“没想到招回来仨祖宗,天天供着”。
2.webp


智能体上线没跑两天,老夏发现问题了↓
这帮Agent像极了人类员工:为了完成 KPI,会无所不用其极地索取资源,
和之前传统应用完全不是一个物种。
说白了,是智能体的行为具备一定的不可预测性。
他们发起疯来狂烧tokens,
而且绝不默默扛压,这些压力会瞬间甩锅到底层。
3.webp


它会逼MaaS层做推理优化,逼IaaS层做算力扩容。
只要Agent跑起来,曾经界限分明IaaS、PaaS、SaaS边界会被瞬间打穿。
4.png


而且,Agent运行起来,即便不发疯,也是骚操作不断↓
长上下文、多轮交互、工具调用、复杂任务拆解…
不止吃 Tokens,底层算存网资源必须像水一样,随Agent的状态精准供给。
5.webp


老夏发现,曾经的需求和采购逻辑失效了!
现在想要伺候好这几个祖宗,
不是多买几台云主机、多接几个API就能解决的
6.webp


那个年代,需求多简单啊,缺啥买啥
缺算力,就买IaaS。计算、网络、存储,该扩就扩
缺平台,就上PaaS。框架、工具、开发环境,该上就上
缺应用,就找SaaS。业务部门要什么,IT部门就订什么
7.png


而现在,Agent所需资源是流动的逻辑,还不是以前那种云计算讲的 Scale-out 弹性伸缩。
老夏想要的是那种能感知全局、动态调度、自动协同的AI底座。
这个AI底座必须包罗万象:芯片、云、大模型、智能体、AI工具、开发平台、算力调度、推理优化...
8.png


有人说:扯半天,老夏要的不就是AI全栈能力嘛,有啥稀缺的?
9.webp


但是,老夏不这么认为。
不少厂商的东西,虽然都号称全栈,但其实就是东拼西凑攒起来的「草台班子」。
10.webp


其实,老夏的这种需求是典型的「既要又要还要」:
✔既要架构像水一样随形就势
✔又要Tokens极致便宜
✔还要智能体能从Demo里走出来,进生产线搬砖。
11.webp


老夏被这种【新需求】折磨了很久,他都恨不得把自己蒸馏了“钻”到 IT 系统里搞定这些资源。
当然,这种蒸馏自己只停留在段子里,老夏知道不可能…
直到昨天,他受邀参加「Create2026百度AI开发者大会」,竟然……找到了答案。
12.webp


一上来,百度掌门人李彦宏就甩出了王炸↓
李彦宏提出一个DAA(日活智能体数)概念,认为Token只代表消耗,需要用新的尺度来更多关注产出。
另外还有自我进化,智能体时代,AI在进化,人和组织的协同也会基于AI发生变化。
13.webp


那怎样才能提升效率,让每一个Token都花得值,同时持续进化呢?
百度现场也公布了一个解决方案,那就是百度智能云全面升级的【新全栈AI云
14.png


新全栈AI云,让【芯云模体】互相协同,成为一个效率更高的AI新底座!
这是像水一样的自进化底座,可以流动、反馈、重组,支撑不同形态的Agent。
15.png


接下来的论坛内容,老夏又get到了一些新东西。
为了支撑这套“新全栈”,百度智能云拿出了两个层面的看家本领↓
16.webp


作为CIO,老夏一下子就看出了「技术门道」
一、底层升级:AI Infra智能体基础设施

第①项升级:智能体的推理优化方案,性能提升1-3倍
这个方案,做到老夏心坎上了。
Agent跑起来后,如果是长链路、大任务推理,最常见的问题是慢和贵,Token成本极易失控。
17.webp


百度的做法是把KV Cache从显存、内存到SSD做分层池化。
上下文复用率超90%,这意味着智能体在多轮对话中,重复计算大量减少。
18.webp


再配合AFD、PD分离与异步调度(Prefill节点、Decode节点、Cache系统之间),彻底解决长链路推理的延迟瓶颈。
至此,推理性能直接飙升1-3倍。
第②项升级:Agentic强化学习优化,学习效率提升1倍+
Agent发布后,不能一成不变,不能成为一个死程序。
19.webp


这就涉及到当下最前沿的技术——Agentic强化学习。
百度这次直接给Agent配齐了顶级教室和教材:
教室,就是百度高并发沙箱,即训练环境。
20.png


教材,就是百度提供的全模态训练框架,教智能体读文、看图、看视频、读代码,甚至像真人一样操作软件界面。
21.webp


老夏感叹,“谁能越短时间内,把智能体在真实反馈中训练好,谁才真正有资格谈智能体落地。”
第③项升级:百舸AI计算平台6.0,升级为智能工厂
升级后的百舸6.0,相当于给用户造了一座智能工厂,不再是只提供算力的平台。
工厂里有四个车间,串联起来帮用户组成一条AI生产线。
22.png


老夏点赞:“正好解决了Agentic AI 和 Physical AI 的规模化生产的痛点,这就是百舸6.0的价值。”
第④项目升级:发布全模态训练框架LoongForge
LoongForge像一座多模态训练枢纽↓
上接不同的模型场景:LLM、VLM、VLA、Diffusion;
下接NVIDIA GPU 和昆仑芯 XPU;
中间用一套代码打通多模型、多硬件。
23.webp


老夏被一组实测数据惊到了↓
多模态训练加速15%~ 45%。更夸张的事,能在5000多张昆仑芯P800大集群上,跑出90%以上的线性扩展效率。
第⑤项升级:扩建超大集群,吉瓦级AI数据中心
百度这次把集群规模做成了算力航母级。
吉瓦级电力容量,对应十万级AI加速卡的超大规模算力集群。
24.webp


在现场,老夏还看到了百度天池超节点,相当震撼!
25.webp


二、Agent Infra智能体基础设施

第①项升级:Harness Engineering驾驭工程
一听这个,老夏就想起自己公司那三坨“祖宗”。
那简直就是三个智能体烟囱。
26.webp


百度Agent Harness,就要推倒智能体烟囱。
它把长上下文、记忆、子Agent调度、评估、工具调用和skills这些共性能力,先做成一套可复用的工程化底座。
27.webp


得益于这些能力,做同样的任务,需要的对话轮次会更少,相比OpenClaw,可以减少23%的token消耗。
Agent Harness让企业真正规模化开发Agent。
第②项升级:从MaaS升级为Token Factory词元工厂
在百度智能云上,能调用150+个SOTA模型,调用速度比行业平均水平快25%,秘诀在于Agent-first理念↓
针对长链推理场景,通过Cache管理仅计算新增Token,减少百万级上下文的重复加载。
全局推理资源调度,大幅提升复杂任务下的Token效能。
28.webp


此外,在企业里,Demo和生产环境是两个世界。
新升级的Agent Runtime它提供稳定、安全、可观测的运行环境,让智能体真正跑进企业生产环境,持续执行任务、持续产生结果。
29.webp


产品看起来不错,那实战怎么样呢?
老夏在现场看到了一大波顶级客户的背书——
30.webp


31.webp



80%央企的选择


32.webp


33.webp


100%中国头部车企的选择


34.webp


800家+金融机构的选择


35.webp


1000家+AI硬件厂商的选择


36.webp


顶级具身智能公司的选择


37.webp


38.webp


“真香!”
这是老夏从会场出来脑海里唯一的感叹,百度新全栈这波进化,是在「整顿Agent职场」啊。
不怕Agent骚操作,就怕你没有自进化的新底座!
39.webp

  • 打卡等级:已臻大成
  • 打卡总天数:507
发表于 2026-5-19 09:56 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-5-19 16:20 , Processed in 0.184254 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表