马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
过去二十多年,中国互联网的成功都有一套清晰的底层逻辑:
只要把服务器、带宽、研发等固定投入铺上去,后续每多一个用户、每刷新一次页面,几乎不再增加任何成本。边际成本接近于零,规模越大越赚钱,于是“先抢用户、后赚钱”成了所有产品的共同玩法。广告、电商、支付、金融……只要撑到足够体量,盈利只是时间问题。
但到了大模型时代,这套行之有效的逻辑突然失效了。
一、AI 正在瓦解互联网时代的商业定律
AI 的边际成本不是零,它是真金白银。每一次问答、每一段生成,都要重新跑一遍昂贵的 GPU 推理,烧掉显存、电力、调度系统。而且这种成本没办法像互联网那样摊在廉价服务器上去稀释——模型越强、推理越复杂、上下文越长,单次调用的成本就越高,几乎没有“规模效应”可言。
于是,一个和互联网规律完全相反的现象出现了: 产品越好、体验越顺、用户越多,亏得越快。
ChatGPT 是最典型的例子。
OpenAI 目前约有 8 亿用户,但订阅转化率只有 5% 左右。绝大部分的算力消耗,都是免费用户带来的。在这种结构下,to C 业务的规模越大,算力成本越高,亏损也越明显。按照业内测算,OpenAI 目前每月约有 4 亿美元订阅收入、6 亿美元 API 与企业收入,总营收接近 10 亿美元。但在 GPT-5 时代,其单月成本仍高达约 11.7 亿美元,每月亏损约 1.67 亿美元。
互联网时代“规模带来降本”的铁律,到了 AI 时代完全被反转。在中国,这个“AI 收入陷阱”体现得更直接、更激烈。
国内用户在移动互联网时代已被“免费心智”教育得非常彻底,对订阅、会员、按量付费的接受度远低于欧美。因此,为了抢用户、抢心智,各家在早期几乎都给到了最完整的体验:不限次数、上下文拉满、多模态直接开放。当产品的月活、日活升到千万、上亿的量级时,问题不再是“要不要再买几台卡”,而是“这条业务的单位经济模型到底还能不能算得通”。哪怕把用户价格提高一截,ARPU 也很难覆盖掉人均算力消耗,更别提研发、运营和获客成本。
这也解释了,为什么你会看到许多 AI 产品一边在前台公布亮眼的用户和收入数据,却从不披露利润情况,一边还在后台悄悄做各种“节流”。因为只要降不下来 10%、20% 的推理成本,这条业务就永远跑不到盈亏平衡。
过去做资讯、做视频、做社交,对成本敏感但不致命。当时的焦点永远是增长、是留存、是变现。可对 AI 应用来说,算力成本几乎是决定生死的单一变量。前端产品所有的焦虑,最后都会顺着链路传导到同一个地方: 云厂商到底能不能把推理成本真正压下去。
这就是 AI 时代的本质变量: 在 成本结构 被颠覆之后,云计算行业第一次站在了产业链的“命门位置”,也第一次被推到台前。
二、AI 的规模不经济,正在反向创造云厂商的窗口期
大模型出现之前,中国云计算市场长期是一套相对成熟且稳定的秩序。
IDC 报告年复一年呈现相似结构:阿里云、华为云、运营商云、腾讯云牢牢占据头部,市场高度集中,云计算竞争已经进入“重资产沉淀 + 政企大单锁定”的存量阶段。在这套规则里,谁更早铺下机房、锁定更多合同,谁就更难被撼动,因此新玩家很难通过传统路径破局。
国家数据局在今年 8 月披露的数字,是理解这一变化的关键线索: 2024 年初,中国日均 Token 消耗量还只有约 1000 亿;到了 2025 年 6 月底,这个数字已经突破 30 万亿。 一年半增长超过 300 倍,这不是“增长”,这是整个社会第一次出现的“全民级 AI 使用负荷”。
Token 的激增同时也让 AI 公司的经营逻辑暴露出前所未有的矛盾。AI 应用的用户增长并不会自然带来更好的利润,相反,它会拉高推理成本。订阅型收入、轻量广告、会员制远不足以覆盖这类高强度推理开销,导致AI 越火、亏损越明显。
这种矛盾沿着技术链路一路下沉,最后全部压到了基础设施层: 如果没有足够成熟的推理基础设施,AI 应用规模越大,亏损越快。
传统云计算的成本优化方式在这里完全失效。过去云厂商能够依赖“平滑负载 + 多租户摊销”,业务高峰可预测,调度压力也相对温和;而面对 AI 场景,流量曲线彻底变成了另一幅图景——热点事件能在几分钟内推高调用量,晚上与白天的差异巨大,多模态任务带来显存与吞吐的极端波动。
在这样的压力之下,如果云厂商仍停留在“卖 GPU、按量计费”的思维,只提供算力而不优化推理效率,最终会陷入一种“营收增长但利润被推理成本吞噬”的困境。这与 AI 应用本身的收入陷阱本质相同:规模越大,损耗越明显。
也正是在这一背景下, 中国 云计算 市场第一次出现了真正的增量领域——模型即服务(MaaS) 。
企业不再选择自建 GPU,而是直接使用云上模型;创业者把资源聚焦在产品和编排,而不是从头训练模型;to C AI 产品开始计算实时性、吞吐、成本之间的精确平衡。短短两年间,MaaS 调用量、账单规模、对低延迟和高 QPS 的要求,都被推到了一个远超业界预期的高度。
在这股流量洪峰之中,火山引擎看到了一个过去不存在的突破口。
推理框架效率、KV cache 命中率、多模型路由、极端负载下的稳定性,这些在传统云时代从未成为决定性指标,如今却成为 AI 应用选型的核心。某种意义上,MaaS 是第一次让云厂商在不依赖政企合同、不依赖基础设施存量的条件下重新站到同一条起跑线上。
也因此,火山在过去两年将叙事中心、产品中心、销售中心全面向 MaaS 转移,并不是“转方向”,而是基于一个清晰的判断: 下一轮中国云市场的格局,不再由机房规模决定,而由谁能让 AI 应用在云上真正跑得起、跑得稳、跑得不亏来决定。
AI to C 的收入困境,最终意外成为云厂商的重塑窗口期。
三、Gartner 的信号:中国云厂商第一次以“平台形态”站到全球牌桌
Gartner 最新发布的AI 应用开发平台的魔力象限,是云厂商转变的另一条线索。
图片来源于火山引擎官网
这张图有两个关键信号。
第一,Gartner 不再单独评价某个模型,而是用“AI Application Platform”来观察整个市场——在它的定义里,模型只是底层资源,真正被评估的是一整套能力:模型目录、RAG/检索增强、工具和 Agent 编排、推理效率、成本治理、安全合规、可观测、网关与路由等等。企业要做的已经不是“接一个 API”,而是把 AI 当成长期基础设施来建设。
第二,中国云厂商被整体放进了这张全球地图。过去,国内更多被视为区域性 IaaS 提供者,而这一次,阿里云、腾讯云、火山引擎,都以“AI 开发平台”的身份出现——说明在 Gartner 的视角里,中国厂商已经不只是“有云”,而是“有平台”。
先看阿里和腾讯,它们代表的是两种更“传统云厂商”的演化路径。
阿里云的优势,很容易被行业共识到:模型能力扎实、Qwen 生态相对完善,长期经营的开发者群体和企业客户基础,为它做 AI 平台提供了天然的土壤。从产品形态看,它在做的是“把原有云 + 大模型 + 开发工具慢慢收束成一套一体化平台”,这条路子和海外几家头部云厂商比较接近。局限也很明显:历史包袱较重、产品线多,平台需要时间去真正打通。
腾讯云则更多体现的是“稳”——它在政企、金融、运营商等高敏感行业里沉淀了大量安全合规能力,这种长期积累,在 AI 进入核心业务流程时会变得格外重要。与阿里相比,腾讯在模型和平台上走得更保守一些,更新节奏没有那么激进,但在那些“宁可慢一点,也不能出事”的场景里,它的可信度是资产。这种路径不一定跑在最前面,却很难被忽视。
如果再把华为云加进来,图景会更完整。华为在算力、网络、存储等硬件基础设施上有明显优势,在行业解决方案上也更偏“重型”,它看待 AI 的方式,更像是在既有行业场景中“增强一层智能能力”,而不是先搭一个通用 AI 平台再向外辐射。这是一条偏“行业云 + AI”的路,节奏更慢,但可能在特定领域更完整。
在这三种路径之外,火山引擎看起来有些“异类”。
从时间线看,它是这几家里最年轻的一个,成立不过五年,却在这次 MQ 中第一次被纳入评估,并且在中国厂商中站在象限内相对靠前的位置。Gartner 把它同样归为 Challenger,但给出的标签是另外一套叙事:火山引擎提供的是方舟这样一个 AI 应用开发平台,里面串起来的是豆包大模型、HiAgent、PromptPilot、veRL 等,强调的是 Agent 编排、Prompt 工程、强化学习框架,以及平台层面对模型路由、治理和开发体验的打包,而不是单一某个模型本身。
这背后隐含的是一种完全不同的出发点:
阿里、腾讯、华为是从“云”一路长到“AI 平台”;
火山则是从“高强度 AI 负载”一路反推到“需要一套什么样的平台”。
字节系的内部场景,本身就是对延迟、吞吐、成本极其苛刻的一套综合压测:抖音的实时推荐与搜索、剪映与即梦的多模态生成、飞书的智能助手,再加上前文提到那些 ToC AI 应用本身的推理洪峰,构成了一个几乎全天候高压运行的环境。 在这样的环境下,推理框架、模型调度、 缓存命中率 、路由策略、资源利用率,不是“优化项”,而是能不能活下去的生存条件。
火山的对外平台,本质上正是这套在内部被长期验证的工程能力的外溢:先在自家业务里被逼着把成本结构和工程体系打磨到极致,然后再抽象出 MaaS 平台和工具链,提供给外部开发者和企业使用。这和“先有云,再加 AI”的路径,逻辑上是反过来的。
数据侧同样印证了这一点。IDC 的《中国大模型公有云服务市场分析(2025H1)》显示,在面向外部客户、按照 MaaS 层 Token 调用量统计的中国大模型公有云市场中,火山引擎的市场份额已经达到 49.2%,阿里云为 27%,百度智能云为 17%。也就是说,在前文提到的 536.7 万亿 Token 调用量里,接近一半是从火山的平台上跑出来的。更早的 2024 全年数据则显示,火山在这一细分市场的份额为 46.4%,一年内继续抬升。这说明,在模型即服务这条新赛道上,它已经从“参与者”变成了必须被正视的“主角之一”。
(注:IDC数据不纳入豆包、即梦等 C 端应用在平台上的 Token 消耗。如果把这些“自用流量”考虑进来,火山在真实 AI 负载层面的份额,会比公开数字更高)
营收层面同样在朝这个方向收敛。公开报道显示,火山引擎 2024 年营收已超过 120 亿元人民币,增速超过 60%,并给出了 2025 年向 250 亿元冲刺的目标,增速和体量在整体云市场中都处于较高档位。
尾声
如果把这些线索重新串在一起,会发现我们其实正站在一个很微妙的拐点上。
在旧世界里,大家相信的是“流量逻辑”——先把用户规模做大,再慢慢找变现路径,边际成本会随着时间自然摊薄;在新世界里,AI 应用一上线就要面对一个很残酷的现实:每一次交互都对应一笔真实的推理开销,规模不是自动摊薄成本,而是自动放大算力账单。
正因为应用端被这种“收入陷阱”死死卡住,云厂商才第一次被推到了产业叙事的正中央。对所有参与者而言,接下来真正要回答的问题,其实都指向同一个核心:在一个边际成本为正、Token 增长失控的时代,你能不能构建出一种既能承接规模、又能自洽盈利的基础设施体系?
如果答案是不能,那么无论是好看的 DAU 曲线,还是激进的模型参数,都只是短期的烟花。
而如果答案是能,那么 AI 时代的“新云格局”,很可能就会从今天这些看似枯燥的工程细节和成本曲线里长出来。
参考文献: [1] 行业观察 | 火山引擎攻势凶猛,用AI把云重做一遍 [2] 行业观察 | Token市场占据半壁江山,火山引擎在打什么牌? |