字节的音频生成模型，才是今天的王炸

superjiaming · 发表于 2026-6-23 16:40

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

字节的多模态模型，这水准真的没得说。
早上，我体验了一下他们新发的豆包音频生成模型，Seed-Audio 1.0。
不废话，先给大家看一个具体的 Case，让它以杜甫的口吻吟诵《闻官军收河南河北》。
这里面的声音表现、情绪起伏和声场氛围，全部都是一个 Prompt 直接生成的，我没有做任何后期处理。
而且 Prompt 非常简单，不需要任何专业词汇：

这是我测试的第一个 Case。生成出来的时候，忍不住在公司喊了一声。太牛 X 了。

这完全已经不是传统的 TTS 模型了。
之前的 TTS 模型更多是在做语音合成的事情，要么克隆一个已有的声音，要么通过提示词描述一种声音，最后生成一段基于这个声音的音频。
但字节的 Seed-Audio 1.0 这个新模型，它完全是在做纯粹的语音生成，模型会思考音频本身处在什么环境中，又带着什么情绪，然后再把这一切转化为声音。
大家听听下面这个 Case。同样是一次直出。风格可以从激昂到平淡任意转换，背景音可以有哨声，观众呐喊声等等。
我的提示词是：
生成一段四十秒左右的世界杯赛后深夜电台。场景是深夜酒吧，电视里播放比赛回放，背景有轻微球迷欢呼声、哨声和碰杯声。两个主播复盘一个关键进球。
主播一沉稳地说：今晚这场比赛最关键的瞬间，出现在第八十三分钟。边路球员突然加速，传中来到禁区。电视回放里传来激动解说声：传中，头球摆渡，射门，球进了，球进了。主播二兴奋地说：这个进球太漂亮了。
短短十几秒，从后场推进到最后完成射门，节奏非常干净。主播一说：这就是世界杯的魅力。一瞬间，就能改变整场比赛。最后让电视回放声和球迷欢呼声慢慢淡出。
太震撼了。Seed-Audio 1.0 这次带来的变化，和当时 Seedance 2.0 给视频模型领域带来的变化非常类似。
回忆一下 Seedance 2.0。
当时最让我触动的一点是，我终于可以直接描述脑海里的画面，而不用再思考镜头应该怎么拍。
人物怎么移动、镜头怎么推进、氛围怎么营造，这些事情模型会帮我完成。
今天的 Seed-Audio 1.0 给我的感觉也很像。
过去做音频的时候，我们更多是在描述声音本身。音色是什么，语气是什么，情绪是什么。
但这次我发现，自己开始描述一个故事。比如杜甫刚刚听到收复失地的消息时是什么状态。是激动，是释然，还是带着一点不敢相信。
再比如世界杯赛后的深夜酒吧。电视里正在回放比赛，远处有人碰杯，有球迷欢呼，两个主播还在讨论刚才那个关键进球。
这些东西以前都需要通过配音、音效和后期一点点拼出来。
现在我只需要把脑海中的画面写出来，剩下的事情模型会把它变成这个场景中的声音。背景音乐、环境音效和人声统一生成。
这是生成的截图，一次直出，连抽卡都没抽。就这个效果，我觉得甚至都可以直接当成品来用了。这真的太强了。
因为我能感觉出来，人物在说话的时候，那种试探、迟疑、思考的情绪居然被表达出来了。

再看一个 Case。
男女主角因为一件事激烈争吵，屋里传来摔东西的声音。情绪彻底失控之后，男主摔门离开。紧接着楼下响起汽车发动机的轰鸣声。整个过程中，两个人还需要完成一段带情绪对抗的对白。
我又回过头测试了一些简单的 Case，像新闻播报之类的场景，Seed-Audio 1.0 完全可以搞定了。而且这个效果，简直完美啊。
哈哈哈，埋个彩蛋，上面这几个 Case，不知道大家有没有注意到一个细节，它们其实用的是同一个音色。
我只是固定了一个声线，然后通过提示词去改变人物所处的环境、情绪和状态。
这个场景里，Seed-Audio 1.0 模型处理得非常好。就这个能力，我觉得完全可以把它用在真实的影视剧配音当中了。
毕竟在影视剧里，一个角色的音色是固定的。观众听到这个声音，就知道这是同一个人。
但同一个人会经历完全不同的情绪。从开心、愤怒，到悲伤、绝望，甚至崩溃。这些变化其实比音色本身更难。
过去很多模型，开心、愤怒、悲伤听起来经常只是同一个声音换了一种语气，本质上还是在念稿。
现在，Seed-Audio 1.0 完全可以搞定了。有这方面需求的朋友可以去试试。
再继续，我又脑洞大开，跑了一个更让我惊喜的 Case。因为我刚才突发奇想，是不是可以让它生成一段戏剧。能唱戏的话就太酷了。
这个效果，燃啊。
又试了下秦腔。懂戏曲的同学来验收下生成是否准确。
玩到这里的时候，我的想象力彻底被打开了。
我突然意识到，语音模型可能也走到了一个新的阶段。
过去这些年，整个 TTS 行业都在卷拟真度、情绪控制和声音克隆，目标是让 AI 把一句话念得越来越像真人。
这背后是一套典型的语音合成逻辑。
文字是输入，声音是输出。中间优化的所有东西，无论是音色克隆、情绪表达还是语速控制，本质上都在服务同一个目标：把声音生成得更真实。
但这次 Seed-Audio 1.0，让我第一次意识到，语音模型可能正在从语音合成走向语音创作。
这两个词看起来只差两个字，背后其实是两种完全不同的逻辑。语音合成关注的是一句话怎么念，语音创作关注的是一个场景应该怎么被表达。
我顺手又试了一个更日常的场景，直播带货。我给它的任务不是念一段荔枝卖点，而是直接生成一个直播间。
生成出来的效果，最有意思的地方是，你能听到主播剥荔枝的声音，泡沫箱等等音效。
背景里的促销音乐也没有从头到尾平铺，它是一阵一阵往上顶，真的非常真实，又又震惊到我了。
刚刚我又有一个新的脑洞，是不是可以直接把一段小说里的文字发给模型，让它来把声音表达出来。可惜的是，模型拒绝了这样的提示词。
现在是 Seed-Audio 1.0，我在想，再有半年时间，我这样的构想应该就会逐步地实现。
比如一本小说，里面有旁白，有对白，有情绪变化，有人物关系，也有环境描写。
我们不需要再手动拆分角色，不需要再单独设计配音方案，直接把整本书交给模型。
它自己理解剧情的发展、人物的状态和场景的变化，然后把整个故事演绎出来。
如果真到了那一天，我们创作音频的方式，可能会和今天完全不同。
我第一次看到了音频创作未来的模样。

账号		自动登录	找回密码
密码			注册

[科技新闻] 字节的音频生成模型，才是今天的王炸

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块