夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 100|回复: 0

[科技新闻] 字节的音频生成模型,才是今天的王炸

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:834
发表于 2026-6-23 16:40 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
字节的多模态模型,这水准真的没得说。
早上,我体验了一下他们新发的豆包音频生成模型,Seed-Audio 1.0。
不废话,先给大家看一个具体的 Case,让它以杜甫的口吻吟诵《闻官军收河南河北》。
这里面的声音表现、情绪起伏和声场氛围,全部都是一个 Prompt 直接生成的,我没有做任何后期处理。
而且 Prompt 非常简单,不需要任何专业词汇:
1.webp
这是我测试的第一个 Case。生成出来的时候,忍不住在公司喊了一声。太牛 X 了。
2.webp
这完全已经不是传统的 TTS 模型了。
之前的 TTS 模型更多是在做语音合成的事情,要么克隆一个已有的声音,要么通过提示词描述一种声音,最后生成一段基于这个声音的音频。
但字节的 Seed-Audio 1.0 这个新模型,它完全是在做纯粹的语音生成,模型会思考音频本身处在什么环境中,又带着什么情绪,然后再把这一切转化为声音。
大家听听下面这个 Case。同样是一次直出。风格可以从激昂到平淡任意转换,背景音可以有哨声,观众呐喊声等等。
我的提示词是:
生成一段四十秒左右的世界杯赛后深夜电台。场景是深夜酒吧,电视里播放比赛回放,背景有轻微球迷欢呼声、哨声和碰杯声。两个主播复盘一个关键进球。
主播一沉稳地说:今晚这场比赛最关键的瞬间,出现在第八十三分钟。边路球员突然加速,传中来到禁区。电视回放里传来激动解说声:传中,头球摆渡,射门,球进了,球进了。主播二兴奋地说:这个进球太漂亮了。
短短十几秒,从后场推进到最后完成射门,节奏非常干净。主播一说:这就是世界杯的魅力。一瞬间,就能改变整场比赛。最后让电视回放声和球迷欢呼声慢慢淡出。
太震撼了。Seed-Audio 1.0 这次带来的变化,和当时 Seedance 2.0 给视频模型领域带来的变化非常类似。
回忆一下 Seedance 2.0。
当时最让我触动的一点是,我终于可以直接描述脑海里的画面,而不用再思考镜头应该怎么拍。
人物怎么移动、镜头怎么推进、氛围怎么营造,这些事情模型会帮我完成。
今天的 Seed-Audio 1.0 给我的感觉也很像。
过去做音频的时候,我们更多是在描述声音本身。音色是什么,语气是什么,情绪是什么。
但这次我发现,自己开始描述一个故事。比如杜甫刚刚听到收复失地的消息时是什么状态。是激动,是释然,还是带着一点不敢相信。
再比如世界杯赛后的深夜酒吧。电视里正在回放比赛,远处有人碰杯,有球迷欢呼,两个主播还在讨论刚才那个关键进球。
这些东西以前都需要通过配音、音效和后期一点点拼出来。
现在我只需要把脑海中的画面写出来,剩下的事情模型会把它变成这个场景中的声音。背景音乐、环境音效和人声统一生成。
这是生成的截图,一次直出,连抽卡都没抽。就这个效果,我觉得甚至都可以直接当成品来用了。这真的太强了。
因为我能感觉出来,人物在说话的时候,那种试探、迟疑、思考的情绪居然被表达出来了。
3.webp
再看一个 Case。
男女主角因为一件事激烈争吵,屋里传来摔东西的声音。情绪彻底失控之后,男主摔门离开。紧接着楼下响起汽车发动机的轰鸣声。整个过程中,两个人还需要完成一段带情绪对抗的对白。
我又回过头测试了一些简单的 Case,像新闻播报之类的场景,Seed-Audio 1.0 完全可以搞定了。而且这个效果,简直完美啊。
哈哈哈,埋个彩蛋,上面这几个 Case,不知道大家有没有注意到一个细节,它们其实用的是同一个音色。
我只是固定了一个声线,然后通过提示词去改变人物所处的环境、情绪和状态。
这个场景里,Seed-Audio 1.0 模型处理得非常好。就这个能力,我觉得完全可以把它用在真实的影视剧配音当中了。
毕竟在影视剧里,一个角色的音色是固定的。观众听到这个声音,就知道这是同一个人。
但同一个人会经历完全不同的情绪。从开心、愤怒,到悲伤、绝望,甚至崩溃。这些变化其实比音色本身更难。
过去很多模型,开心、愤怒、悲伤听起来经常只是同一个声音换了一种语气,本质上还是在念稿。
现在,Seed-Audio 1.0 完全可以搞定了。有这方面需求的朋友可以去试试。
再继续,我又脑洞大开,跑了一个更让我惊喜的 Case。因为我刚才突发奇想,是不是可以让它生成一段戏剧。能唱戏的话就太酷了。
这个效果,燃啊。
又试了下秦腔。懂戏曲的同学来验收下生成是否准确。
玩到这里的时候,我的想象力彻底被打开了。
我突然意识到,语音模型可能也走到了一个新的阶段。
过去这些年,整个 TTS 行业都在卷拟真度、情绪控制和声音克隆,目标是让 AI 把一句话念得越来越像真人。
这背后是一套典型的语音合成逻辑。
文字是输入,声音是输出。中间优化的所有东西,无论是音色克隆、情绪表达还是语速控制,本质上都在服务同一个目标:把声音生成得更真实。
但这次 Seed-Audio 1.0,让我第一次意识到,语音模型可能正在从语音合成走向语音创作。
这两个词看起来只差两个字,背后其实是两种完全不同的逻辑。语音合成关注的是一句话怎么念,语音创作关注的是一个场景应该怎么被表达。
我顺手又试了一个更日常的场景,直播带货。我给它的任务不是念一段荔枝卖点,而是直接生成一个直播间。
生成出来的效果,最有意思的地方是,你能听到主播剥荔枝的声音,泡沫箱等等音效。
背景里的促销音乐也没有从头到尾平铺,它是一阵一阵往上顶,真的非常真实,又又震惊到我了。
刚刚我又有一个新的脑洞,是不是可以直接把一段小说里的文字发给模型,让它来把声音表达出来。可惜的是,模型拒绝了这样的提示词。
现在是 Seed-Audio 1.0,我在想,再有半年时间,我这样的构想应该就会逐步地实现。
比如一本小说,里面有旁白,有对白,有情绪变化,有人物关系,也有环境描写。
我们不需要再手动拆分角色,不需要再单独设计配音方案,直接把整本书交给模型。
它自己理解剧情的发展、人物的状态和场景的变化,然后把整个故事演绎出来。
如果真到了那一天,我们创作音频的方式,可能会和今天完全不同。
我第一次看到了音频创作未来的模样。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版| 手机版| 小黑屋| RSS| 举报不良信息| 精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-6-23 22:23 , Processed in 0.192978 second(s), 5 queries , Gzip On, Redis On.

Powered by VC52.CN

快速回复 返回顶部 返回列表