找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 110|回复: 0

[科技新闻] PixVerse V5.5 的震撼,做 AI 视频的人都知道这次更新的可贵之处

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-12-4 16:19 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
PixVerse 的 V5.5 模型正式发布了。太强了,它是国内第一个拥有 Sora2 这样分镜能力的模型,而且同时支持多镜头和音频原生直出。
做 AI 视频的人,都知道这个特性的珍贵之处。
1
没记错的话,PixVerse V5.5 是周一傍晚发布的。当晚我们第一时间就开始玩了,之所以没发文章,主要是案例没做完。
我的感觉是到现在的时间点,测评模型,我真的不想弄几个简单的提示词,然后放下视频效果。
这东西都不用说你,我自己也已经免疫。没趣。因为拿一组提示词,测试出来的视频效果,一方面随机性很强。另外一方面,它只是一个 Demo。
不放到真实的场景中,在模型同质化的今天,其实很难评估出来谁强谁弱,谁适合自己。
所以,我对自己的要求是,绝对不是走马观花的介绍,因为这事对于我也没什么意义。
我们公司今年在探索 AI 视频的业务,我的原则是,我们团队去测每一个模型,但不是简单的测试,而是要用它做出来一个相对完整的作品。这样,也不会白费功夫。
先跟大家说一下 V5.5 这次让我觉得很惊艳的地方。
核心还是进一步降低了视频创作的门槛。今年所有的视频模型,其实都是朝着这个方向发展的。
无论是提升质量,还是加音频、分镜,本质都是让用户可以更快的拿到心满意足的成品,而不是一次次的在失望的抽卡当中浪费时间。
Sora2 之前的 AI 视频模型,本质就是把图片转成一段动作连贯、画面清晰、符合物理规律的视频。正好年底了,大家可以想想,这是不是今年视频模型发展的主线。
后来,随着 Veo3 和 Sora 2 的到来,视频模型跨越到了音频和分镜阶段。
而这次,PixVerse  V5.5 也正式同时支持音频和多镜头配置,这意味着我们不仅可以控制视频的镜头语言,还能直接为视频加上配乐、台词和音效。
这么说不直观,大家看看下面我们抽的这段视频:
过去,肯定也能做出来类似的效果,只是非常复杂。
像今年七月,我们团队做另外一个作品时,想切分镜,那就只能抽出来不同的图片,转为视频之后再剪辑。剪辑好视频再配音。总之,能搞定,就是特别熬人。
举个例子,之前有个网红叫东北雨姐,她虽然后来被封掉了,但短视频行业还是非常认可他们团队的短视频能力。
在分镜设计上,东北雨姐的视频,每个动作时长都不会超过 2.08 秒。大概两秒切一条画面。
你想想,如果 AI 视频不支持分镜的话,也就意味着我们想做出来同样效果的视频,需要不断的生成图片,生成视频,再剪辑。效率极低。
2
PixVerse 的模型是自研的,很多人不知道。这家公司其实也是近两年 AI Video 领域的黑马。
之前他们公布过数据,全球的用户规模已经超过了一个亿。这个体量真不小了。
在国内,PixVerse 的名字叫拍我 AI。
我看到官方 V5.5 的公众号文章里,有句话是:让每个人都能做导演。这个表达我感觉很准确。
1.webp

过去几个月,我们团队提到最多的词就是导演思维。因为当视频模型成熟到一定地步时,决定片子质量的,就是创作者对故事、画面的驾驭能力。放到电影行业中,这属于电影导演的工作。
我试着解释下。
导演思维其实就是从整体上把握故事的表达。
它不单是拍摄技巧,更重要的是通过镜头切换、画面构图、背景音乐,甚至人物的表情变化,来传递情感和推动故事的发展。
导演就是通过这些元素,让观众感受到的是完整的情感流动,而不仅仅是单独的画面。
比如在看电影时,我们不仅仅关注演员演得如何,更重要的是感受导演如何通过镜头、光影、音乐等手段把每个场景的情绪传达出来。
镜头的切换可以让我们感受到人物心理的变化,音乐的起伏则能让我们更好地融入情节。
之前的 AI 视频制作,创作者需要自己去思考每一帧的构图、镜头切换、音乐搭配,甚至台词和情绪的调动。
而现在,有了 V5.5 之后,AI 会帮我们搞定这些复杂的决策过程。
它能够根据用户给出的提示词,理解场景中的情感需求,自动设计出合理的画面、镜头切换、音效和台词等元素,并让它们结合到一起,从而达成一个完整的叙事效果。
也就是说,用户不需要掌握专业的导演技巧,只要给出大致的方向,V5.5 就能像一个导演一样,规划出符合需求的视频内容。
这确实是一次质的提升。我估计,明年 AI 视频模型,都会朝着这个方向深耕细作了。
3
忍不住了。我觉得我该放我们团队的视频作品了。下面这全是我们用拍我 AI V5.5 做的。
为什么要做这事?因为今年大概年中的时候,我做过一期《木兰辞》的 AI 视频。当时预期不高,做完之后,放到社交媒体没再管。
但后来,断断续续总有人私信问我们要原视频素材,甚至还有人想付费购买。问了下才知道,很多老师、家长有这个需求。
因为古诗词是孩子们上学时候必须的知识。但诗词,我们都熟悉,它是通过寥寥几个词语来勾勒出来一幅丰满的画面。
对于涉世不深的学生,尤其是小学生来说,理解诗词的深意确实不容易。因为这些内容往往是抽象的,需要一定的想象力和感知力。
然而,如果 AI 能够帮助孩子将这些诗词中的画面生动地呈现出来,那就能大大降低理解的难度。
所以我们这期继续做这个方向。我选择的题材是杜甫的《闻官军收河南河北》。恰好歌手周云蓬唱过这首诗,我就直接给他的歌曲配画面了。
话说,这个方向我们团队也在摸索。有兴趣的同学,咱们一起交流。
4
怎么做呢?我下面给大家看看,用拍我 AI 的新模型,做出来一个叙事型的短片,到底有多简单。
先打开拍我 AI 的网站:
https://pai.video/

点左侧的视频 Tab,可以看到 V5.5 模型已经来了。下面两个选项,音频和多镜头就是我们前面提到的新能力,大家生成视频的时候,记得要打开。
2.webp

我相信大部分人生成视频的工作流仍旧是先做图片,再转视频。因为这样人物、场景的一致性问题才能得到解决。所以,图片的能力也非常重要。
我看了下,拍我 AI 的图片部分,目前支持 Qwen-image、Nano Banana Pro、Seedream 4.0,这也是目前行业里的头部图片模型了。
3.webp

做好诗词配图的前提是理解诗词。
我看到很多人的工作流是直接把诗词扔给 AI,让他来生成剧本。我觉得这不对。第一步应该是理解这首诗的时代背景,以及作者在这个大背景里的人生状态。
如果这些地方搞错了,那后面再精美的视频也会走偏。
所以,第一步,我们先理解这首诗。可以借助 AI 去理解,但我们作为导演,肯定不能把理解这件事让渡给 AI,要不然我们就失去了创作的核心。
AI 虽然可以帮助我们更快地呈现图像和场景,但它无法真正代替我们对作品的深刻理解和情感的把握。
在自己能够理解了诗词之后,我们进入到剧本创作阶段。剧本创作,当然是要借助 AI 了。给大家分享一个我的提示词:
为这首杜甫的诗《闻官军收河南河北》写一个国漫 2D 平涂风格的叙事视频剧本。要求:
1、分镜头数量不少于 16 个
2、剧本中分镜头的时长统一为 5 秒
3、每个分镜头中切镜的种类丰富,诸如同一画面的不同角度,比如正反打等。
4、设计的分镜头要附上这个画面的图片生成提示词和视频生成提示词,每个视频提示词中人物动作和镜头切换要非常详细,最好是强提示词。
5、根据这首诗的意境和创作背景来生成剧本,不要随意发挥。
4.webp

AI 生成的初稿,肯定多少和我们预期不一样。比如提示词,我们希望是英文,那就继续追加指令就好。这部分我不再啰嗦了。
总之,借助 AI,我们可以生成一个尚可的剧本出来,我们再在此基础上修改、优化就好了。相当于 AI 帮我们完成了从 0 到 1 的那一步。
到下一步就该基于提示词生成图片了。
我先生成了杜甫和他妻子的形象,为了后面保持人物一致性用。然后用生成出来的杜甫形象,输入提示词,生成出“剑外忽传收蓟北”的其中一张图片。
提示词:
国漫 2D 平涂风格,清晨薄雾。古代信使骑马高速靠近,衣甲破损但简化处理,动作急促。杜甫站在画面侧前方,披着略旧的青灰长袍,表情惊愕。背景为简单的乡路轮廓与淡远山线。线条干净、明暗平涂、光影轻微。
5.webp

生成出来的效果如下:
6.webp

继续用生成出来的杜甫形象,输入提示词,生成出“初闻涕泪满衣裳”的其中一张图片。
提示词:
国漫 2D 平涂风格,特写。草堂室内,杜甫双手展开战报,眼中泪光闪烁。军报字体简化。背景虚化为单色浅调,不描绘复杂背景。情绪强烈。背景为简简单单的草堂线条。光影柔和。
生成出来的效果如下:
7.webp

然后用这张图片做视频,输入提示词:
Camera Movement:
极近距离特写,卷轴缓缓展开(军报字体简化)
切到杜甫眼部特写,眼角泪水快速积聚
慢慢 push-in 到眼泪滑落
轻微抖动镜头表现情绪波动
Shot Type:
Extreme close-up → eye close-up → emotional push-in
Character Action:
杜甫双手略微颤抖
眼睛快速湿润,泪水滑落沾湿衣襟
呼吸短促,胸腔轻微起伏
Emotion:
情绪爆发但抑制,喜极而泣
Lighting:
柔光直打脸部,无复杂阴影
眼泪以平涂高光表现,不加复杂反射
8.webp

生成出来的效果如下:
接下来,就是按照这个流程,生成对应画面的图片,然后再把图片转为视频。我不再一一介绍。
这么说吧,随着模型的进步,生成画面的门槛已经不高了,但毕竟 AI 视频还需要抽卡,所以我感觉它对人的耐心要求还是很高。起心动念想做一个成品视频前,先告诉自己:要有耐心。
V5.5 这个模型整体真的很强,能节省我们不少精力。
5
至此,我觉得可以算得上是一个相对完整的教程了。
V5.5 这次的提升让我非常期待 V6.0 模型。如果分镜和音频能力再进一步的话,我们的创作效率会大幅提升。
说实话,这次 V5.5 模型也不错了,但仍然需要我们反复抽卡,需要我们对提示词还是有一定的驾驭能力,不过,我觉得这些问题在未来几个月内,会进一步得到解决。
说点感性的话。
这两天我们团队在准备 AI Maker Summit,下周就要开幕。我给参会者写了一封信,其中有句话:
我喜欢 Maker 这个词。AI 已经充分释放了我们的创造力,所以,Make Something,Build Something。失败就失败了,怕什么。最主要的是不能眼巴巴看着时代从眼前呼啸而过。
这是我内心的真实想法。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-12-4 23:32 , Processed in 0.183448 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表