马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
这是珞珈的第66篇文章大家好,我是珞珈Lorjia,
96年上市公司管理岗,在职场玩副业,探索「AI超级个体」,分享个人成长、商业思考、副业赚钱、AI探索等干货内容。
谷歌最强的图像模型,终于正式上线了!
它就是之前在AI圈疯传的,那个以“Nano-Banana”为代号、在LMArena图像模型竞技场上神秘登顶的王者。
不仅生成速度非常快,而且在角色一致性上又有了大幅提升,可控性非常强大。
当时无数网友在上面盲测,都被它惊艳的效果折服,但却一直没有官方认领……
现在,谷歌终于官宣了:Nano-Banana的真身,就是最新的Gemini 2.5 Flash image模型!
在获得了超过500万次社区投票后,它在图像编辑竞技场中稳居第一,直接把flux和GPT的图像模型甩在身后,非常牛!
最关键的是,现在每个人都能免费用了!可以直接在Gemini App里,或者在Google AI Studio中体验。
传送门:https://aistudio.google.com/
进入主页后,记得选择「Gemini 2.5 Flash lmage Preview」模型,这个就是现在非常火的Nano bananna模型。
接下来,就带大家快速体验一下,这个“Nano-Banana”图像模型到底有多强。
一、角色一致性
以往的AI绘画,最头疼的就是角色一致性,而Nano banana在这一点上,有了质的飞跃。
你只需上传一张人物或宠物的照片,就能把它无缝置入任何新场景,并且五官、神态、特征保持高度一致。
也可以尝试穿上不同的服装或从事不同的职业,甚至看看十年后的自己是什么样子——所有这些都可以保持角色的一致性。
比如上传了2张角色的图片,一个是短发女生,另外一个是穿着牛仔外套的小哥。
然后让它生成一张电影剧照,一男一女穿着深色飞行服,背着跳伞装备,坐在小型飞机敞开的舱门边,飞机正飞越白雪覆盖的山脉,雪花飘进机舱,看着就很刺激 。
也可以是雪天的街上,一对男女挨得很近,相互望着,女的手搭在男的胸口,氛围挺暖 。
可以看到,两个角色的面部特征,无论从哪个角度看,都保持得非常好,表情也相当到位。
最近用Nano Banana制作手办在小红书上真的非常火,只需要上传一张图片+提示词就可以生成自己的专属手办。
我在一篇笔记评论区还看见很多咨询怎么收费,问用的什么打印机做的,甚至还有美国的客户咨询订单...
其实这些手办都是用谷歌的Nano banana模型生成的。
比如我上传了一张火影忍者鸣人的图片,输入以下提示词,Nano banana就可以直接生成手办图。
💬提示词:Create a commercial 1/7 scale figurine of the character in the picture was created, depicting a realistic style and a realistic environment. The figurine is placed on a computer desk with a round transparent acrylic base. There is no text on the base. The computer screen shows the Zbrush modeling process of the figurine. Next to the computer screen is a BANDAI-style toy box with the original painting printed on it.
生成的手办图质感,光影、细节、涂装都无比逼真,真实感十足。
官方甚至还有一个更牛的案例:上传2张角色图,就能直接生成带有连续剧情的12张分镜故事。
💬提示词:Create an addictively intriguing 12 part story with 12 images with these two characters in a classic black and white film noir detective story. Make it about missing treasure that they get clues for throughout and then finally discover. The story is thrilling throughout withemotional highs and lows and ending on a great twist and high note. Do not include any wordsor text on the images but tell the story purely through the imagery itself.
二、图像融合
Gemini 2.5 Flash 图像融合能力,也达到了一个新高度,可以上传多张照片并将它们混合在一起,打造一个全新的场景。
最基础的,你只要上传自己和狗狗的照片,就可以生成一张你们俩在篮球场上的合影。
更进一步,是风格迁移。想要生成特定的艺术风格、设计或纹理?
Gemini 2.5 Flash 现在可以轻松地将一张图片的风格迁移到另一张图,同时保留前一个主题的形式和细节。
比如,上传一张普通人像,再加一张红色剪纸风格图。
Gemini 2.5 Flash就可以完美的把原图转为红色剪纸风格,同时保留所有五官和服饰细节。
最惊艳的,是多图创意融合。
你可以输入多张图片混合不同的元素,生成一张独一无二的创意图,比如,同时上传一张“落日冰山”和一张“跃出海面的鲸鱼
只需要一句话,就能把两张图片无缝合成一张图,而且毫不违和,效果非常好。
三、图像编辑
你可以像玩模拟人生一样,对一张图进行持续编辑。
比如,先让Gemini 生成一个空房间,然后让它“刷墙”,再依次“添加书架、家具、咖啡桌”,Gemini 会精准修改你指定的区域,而其他部分保持不变。
图像编辑功能除了在建筑设计行业,在电商领域的用途也非常大, 比如电商模特换装、产品换背景等等。
为了测试极限,我没有只换一件衣服,而是同时上传了一张模特图,以及裙子、手提包、耳环、高跟鞋四张独立的商品图。
输入一句提示词,让模特穿上图2、3、4的所有服装和配饰。
结果让我大为震撼,这个多图可控性非常强,我只是上传了一张模特和服装、配饰,加上一句提示词。
它不仅一次性把所有服饰配件都精准地“穿”在了模特身上,而且光影、褶皱、佩戴位置都极其自然。
这再次颠覆了传统的电商设计工作流。
四、现实世界的推理
说实话,前面几个功能,虽然强,但还不算让我特别惊讶。
真正让我感到震惊的,是它的现实世界推理能力——它不再是单纯地“画画”,而是开始“理解”这个世界了。
前段时间Google刚出了世界模型,基于这个世界模型,Gemini 2.5 Flash 可以推断出图像中显示的时刻之前或之后发生的事情。
比如,你先生成一张“气球飘向仙人掌”的图。 然后,你问它:“想象一下接下来会发生什么?”
它竟然能准确预判出“气球会被扎破”,并生成了气球爆炸的瞬间!
基于以上的这个能力,X上各路大神已经玩疯了。
在X上有位大神的创作更牛,用Nano banana制作出来图片后,再用Veo 3制作视频,然后把第一个视频片段的最后一帧截取下来。
再用Nano Banana,让它自己生成下一个场景,例如「角色转向走廊」,循环以上操作。
直接做出了一部游戏电影:
说实话,这是真正的有了点世界模型的感觉,是真正远超其他单一图像模型的底层能力来源。
如果你觉得直接让Nano banana猜测下一秒生成的画面不可控。
我在X上看见有位大佬一个非常有意思的玩法,就是上传两张角色图,直接用火柴人简笔画,来指挥角色摆出相应的动作。
可以看到,角色的一致性完美保持,动作也精准复刻了简笔画的姿态,这个真的非常牛!
只要配合AI视频工具,真的可以直接做出一部动画片和电影了。
别说,这位作者,真的用这个方法做出了一部完整的动画短片,给跪了……
这,才是谷歌的Nano-Banana真正拉开与其他模型差距的底层能力。
一个新的创作时代,真的来了。 |