马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
大家好啊,我是甲木。
年前这段时间,整个 AI 圈属实太卷了..
Claude更新,OpenAI更新,各家云厂商开始加班加点支持OpenClaw,
豆包seedance2.0更新,可灵3.0也更新了,
过两天还有新东西要发布,这周卷麻了,新年是模型年...
前段时间我写了一篇文章,专门介绍了 Qwen3-Max-Thinking,但是很纳闷,为啥他们的图像模型一直没更..
终于,就在今天,阿里千问正式发布了 Qwen-Image-2.0
一个把文生图和图像编辑结合在一起的模型。
而且这次,我的体感是:
千问终于补齐了AI绘画这块拼图
为什么这么说?
先看特性,再上实测。
这次更新了什么?
其实现在各家模型厂商,在AI生图方面已经拉不开太大差距了,
剩下的多是细节表现,
我们简单来看看 Qwen-Image-2.0 更新的重点,剩下直接看实际场景了。。
指令遵循,渲染能力强
输入的提示词长度变成了1k,上一个版本是512,
长了可以写得非常详细和具体,同时还可以选择是否需要优化prompt。
这点,对于新手AI玩家,很具有吸引力。
另外一个痛点就是,之前的模型,你让它在图上写几个中文字,十有八九会鬼画符。英文勉强能用,中文基本没法看。
Qwen-Image-2.0 直接把渲染字符数拉到了 1000+,而且不只是"能写出来",
连画面上那些微小的字体,都能做到不错的效果。
人物质感,终于不"油腻"了
以前 AI 生成的人脸,皮肤像打了十层精华,毛孔全被磨掉,自带"高级美颜"效果..
Qwen-Image-2.0 在人物皮肤肌理和自然纹理上做了大幅优化。
实测下来,皱纹、毛孔、发丝、雀斑这些细节都能看到,显著降低了那种一眼就能认出来的AI 假人感。
其他几个关键升级
- 2K 高清直出:分辨率拉满,细节经得起放大看
- 提示词长度翻倍:从 512 升到 1K tokens,可以写得非常详细
- PPT / 信息图直出:复杂逻辑、图文混排、甚至"图套图"式的嵌套结构都能搞定
- 更强的语义遵循:数量、方向、空间关系这些传统生图模型容易翻车的地方,明显更准了
说完特性,还是要看实战场景的。
这次我设计了 文生图 + 图像编辑 两大类,总共十几个场景,挑最有代表性的给大家看看。
文生图实测:6 个方向
01|赤壁怀古·书画一体(书法渲染 + 场景绘画)
这个场景我必须第一个放。
因为这是 Qwen-Image-2.0 最惊艳、也最核心的能力。
我直接让它画一幅"书画合一"的赤壁图——上方是水墨赤壁战场,下方用行书写满苏轼的《念奴娇·赤壁怀古》全文:
一幅中国传统书画一体的横幅长卷作品,宣纸质地背景,纸面带有自然的纤维肌理和岁月泛黄的效果。
画面上半部分为水墨写意的赤壁之战场景:长江江面辽阔,惊涛拍击岸边嶙峋的赤色崖壁,浪花飞溅如千堆白雪。江面上数艘三国时期的战船破浪而行,船头高昂,桅杆上战旗猎猎飘扬。远处赤壁矶巍峨耸立,崖壁陡峭,乱石直插云天。天际有几只飞鸟掠过苍茫的江雾。整体用墨分五色,远山淡墨虚化,近处崖石浓墨皴擦,江水以流畅的线条表现波涛汹涌。
画面下半部分留白区域,用行书完整书写苏轼《念奴娇·赤壁怀古》全文:"大江东去,浪淘尽,千古风流人物。故垒西边,人道是,三国周郎赤壁。乱石穿空,惊涛拍岸,卷起千堆雪。江山如画,一时多少豪杰。遥想公瑾当年,小乔初嫁了,雄姿英发。羽扇纶巾,谈笑间,樯橹灰飞烟灭。故国神游,多情应笑我,早生华发。人生如梦,一尊还酹江月。"书法笔力遒劲,墨色浓淡自然,行笔有提按顿挫的节奏感。词末落款"东坡居士书于元丰五年",旁配一枚朱红色方形篆刻印章。
整幅作品上方的水墨画面与下方的书法词作浑然一体,画是词的意境,词是画的注脚。古朴典雅,有博物馆收藏级的艺术质感。
来看看生成的最终图片,
Qwen-Image-2.0直出书法 + 水墨画同框,战船、崖壁、惊涛、书法全都在一张图里..
这种“书画一体”的效果,其它家做的还真一般,
不信?我们来看看 NanoBanana Pro🍌的表现:
文本错位、字体有误、重复行文,坑还是挺多的,
看得出来,在文本渲染层面,这次是下功夫了...
02|旅行攻略信息图(复杂排版 + 长 Prompt)
官方说"能直出旅行路线图",那我就出一个信息量拉满的:
设计一张竖版的"云南7日自驾游攻略"旅行信息图海报。整体风格清新明亮,背景为浅青绿色渐变。
顶部大标题用粗体白色字写"云南7日自驾精华路线",副标题为"昆明→大理→丽江→香格里拉"。
信息图主体为一条从上到下蜿蜒的虚线路线,路线上标注7个站点节点,每个节点用圆形图标表示:
第1天:昆明·翠湖公园 — 旁边标注"过桥米线 | 鲜花饼" ;第2天:大理·洱海环湖 — 旁边标注"白族扎染体验" ; 第3天:大理·苍山索道 — 旁边标注"海拔3966米" ; 第4天:丽江·古城夜游 — 旁边标注"纳西古乐 | 酒吧街" ; 第5天:丽江·玉龙雪山 — 旁边标注"蓝月谷必去" ; 第6天:香格里拉·普达措 — 旁边标注"高原湖泊 | 牦牛" ; 第7天:香格里拉·松赞林寺 — 旁边标注"小布达拉宫"
底部用小号字体列出实用信息栏:"预算参考:人均约4500元"、"最佳季节:4-6月 / 9-10月"、"注意事项:备好防晒和高原药物"。
里面每一天去的景点,都相应的进行了配图,一键生成7 个站点、每个站点带文字标注、底部还有实用信息小字..
这种信息密度,对之前的生图模型来说还是有难度的。。
03|电影级人物肖像(2K 高清 + 人物真实质感)
这个场景专门用来验证"AI 去油"效果。
我特意选了一个老年人的肖像,因为皱纹、斑点、胡茬这些细节,最容易暴露 AI 生成的破绽:
一位约六十五岁的中国老渔民的特写肖像照,2K超高清画质。他面朝镜头微微侧身,脸上带着饱经风霜的从容笑容,眼角有深深的鱼尾纹,皮肤黝黑粗糙,额头和脸颊有清晰的日晒斑和毛孔细节。花白的短发被海风吹得微微凌乱,下巴上有稀疏的白色胡茬。他穿着一件洗得发白的深蓝色粗布衬衫,领口微敞。背景是清晨金色阳光下模糊的海面和渔船轮廓,逆光在他的发丝边缘形成一圈温暖的光晕。整体氛围像《国家地理》杂志的封面人物摄影。
这个光影也太细了..大家可以仔细看看面部细节,毛孔、皱纹、发丝上的光晕..
如果不告诉你这是 AI 生成的,你能认出来吗?
04|中英双语商业海报(微小字体吻合度)
这个场景的重点不在大标题,而是杯身上那行弧形英文小字——模型能不能让文字和曲面自然贴合:
设计一张新中式茶饮品牌的产品宣传海报。画面中央是一杯桂花乌龙拿铁,透明玻璃杯可见分层效果。
海报上方用书法金色字体写"桂香雅韻",下方英文副标题"Osmanthus Oolong Latte — A Taste of Oriental Elegance"。左下角竖排小字"精选安溪铁观音 · 手摘金桂 · 新西兰进口乳源"。右下角品牌区"茗悦 MINGYUE"和"EST. 2024 · 东方新茶饮"。
杯身上有一行弧形小字"HANDCRAFTED WITH LOVE",字体弧度与杯身曲面完美贴合。
重点看三个地方:
- 书法大标题“桂香雅韻”:是否端正有力
- 左下角竖排小字:是否清晰可读
- 杯身弧形英文:是否跟曲面对齐
前两者做的都挺好,在第三个杯身弧形这块,曲面跟我们理解的稍有不同,
这块还是有点瑕疵的,其它整体效果都很好。
05|PPT 幻灯片直出(图套图结构)
这个基本上是很多AI生图都会测试的场景。
因为如果 PPT 真能直接用 prompt 生成,那对于日常汇报来说,效率提升会非常大:
设计一页"2025年中国新能源汽车市场概览"的专业PPT,16:9深色科技风。
左侧占60%:一个迷你柱状图"2021-2025年销量趋势",5根柱子分别标注"350万""689万""950万""1200万""1580万",下方红色文字"同比增长31.7%"。
右侧占40%:三个数据卡片纵排——"62.3% 渗透率""第1名 全球市场份额""487万 充电桩保有量"。
底部小字"数据来源:中国汽车工业协会 | 制图:甲木研究院"。
一张图里同时有柱状图、数据卡片、标题、脚注..
这就是"图套图"能力的实战价值。虽然还达不到 PowerPoint 精准排版的水准,但作为快速出稿的起点,已经非常够用了。
06|图文菜谱卡片(Prompt 全量遵循)
最后这个场景,测的是"你给了一大堆信息,它能不能一个都不漏":
设计一张"麻婆豆腐"图文菜谱卡片,背景为浅米黄仿牛皮纸质感。
顶部毛笔字"麻婆豆腐",右侧标注"川菜经典 · 难度★★★☆☆ · 20分钟"。下方成品图俯拍角度。
左栏"食材准备":嫩豆腐1块、牛肉末100g、郫县豆瓣酱2勺、花椒粉1小勺、蒜末姜末葱花适量、生抽料酒水淀粉各1勺。
右栏"制作步骤":①豆腐切块焯水 ②炒香牛肉末 ③加豆瓣酱炒红油 ④加水放豆腐煮3分钟 ⑤勾芡撒花椒粉葱花。
底部"小贴士:豆腐提前用盐水浸泡10分钟,口感更嫩滑不易碎"。
食材 6 项、步骤 5 项、标题、标注、小贴士..
这个 prompt 大概占了 300+ tokens,传统 512 上限的模型可能直接截断。1K 的提示词长度在这种信息密度场景下,优势就出来了。
图像编辑实测:5 个方向
Qwen-Image-2.0 另一个大亮点是图像编辑能力,不是滤镜调色那种,而是真正理解你的指令去改图。
07|多人物照片合成(光影统一、复杂场景表现)
输入两张独立人物照片,让模型把两人自然合成到同一个场景:
将图1中的男生和图2中的女生合成到同一张照片中:两人并肩坐在日式居酒屋吧台前。男生保持白衬衫造型自然侧头,女生穿着图2中的牛仔外套低头微笑看手机。光线为暖黄色室内灯光,保持两人原始面部特征和肤色不变。
人物一致性保持、服装保持,包括日式居酒屋的环境,还挺惊艳的。
08|风格迁移:照片 → 中国水墨画
这个场景测的是模型对中国传统艺术风格的理解深度。
不是简单加个黑白滤镜,而是要真正画出水墨的笔触质感:
将这张桂林山水照片转换为中国传统水墨画风格。远山用淡墨渲染,近处山石用浓墨勾勒,江面几笔淡墨横扫。右上角添加竖排行草题字"漓江烟雨",左下角添加朱红色印章。
如果它能把笔墨的干湿浓淡都表现出来,而不是简单的去饱和度处理,那就说明模型真的“理解”了水墨画。
09|图上添加古诗词(编辑侧文字渲染)
在已有照片上精准叠加中文文字,这个能力之前几乎没有模型能做好:
在这张秋景照片的右侧区域,竖排添加杜牧《山行》全诗:"远上寒山石径斜,白云生处有人家。停车坐爱枫林晚,霜叶红于二月花。"楷书字体,深棕色,下方署名"杜牧"配小型朱红印章。
28 个汉字,竖排楷书,颜色和秋景融合..
这个场景特别适合做社交媒体的图文内容,以前只能用 PS 手动加,现在一句话搞定。
10|九宫格组图(一致性 + 数量遵循)
让模型基于一张人物照片,生成 9 种不同姿态的组图。这个场景同时考验两件事:人脸一致性和数量准确性。
基于输入照片,生成3×3九宫格组图,人物保持同一面貌,分别展现:
1.双手托腮微笑 2.侧面45度看镜头 3.低头看书 4.开怀大笑 5.单手撩发 6.双手比心 7.手持咖啡望窗外 8.背对回眸 9.闭眼享受阳光
统一暖色调自然光,白色T恤,奶油色虚化背景。
当然,人脸一致性这块有几张图片还是稍有瑕疵..让它生成 9 张,不是 8 张也不是 10 张。
之前测其他模型的时候发现,很多模型在“数量遵循”上经常翻车,比如让它画 10 个五角星,结果出来 7 个或 12 个..
11|局部元素精准替换(多指令同时执行)
最后这个编辑场景,难度拉满:那我们之前用过的美队老哥,让它同时改掉多个元素:
把图一美队的盾牌换成图二雷神的风暴战斧,顺便把美队的标志性装备也换成它,其它均不变,请输出一张不同武器风格的美队卡片
帅气小哥出现涉及文字替换、物体替换、物体添加,还要保持整体画面一致..
12 | 动漫角色设定图
一张图里包含正面立绘、5 种表情合集、道具细节放大图,旁边全是中文标注。这就是标准的"图套图"应用。
设计一张日系动漫女性角色的完整设定图(Character Sheet),白色干净背景。
画面分为三个区域:
左侧:角色的正面全身立绘——一位18岁的中国少女,黑色齐腰长发,发尾渐变为深蓝色,佩戴金色发簪。穿着改良版白色汉服上衣搭配黑色百褶短裙,脚踩白色长靴。右手持一把折叠的纸扇,扇面画有水墨山水。
右上:角色的面部表情合集(5个小格)——分别展示"微笑"、"生气鼓腮"、"惊讶张嘴"、"冷酷侧目"、"害羞低头"五种表情。每个表情下方标注中文情绪词。
右下:角色的道具和细节放大图——展示发簪的金色纹样细节、纸扇展开后的水墨画面、靴子侧面的暗纹图案。每个细节旁用小字标注材质说明,如"材质:赤金镂空"、"扇面:仿宋院体山水"。
页面顶部标题写"角色设定:苏若晴 / Su Ruoqing",底部标注"身高:165cm · 属性:风 · CV:待定"。
13 | 手绘概念分解图
之前🍌特别火的时候,流行概念分解图,同样可以复刻。
拿出来热巴的一张图片,直接输入prompt
生成一张手绘风格的时尚角色深度解析图,强调光影与材质感。顶部是一排四个角色的面部表情头像(“平静”、“莞尔一笑”、“惊愕”、“大笑”),并标注文字。画面中心是参考图中女性的全身坐姿手绘像,她姿态慵懒优雅地斜坐在一个粉色的几何台面上,身体微微后仰。她有着深色盘发,皮肤上粘着散落的珍珠。她穿着银色反光叶片材质拼接的抹胸礼服,粉色缎面边缘清晰可见,双腿交叉展示出银色细带高跟鞋。手绘笔触要体现出银色叶片在暖光下的闪烁感。
左侧重点展示独特的身体装饰与材质:一个大的圆形区域展示“肩颈珍珠妆造细节”,旁边是“银色叶片堆叠纹理”和“粉色丝绸光泽”的材质色卡。 右侧展示配件分解:提取出她脚上的“银色细带凉鞋”,以及手上佩戴的“天运戒指”特写图。背景融合了手绘笔触的暖粉色调影棚环境和光影效果。
稍等片刻,一副拆解手绘图就出来了~
神态还原度百分百,还把关键的信息全部提取出来。
14 | 火柴人讲解万物
我们可以直接输入想要讲解的内容,然后让模型生成。
请根据用户输入内容提取核心逻辑,生成一张“专家白板教学”风格的信息图:
- 构图: 横版(16:9),背景为干净的白色白板或浅灰色网格纸。
- 视觉元素: 使用马克笔手绘质感的线条、箭头和方框来构建流程图或思维导图。
- 角色: 画面角落可以有一个简笔画火柴人作为讲师在指点关键数据。
- 文字: (中英文结合)标题使用粗体手写风格,正文精简为关键词,使用不同颜色的马克笔(红、蓝、黑)区分重点。- 留白: 保持 30% 以上的留白,避免拥挤,确保一眼能看清逻辑流向。
——
用户输入内容:破窗效应
非常真实....就跟老师在黑板上写的一样.
其实除了这些场景,我还测了电影分镜故事板、科研论文配图、产品爆炸拆解图等各种创意场景,
这些创意场景的共同点是:信息密度极高、中文要求极强、结构复杂。
放在半年前,这些需求只能用 PS + Illustrator 手动拼。
现在一段 prompt,等几十秒就出来了,
最主要的国产,非常便宜...(还没有网络问题)
当然,也不是没有待提升的地方。
比如在某些超复杂的排版场景下,文字偶尔还是会有瑕疵;人物肖像虽然质感大幅提升,但在某些极端光线条件下还是能看出 AI 痕迹。
结语
测了这一圈下来,我最大的感受是:
千问在"图片生成"这件事上,终于找到了自己的差异化路线。
不是跟 Midjourney 比谁画得更像油画,
也不是跟 DALL-E 比谁更有创意,
而是猛攻中文渲染、信息图直出、复杂指令遵循这些最具实用价值的方向。
你用它做海报、做 PPT、做菜谱、做攻略图、做产品说明,这些都是能直接拿来干活的,表现还是可圈可点的。
这才是"AI 生图"从玩具变成工具的关键一步。
当然,坦白来说,我觉得它在部分地方的实力还是略逊于 NanoBanana Pro的,
但在国内的整个AI生图领域,是毫无疑问的第一梯队。
作为一个长期关注千问生态的人,我觉得阿里在 AI 这条路上的节奏越来越清晰了——
不只是做一个强的模型,而是做一个全的生态。
从 Qwen3 语言模型到 Qwen-VL 视觉理解,再到现在的 Qwen-Image-2.0 图像生成..
文本能用千问,图片能用千问,代码能用千问,甚至 PPT 也能用千问。
这个“全家桶”的覆盖面,还得是大厂的实力。
大家可以直接去 「千问APP」 体验一下 Qwen-Image-2.0。
大家可以再喝着千问给你的奶茶🧋同时,玩着千问AI生图,
当然,也期待千问继续往前冲。
这周的模型更新号角由千问吹响了,
且看之后各家动作!
以上。 |