昨日,Google AI Studio 公布了旗下热门图像生成模型 Nano Banana 的官方提示词及使用教程。这份指南提供了创建照片一样的真实场景、风格化的插图与贴纸、准确的文字渲染、商业产品用图、极简构图、以及漫画和故事板六种方案,其对应的模板提示词。这些提示词能够充分发挥 nano banana 的潜力,关键在于遵循了这一有效提示词基本原则。描述场景,而不仅仅是列出关键词。模型的核心优势在于其深度语言理解能力。相比简单的、零散的词语列表,一个叙事性、描述性的段落,几乎总是能产生更好、更连贯的图像。另外,我们之前也分享了多个使用 nano banana 进行图片编辑的案例,无一不被它的一致性保持能力所震撼。🔗 nano-banana 小白速通指南:这些邪修玩法太香了,生成3D手办已经过时 | 附提示词奥迪方向盘或从超百款减至 3 款
据 AutoExpress 报道,奥迪 CEO Gernot Döllner 和首席创意官 Massimo Frascella 接受采访时透露,奥迪旗下的车型未来可能会收紧「个性化」,并努力重塑美学语言与产品结构。两人通过报道表示,奥迪现在的车型配置过于复杂,配件与选项层出不穷,却未必真正为用户带来附加价值。Frascella 指出:「我们正在思考如何重构这种差异化。关键是要提供附加价值,而不只是为了差异而差异。」Döllner 进一步指出,当前的产品复杂度已经难以可持续,例如:目前奥迪提供了超过 100 种方向盘版本,而他们认为只需要三到四种即可。通过精简,品牌将把更多资源投入到提升品质和识别度上,形成更统一的品牌体验。昨天,奥迪还发布了 Concept C 概念车,整车造型能看到许多热门轿跑车的影子,比如向「银箭」赛车致敬的奥迪 Rosemeyer。而 Frascella 在介绍这款车的设计理念时说:我们希望从内到外「将一切简化为本质」来拥抱「彻底的简单」。🔗 相关阅读:一块钢板的艺术之旅:奥迪新概念车 Concept C 想要带你回到千禧年腾讯混元世界模型上新,综合能力获第一
日前,腾讯混元 3D 世界模型系列最新成员 —— HunyuanWorld-Voyager(混元 Voyager)正式发布,号称「业界首个支持原生 3D 重建的超长漫游世界模型」。该模型聚焦于 AI 在空间智能领域的应用扩展,将为虚拟现实、物理仿真、游戏开发等领域提供高保真的 3D 场景漫游能力。据官方介绍,混元 Voyager 突破了传统视频生成在空间一致性和探索范围上的局限,能够生成长距离、世界一致的漫游场景,支持将视频直接导出为 3D 格式。混元 Voyager「3D 输入- 3D 输出」的特性,与此前已开源的混元世界模型 1.0 高度适配,可进一步扩展 1.0 模型漫游范围,并可对生成的场景做风格化控制和编辑。混元 Voyager 还可支持视频场景重建、3D 物体纹理生成、视频风格定制化生成、视频深度估计等多种 3D 理解与生成应用。技术方面,混元 Voyager 首次通过空间与特征结合的方式,支持原生的 3D 记忆和场景重建;在输入端加入 3D 条件保证画面视角精准,输出端直接生成 3D 点云。同时 Voyager 还引入了可扩展的世界缓存机制,基于 1.0 模型生成的初始 3D 点云缓存,将其投影到目标相机视图,为扩散模型提供指导。值得一提的是,该模型在斯坦福大学李飞飞团队发布的世界模型基准测试 WorldScore 上位居综合能力首位,超越现有开源方法,在视频生成和 3D 重建任务中均表现出色。在视频生成和视频 3D 重建两个任务上,Voyager 也均取得更好的结果。HunyuanWorld-Voyager 现已正式上线,相关技术报告已公开,源代码在 GitHub 和 Hugging Face 上免费开放。项目主页:https://3d-models.hunyuan.tencent.com/world/Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-VoyagerHugging Face:https://huggingface.co/tencent/HunyuanWorld-Voyager技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdfGoogle 垄断案裁定公布:无需出售 Chrome
日前,美国联邦地方法院法官 Amit Mehta 在 Google 搜索垄断案裁决中表示,Google 无需出售其浏览器 Chrome 或操作系统 Android,但必须停止部分排他性协议,并向竞争对手开放搜索数据,以促进市场竞争。法官在判决中强调,强制拆分 Chrome 或 Android 会带来复杂影响。其指出,近年来生成式人工智能的兴起已改变搜索市场格局,使得过度干预不再必要。此次裁决明确禁止谷歌签订排他性协议,将 Google Search、Chrome、Assistant 和 Gemini 应用设为默认选项,同时要求谷歌向合格竞争对手提供搜索索引及用户互动数据的访问权限,为其开发搜索服务提供基础。Google 则在官方回应中称,对裁决中的数据共享规定和隐私影响存在担忧,决定将「认真评估」该判决,并计划提起上诉,预计此案可能上诉至最高法院,过程将持续多年。即梦 AI 上线火山引擎并开放 API 服务
昨日,火山引擎、即梦 AI 正式宣布:即梦 AI 正式上线火山引擎,面向企业开放 API 服务,涵盖图片生成、视频生成、数字人生成三大类,以及多款即梦 AI 同源前沿模型。本次共包括「图片创作」「视频创作」「数字人」等各方面,具体来看:
图片创作:包括即梦 AI 文生图 3.0、文生图 3.1、图生图 3.0,能够覆盖海报设计、照片生成、图像精准编辑等功能;
视频创作:包括即梦 AI 视频 3.0/3.0 Pro,支持专业级可控运镜和 1080P 高清渲染、根据文本指令完成镜头切换等功能;
数字人:即梦 AI 数字人从易用性出发,推出音频或视频驱动的单图数字人玩法,用户只需一张图片、一段音频或视频,即可让人物、卡通、虚拟形象瞬间「燃起来」。💡 Plaud CEO:未来十年,人人都有一个可穿戴 AI 设备
近期,《福布斯》发布了一篇关于 AI 硬件厂商「Plaud」的相关报道,并且 Plaud 创始人许高接受了采访,分享了自己在做硬件以及观望未来的想法。据报道,自 2023 年以来,Plaud 已向全球销售超过 100 万台 NotePin,每台售价 159 美元 。配合每年 99 美元的 AI 转写订阅服务,Plaud 年度营收达 2.5 亿美元,且保持接近 25% 的毛利率,媲美苹果等科技巨头。报道指出,现在也越来越多 AI 大厂选择加入「AI 硬件」这条赛道:
OpenAI 联合苹果前首席设计官 Jony Ive 打造「io」的 AI 硬件品牌,并计划明年推出首款产品;
亚马逊收购了一家名为「Bee」的笔记记录设备初创;
Meta 联合雷朋推出了畅销的 Ray-Ban Meta AI 眼镜,今年还有望推出走量的带屏眼镜「Hypernova」。在许高看来,AI 硬件也是未来趋势。他认为,未来每个人都会佩戴 AI 可穿戴设备,这将可能成为比智能手机更广泛的普及趋势。但他也坦承,目前仍有怀疑声音认为,未来类似功能可能被智能手机或其他大厂以应用形态集成替代。在未来十年,每个人都将拥有一个可穿戴的 AI 设备。比较有趣的是,报道也提到,Plaud 似乎有自己的「一片领地」:其专注会议记录这一垂直场景,并深挖用户使用体验;若能继续提供差异化、专业化服务,即使大厂进入,也不一定能轻易撼动其市场地位。ColorOS 16 将于 10 月亮相