找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 92|回复: 3

ChatGPT能说能听能看了 但是朋友圈已经不关心了

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2023-10-15 13:56 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
9月25日晚上,OpenAI的CEO Sam Altman突然放出了大家期待已久的大招:
ChatGPT将在未来几周内开放语音和视觉功能,也就是官方形容的,ChatGPT现在能看,能听,能说了。
1.jpg


并且放出了一个非常直观的视频,展示ChatGPT的视觉能力
AI相关的自媒体迅速行动起来抢热点,这是难得的爆炸新闻,还有官方的视频素材,(可惜TechVerse今天推送过文章,所以只能在今天凌晨发出这篇文章)。
但是,在无法第一时间抢热点的焦虑中度过一段时间后,我发现,除了自媒体们,大家并没有想象的激动,我也没有在朋友圈看到刷屏的自行车。没有了转发的“魔法”,“革命”,“太强了”, AI也开始经历Web3的旅程,变得没人关心了。
这其中的原因,被大家讨论过很多遍了,过高的预期和今天AI的能力限制的矛盾,让越来越多的人不再那么兴奋,可是今天这样的大招都没能掀起刷屏,也着实让人惊讶,AI凉的速度之快。但是,科技的浪潮就是在这样的泡沫和低谷中交替前进的,今天发布的新功能,可能正是解锁LLM场景的一把钥匙:
2.jpg


概括一下ChatGPT发布的功能:
OpenAI正在ChatGPT中推出新的语音和图像功能。这些新功能提供了更直观的交互方式,允许用户与ChatGPT进行语音对话或向其展示正在讨论的内容。
主要值得关注的点包括:
用户现在可以与ChatGPT进行语音交谈,它可以回复你。这个新功能由文本转语音模型提供支持,可以从文本和少量语音样本生成逼真的语音。
用户现在可以在ChatGPT中展示一张或多张图像,以获取相关帮助和见解。在移动应用上,可以使用绘图工具聚焦图像的特定部分。这些视觉能力由多模态GPT-3.5和GPT-4提供支持。
OpenAI正逐步推出这些新功能,以进行改进和风险缓解,并准备用户使用更强大的系统。考虑到语音和视觉能力带来的新风险,这种渐进策略尤为重要。
其中,官方给出了一些可能的应用场景:
当旅行时,拍下一处地标的图片,并就其有趣之处进行语音交谈。
在家时,拍下冰箱和食品柜的图片,弄清做什么晚餐(并提出后续问题获取步骤式食谱)。
晚餐后,通过拍照、圈画题目,并与孩子共享提示,帮助孩子解决数学问题。
也包括视频中的案例,指导用户选择正确的工具调节自行车座椅的高度。
3.jpg


这些场景,实际上就是一个原生的AR AI助手需要的功能!如果用户佩戴一副有摄像头的智能眼镜,今天,LLM第一次可以就像一个万能的助理,通过自己的眼睛和用户分享同样的信息,并且直接提供帮助。而语音的交互,可能更好的在这种场景实现输入和输出。
随着今年下半年Meta Quest3的发货和明年Vision Pro的发布,这也许会让LLM在XR设备中发挥更大的作用。让人类向虚拟世界更进一步了!
AI,凉一点,才有点靠谱的味道。
  • 打卡等级:自成一派
  • 打卡总天数:333
发表于 2023-10-16 00:04 | 显示全部楼层
版区有您更精彩
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:321
发表于 2023-10-16 09:19 | 显示全部楼层
ChatGPT能說能聽能看了 但是朋友圈已經不關心了
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:362
发表于 2023-10-16 09:39 | 显示全部楼层
不靠谱的东西
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-9-14 06:07 , Processed in 0.194807 second(s), 8 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表