ChatGPT能说能听能看了但是朋友圈已经不关心了

wifai · 发表于 2023-10-15 13:56

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

9月25日晚上，OpenAI的CEO Sam Altman突然放出了大家期待已久的大招：
ChatGPT将在未来几周内开放语音和视觉功能，也就是官方形容的，ChatGPT现在能看，能听，能说了。

并且放出了一个非常直观的视频，展示ChatGPT的视觉能力
AI相关的自媒体迅速行动起来抢热点，这是难得的爆炸新闻，还有官方的视频素材，（可惜TechVerse今天推送过文章，所以只能在今天凌晨发出这篇文章）。
但是，在无法第一时间抢热点的焦虑中度过一段时间后，我发现，除了自媒体们，大家并没有想象的激动，我也没有在朋友圈看到刷屏的自行车。没有了转发的“魔法”，“革命”，“太强了”， AI也开始经历Web3的旅程，变得没人关心了。
这其中的原因，被大家讨论过很多遍了，过高的预期和今天AI的能力限制的矛盾，让越来越多的人不再那么兴奋，可是今天这样的大招都没能掀起刷屏，也着实让人惊讶，AI凉的速度之快。但是，科技的浪潮就是在这样的泡沫和低谷中交替前进的，今天发布的新功能，可能正是解锁LLM场景的一把钥匙：

概括一下ChatGPT发布的功能：
OpenAI正在ChatGPT中推出新的语音和图像功能。这些新功能提供了更直观的交互方式,允许用户与ChatGPT进行语音对话或向其展示正在讨论的内容。
主要值得关注的点包括:
用户现在可以与ChatGPT进行语音交谈,它可以回复你。这个新功能由文本转语音模型提供支持,可以从文本和少量语音样本生成逼真的语音。
用户现在可以在ChatGPT中展示一张或多张图像,以获取相关帮助和见解。在移动应用上,可以使用绘图工具聚焦图像的特定部分。这些视觉能力由多模态GPT-3.5和GPT-4提供支持。
OpenAI正逐步推出这些新功能,以进行改进和风险缓解,并准备用户使用更强大的系统。考虑到语音和视觉能力带来的新风险,这种渐进策略尤为重要。
其中，官方给出了一些可能的应用场景：
当旅行时,拍下一处地标的图片,并就其有趣之处进行语音交谈。
在家时,拍下冰箱和食品柜的图片,弄清做什么晚餐(并提出后续问题获取步骤式食谱)。
晚餐后,通过拍照、圈画题目,并与孩子共享提示,帮助孩子解决数学问题。
也包括视频中的案例，指导用户选择正确的工具调节自行车座椅的高度。

这些场景，实际上就是一个原生的AR AI助手需要的功能！如果用户佩戴一副有摄像头的智能眼镜，今天，LLM第一次可以就像一个万能的助理，通过自己的眼睛和用户分享同样的信息，并且直接提供帮助。而语音的交互，可能更好的在这种场景实现输入和输出。
随着今年下半年Meta Quest3的发货和明年Vision Pro的发布，这也许会让LLM在XR设备中发挥更大的作用。让人类向虚拟世界更进一步了！
AI，凉一点，才有点靠谱的味道。

ReinaMidoriya- · 发表于 2023-10-16 00:04

版区有您更精彩

cappella · 发表于 2023-10-16 09:19

ChatGPT能說能聽能看了但是朋友圈已經不關心了

jhx_hlj · 发表于 2023-10-16 09:39

不靠谱的东西

账号		自动登录	找回密码
密码			注册

ChatGPT能说能听能看了 但是朋友圈已经不关心了

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

ChatGPT能说能听能看了但是朋友圈已经不关心了