找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 56|回复: 3

[科学观察] DeepMind放出新AI大招:竟能自我纠错,但有致命弱点…

[复制链接]
  • 打卡等级:自成一派
  • 打卡总天数:129
发表于 2025-5-15 11:18 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
5月15日消息,谷歌旗下人工智能研发实验室DeepMind宣布研发出新型AI系统AlphaEvolve,专门攻克具有"机器可评分"解决方案的难题。
DeepMind表示,在实验中AlphaEvolve已成功优化谷歌用于AI模型训练的部分基础设施。公司正在开发该系统的用户交互界面,计划先向特定学者开放早期测试,后续考虑全面推广。
大多数AI模型都存在"幻觉"问题——因其概率架构特性,有时会自信地"编造"答案。值得注意的是,OpenAI的GPT-3等新一代模型的幻觉发生率较前代更高,凸显出这一问题的复杂性。
AlphaEvolve通过引入自动评估系统这一创新机制减少幻觉发生。系统调用模型生成多种可能答案,经批判性筛选形成候选池,再自动评估答案准确性并打分。
AlphaEvolve并非首个采用该方法的系统。数年前,包括DeepMind团队在内的研究人员就已在多个数学领域运用过类似技术。但DeepMind强调,由于AlphaEvolve采用了"尖端"的Gemini模型,其性能显著超越早期AI系统。
使用AlphaEvolve时,用户须向系统输入问题,可选附上说明、公式、代码片段及相关文献,同时,用户还必须提供以公式形式实现的自动评估机制。
由于AlphaEvolve只能解决可自我评估的问题,该系统目前仅适用于计算机科学和系统优化等特定类型的问题;此外,AlphaEvolve最终输出的解决方案只能以算法形式呈现,因此难以处理非数值问题。
为进行基准测试,DeepMind让该系统尝试了约50道涵盖几何、组合数学等领域的数学题目。据称,AlphaEvolve能在75%的题目中“重新发现”最优解,并在20%的案例中提出改进方案。
DeepMind还将AlphaEvolve应用于实际问题评估,例如提升谷歌数据中心效率和加速模型训练。据实验室称,AlphaEvolve生成的算法持续回收了谷歌全球0.7%的计算资源,其优化方案使Gemini模型的整体训练时间缩短了1%。
需要明确的是,AlphaEvolve尚未取得突破性发现。例如在某实验中,该系统针对谷歌TPU AI加速芯片设计提出的改进方案,实际是其他工具早前已标记过的。
不过,DeepMind与其他AI实验室的立场一致:AlphaEvolve系统能节省专家大量时间,使专家专注于更具战略意义的工作。(辰辰)

  • 打卡等级:自成一派
  • 打卡总天数:126
发表于 2025-5-15 17:32 | 显示全部楼层
优秀帖子,感谢分享
回复 支持 反对

使用道具 举报

  • 打卡等级:炉火纯青
  • 打卡总天数:80
发表于 2025-5-15 18:34 | 显示全部楼层
知道了
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:178
发表于 2025-5-15 20:16 | 显示全部楼层
感谢楼主分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-5-19 14:41 , Processed in 0.157071 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表