夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 35|回复: 3

[数码资讯] 微软发布 ASSERT 开源框架:让开发者更高效地评测 AI 智能体和应用行为

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:827
发表于 2026-6-3 08:30 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
微软今日宣布推出开源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自适应规范驱动评分),旨在将自然语言写成的行为规范直接转换为可执行的评估流程。

据介绍,ASSERT 能够从产品需求、政策文件或系统提示等文本出发,自动生成测试场景、数据集、评估指标和计分卡,并针对目标模型、应用或智能体运行测试。



该框架建立在这样一个前提之上:行为规范本身应当成为评估的核心输入,而非仅仅作为背景参考。ASSERT 将这一过程系统化为四个阶段:

首先,将宽泛的行为描述细化为明确的概念规范,进而转换为可编辑的许可与不许可行为分类体系;

随后,基于开发者指定的维度(如任务类型、角色、工具可用性等)生成分层测试用例,涵盖单轮提示、多轮场景以及善意交互和对抗性探测;

接着,对目标系统运行这些用例并记录完整轨迹,包括工具调用、中间决策等;

最后,对照行为分类和策略立场对每个轨迹进行评分,输出通过与否标签、判断理由、策略引用以及作出该裁决的具体回合或动作。



为了验证 ASSERT 的有效性,微软团队开展了两项覆盖率研究和人工评审对比。

第一项覆盖率研究显示,相比直接从意图生成的评估集,ASSERT 在多项行为(IT之家注:如社会评分、拍马屁行为、任务遵循、工具使用规范、不安全健康建议)上生成的测试集覆盖更广,暴露出更多值得检查的案例,区分强弱系统的能力更强,同时显现出更多独特的失败模式。

第二项验证通过对比 LLM 判定器与人工审核,显示两者一致率通常在 80%–90%,而人工标注者之间一致率约为 90%,表明 LLM 判定器能够捕捉大部分目标信号,但在策略细微差别或高度专业领域仍需谨慎。

  • 打卡等级:已臻大成
  • 打卡总天数:505
发表于 2026-6-3 08:35 | 显示全部楼层
看看
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:522
发表于 2026-6-3 10:00 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:829
发表于 2026-6-3 11:05 | 显示全部楼层
看看新闻,感谢分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-6-3 17:16 , Processed in 0.262348 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表