夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 57|回复: 4

[综艺大观] MiniMax 的下一张牌:模型 × Harness

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-4-18 18:04 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
MiniMax 在搭自己的 Model + Harness 生态?

1.webp

👦🏻 作者: 镜山

🥷 编辑: Koji

🧑‍🎨 排版: NCon

2.webp

今年年初,很多人本来在玩 OpenClaw,因为它的 Logo 是一只龙虾,社区里大家都自称「虾农」。结果 Hermes Agent 一出,OpenClaw 的热度肉眼可见地开始往另一边转移。


一时间,社交媒体上到处都是「养马」的截图。Hermes Agent 被叫作「爱马仕 Agent」,GitHub 短时间内冲到近十万星。「虾农」们开始变成「马主」。

3.webp



在大家现在聊的词中,多了一个词反复出现:Harness,被誉为继提示工程和上下文工程之后的「第三范式」。


Anthropic 把 Claude Code 的底层 SDK 叫 Agent Harness,OpenAI 专门发了篇讲 Harness engineering 的博文,评测榜单 TerminalBench 2.0 把 Harness 质量当作衡量 Coding Agent 的核心变量。


这个词,算是彻底出圈了。



视线绕回国内,MiniMax 是在往 Harness 这个方向上砸资源比较多,动作比较频繁的一家,试图构建完整的「Model + Harness」闭环。


正好在昨晚,「十字路口」团队与 Hermes 

Agent 业务负责人 Tommy Eastman、

MiniMax Agent 首席架构师阿岛、Agent 研发工程师择因,在 B 站做了一场直播。这也算是 Nous Research 在中国的首次正式亮相



在直播中,我们三方同台聊了聊 Harness 和模型到底该怎么配合这件事。



4.webp



直播现场透露出一个明显的信号:MiniMax 在 「Model + Harness」上的准备,很系统。

🚥

这篇文章,主要想聊聊三件事:

【1】Harness 到底是什么?

【2】MiniMax 在这个方向上具体做了什么?

【3】以及,为什么这件事值得单独拿出来说。Harness 是什么,Model + Harness 又是什么?
先把这个概念说清楚,不然后面我们对 MiniMax 的讨论会缺少背景。


Harness 这个词在 AI 领域其实不是新词。


最早是从软件工程里「test harness」的概念,一套包裹被测对象、驱动输入并捕获输出的支架代码。 2021 年,EleutherAI 发布了一个叫 lm-evaluation-harness 的评测工具,用来标准化大模型的性能测试,后来成了 HuggingFace Open LLM Leaderboard 的后端。



但 Harness 从「评测工具」变成「Agent 框架」,中间走了一段路。


2023 年,一位叫 Beren Millidge 的研究者写了一篇影响挺大的文章,提出了一个类比:LLM 是 CPU,上下文窗口是 RAM,外部数据库是磁盘,工具接口是设备驱动,而包裹它的整个 scaffold 相当于操作系统。


5.webp



核心思考就一点:如果模型是硬件,那 Harness 就是那层操作系统。


这个类比后来被反复引用,奠定了后来 Harness 概念的基础。



真正让这个词出圈的,是 2026 年年初 Mitchell Hashimoto 的一篇博文:《My AI Adoption Journey》。Hashimoto 是 Terraform 的作者,他在文章里描述了自己从 AI 怀疑者变成重度使用者的过程,其中第五步专门讲了「Engineer the Harness」。

6.webp



他给这个词下了一个特别直接的定义:

每次发现 Agent 犯了某个错误,就花时间设计一个机制,让它以后再也不会犯同样的错误。这个机制就是 Harness。
博文发布后不到两周,OpenAI 就发布了一篇专门讲 Harness engineering 的文章,Anthropic、LangChain 全面跟进。这个词很快在技术圈子里传开了。


那说了这么多,到底什么是 Agent Harness?


如果用一句话来概括:

模型决定一个 Agent 有多聪明,Harness 决定它能不能真正用起来,做一些实际的任务。



落到实际工程里,Harness 一般包括这几个组件:

【1】工具调用编排,让 Agent 能调用外部能力;

【2】记忆管理,让 Agent 能跨会话记住重要信息;

【3】Skills 系统,让 Agent 能学习和积累新的工作方式;

【4】验证反馈循环,让 Agent 能知道自己的输出是对还是错。


这四件事看起来各不相关,但说到底就是一件事:给模型配上一整套运行环境,让它真正变成可用的 Agent。


虽然 Harness 这个词听起来挺虚的,但它真的能让一个 Agent 的评分发生很大变化。



LangChain 在 2026 年初做过一次实验:在 TerminalBench 2.0 测试里,固定同一个模型(用的是 gpt-5.2-codex),只更换 Harness,工程团队把编码 Agent 的得分从 52.8% 提升到了 66.5%,排名从 30 名开外直接冲到前 5。



7.webp



同一个模型,换了一套运行框架,性能提升幅度比换一代模型还大。


这件事让很多人开始意识到:

2026 年最有杠杆效应的工程活动,可能就是设计模型外围的那套 Harness。MiniMax 在搭自己的 Model + Harness 生态?
说清楚 Harness 之后,接下来一个问题就出来了:Harness 很重要,但光有 Harness 行不行?


答案是不行。


框架搭得再完善,模型调不准工具、调不准指令,整个系统还是跑不起来。所以问题变成了:Harness 重要,Model 也同样必要,那这两者能不能形成一个互相促进的闭环?



框架层的需求直接反馈到模型层,模型层的进步直接体现在框架层?


这个问题,国内很多 AI 厂商都在尝试回答。在大量摸索中,MiniMax 的动作算是比较显眼的。不只提供模型 API,在模型端,它做了一系列模型,包括 M2.7、在 Harness 方向,又做了 MaxClaw、MaxHermes 等,整体的方向都指向同一个点:自己的 Model + Harness 生态。


从时间线上看,这三条线的推出节奏很有意思。


先说模型端,M2.7 今年三月刚发布。从去年 10 月到今年 3 月,108 天里连推 M2、M2.1、M2.5、M2.7 四代,这个更新节奏很迅速,但 M2.7 真正值得看的,是它的优化方向变了,重点在于几个传统评测体系里不太会出现的指标:工具调用准确度、复杂 Skills 遵循率、Agent Harness 适配能力。


8.webp



我们曾在《我们用 MiniMax M2.7 改造了「十字路口」的整套内容工作流》一文中,实测了该模型的完整能力,用它做了多个实际生产力工具。


9.png



这些数字背后还有一个更核心的能力:M2.7 能自我进化。它能自动监控实验状态、读取日志排查问题、执行代码修复、跑冒烟测试,在 RL 场景里能独立完成 30% 到 50% 的工作流。



到了年初 OpenClaw 爆火的时候,MiniMax 做出了第一批云端托管版本的龙虾—— MaxClaw。OpenClaw 的核心是 Skills 系统和自我进化能力,它的创始人 Peter Steinberger 当时连发推文称赞 M2.1 模型在工具调用和性价比上的表现。


MaxClaw 把 OpenClaw 这套能力云端化了,保留了 Skills 精选和持续进化的核心特性,把部署门槛降到接近零,用户不需要懂技术,直接上手用。



我们也在《当 MiniMax 遇见 OpenClaw:「1 2 3 上链接」》一文中,实际将 MaxClaw 部署进了 Slack 中,并完整用它走完了「整理 CVPR 2026 的 GitHub 仓库,定时汇报、监控、归类,到点自动汇报,更新列表,顺便做分类」的工作流:



 该图片疑似使用了AI生成技术,请谨慎甄别
10.webp



再往后 Hermes Agent 火起来的时候,MiniMax 又迅速跟进了 MaxHermes。Hermes Agent 是 Nous Research 开源的一个自我进化 AI Agent,MIT 协议。



它的核心能力有 2 块:



【1】一是自进化的 Skills 系统,能从使用经验中自动创建新技能、在使用中持续改进;

【2】二是全平台接入,能通过 Gateway 连接 15 个以上的聊天平台,包括飞书、钉钉、企业微信这类本土 IM。



Skills 自进化架构设计得很优雅,但开源版本有一个绕不开的问题:需要自己搭环境、配 API Key、管理服务器,门槛拦住了很多人,这也是 MaxHermes 的位置。


11.webp



MaxHermes 把整个开源版本封装成云端服务,一键启动,把门槛从「需要技术背景」拉平到「会用手机就能上手」,部署完之后 Agent 直接跑在本土办公环境里,不用自己折腾。



我们也实际上手走完了一遍完整流程,在 MiniMax Agent 官网,只需要点击一下「MaxHermes」就能直接使用:

12.webp



在我们的深度使用中,发现 MaxHermes 很适合做一些多步骤,比较复杂的任务,然后再将其自动归纳成 Skills。比如我们其实一直在往 GitHub 上上传一些自己做的 Vibe Tools 项目,但是维护开源项目其实也是需要一些精力的,这时候就可以用 MaxHermes 帮忙做这些事。


提示词如下;

   `我负责维护一个开源项目 [XXX 的 GitHub 用户名]/[XXX的仓库名],`  `希望你每周一上午帮我生成一份"上周仓库运营周报"并发到我的 Telegram。`  `这周先手动跑一次,我会在过程中给你反馈,`  `你确认跑通后把流程沉淀成 Skill,之后每周一早上 9 点自动执行。`  `周报需要包含以下内容:`  1. `数据概览`     - `上周(周一 00:00 至周日 23:59,东八区)新增 Star / Fork / Watcher 数`     - `对比再上一周的增长率`     - `按日画一个简单的文本趋势(不需要图,用字符柱状图就行)`  1. `Issue 动态`     - `新开 Issue 分类统计:bug / feature request / question / 其他`     - `被关闭的 Issue 中,平均响应时间和平均关闭时间`     - `列出仍 open 且超过 7 天无人响应的 Issue,按 reaction 数排序前 5 条`  1. `PR 动态`     - `新开 / 已合并 / 已关闭的 PR 数`     - `贡献者列表(区分首次贡献者,首次贡献者要特别标出)`     - `合并耗时最长的 3 个 PR,以及耗时最短的 3 个`  1. `需要我关注的事项`     - `你判断"我应该本周处理"的 issue 或 PR,最多 5 条,附理由`     - `如果有首次贡献者,提醒我去写感谢语`  `输出格式:Markdown,Telegram 推送时转换为纯文本排版。`  `文件同时保存一份到 ~/reports/weekly/YYYY-WW.md 方便我归档。`  `开跑吧。过程中遇到不确定的地方问我,不要瞎猜。` 
13.png



MaxHermes 的流程比较快,所有内容都会存到云服务器的目录里,然后它会自动将整个多步骤流程沉淀成 Skill 并设置成每周一定时执行:



14.webp



或者让 MaxHermes 关注 Polymarket 上的热门预测市场,每天早上 8:30(东八区) 自动帮我生成一份"昨日 Polymarket 交易日报"并推送到我的 Telegram。 



然后,先手动让它跑一次,在过程里给完反馈,跑通之后, 就让它把整套流程沉淀成 Skill:

15.png



除此之外,在「十字路口」团队与 MiniMax 、Hermes Agent 业务负责人的直播中,MiniMax 透露出它们内部有个「Agent Harness」的直观用法:内部有一个 Auto Agent 员工,可以盯住 GitHub 上可能会用到 MiniMax 模型能力的开源项目,如果这个项目出现并被判断相关性很高,这个 Agent 员工就会自主触达这个项目的开发者,邀请他们体验 MiniMax 模型或产品。



所以,把 M2.7、MaxClaw、MaxHermes 以及上面的这个「内部 AI Agent 员工」放在一起看,从模型到 Harness,它们已然成为同一套体系的不同层面,这个体系就是 MiniMax 版的「Model + Harness」。


底层是 M2.7 的模型能力,工具调用准、复杂指令跟得上、能自我迭代。中间层是 MaxClaw 和 MaxHermes,把 Skills 系统、全平台接入、验证反馈这些工程能力封装好,拿来就能用。上层是对本土 IM 生态的对接,打通了飞书、钉钉、企业微信,Agent 直接跑进真实工作流里。



三层之间还有一个特点是,它们是相互加强的。M2.7 的模型能力为 MaxHermes 和 MaxClaw 的 Harness 提供了更扎实的底层支撑,而 MaxHermes 和 MaxClaw 在产品层收到的真实需求和使用反馈,又直接反馈到 M2.7 的优化方向上。



模型层和 Harness 层不是分离的,是一起转的。



这不只是 MiniMax 一家在做的事。就在最近,Anthropic 也发布了 Claude Managed Agents 的公测版本,把云端托管的 Agent 服务正式推向市场。这意味着什么?头部公司也在往同一个方向走:模型和 Harness 不只是凑在一起跑,还在同一个体系内持续磨合、持续进化。



这套飞轮一旦转起来,后来者要追的,就从一个指标变成了一整套互相咬合的体系



这就是 MiniMax 押注的方向,也是 2026 年 AI Agent 领域可能真正会拉开差距的地方。

为什么这件事值得单独说一说
一个常见的解读是:模型能力逐渐趋同,谁能把让模型真正跑起来这件事做好,谁就能在下一阶段拿到优势。这个解读有道理,但如果只看到这一层,可能还是有点简单了。



更值得看的一点是 Harness 概念的出现,把行业里一个原本模糊的问题变清晰了:

模型和框架之间的关系,到底应该是怎样的?



传统做法是框架先搭好,模型塞进去跑。这种方式问题不大,但问题在于,框架是为通用场景设计的,而 Agent 作为一种具体的使用形态,有自己独特的需求:工具调用要准、指令遵循要稳、长时间运行要稳。



这些能力通用模型不会天然就有,得专门去做。



MiniMax 在 M2.7 上做的事,说白了就是让模型往框架需要的样子走。这个选择做起来并不容易,意味着模型迭代的方向要改,团队内部要协调的事情也变多了。但好处是:模型和框架在同一个体系内一起迭代,互相之间的咬合程度会越来越高,瓶颈会越来越少。



模型和框架分开迭代的时代,可能快结束了。


MiniMax 同时在做 Model 和 Harness,形成了一套相对完整的闭环。这种体系化的打法,是需要时间积累的。


拉长时间来看,积累的优势会慢慢体现出来。从M2.7开始的自主进化,到一整套自研 Harness 及外界各种 Harness,MiniMax 已经在为下一个赛点提前积累经验了。


16.webp


十字路口正在寻找独立撰稿人,撰写 AI 产品和模型评测。


如果你写过类似文章:《实测 PixVerse C1》、《实测 LibTV》,请联系 zeo0811@gmail.com ,邮件内容请包括:① 个人介绍、② 你写过的 AI 评测文章。


我们会提供有竞争力的稿酬。期待与你一起观察与记录 AI 时代 🎪
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-20 20:06 | 显示全部楼层
AI都开始自己卷自己了,打工人慌啥
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-20 20:06 | 显示全部楼层
M2.7虽能自主开发扩展和优化脚本,但处理复杂样式时仍依赖人工微调,就像自动驾驶遇特殊路况还得司机接管,实际应用受限
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:482
发表于 2026-4-20 10:24 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:205
发表于 2026-4-20 10:59 | 显示全部楼层
谢谢分享~
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-20 14:44 , Processed in 0.195942 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表