MiniMax 的下一张牌：模型 × Harness

lovejuan0104 · 发表于 2026-4-18 18:04

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

MiniMax 在搭自己的 Model + Harness 生态？

👦🏻 作者: 镜山

🥷 编辑: Koji

🧑‍🎨 排版: NCon

今年年初，很多人本来在玩 OpenClaw，因为它的 Logo 是一只龙虾，社区里大家都自称「虾农」。结果 Hermes Agent 一出，OpenClaw 的热度肉眼可见地开始往另一边转移。

一时间，社交媒体上到处都是「养马」的截图。Hermes Agent 被叫作「爱马仕 Agent」，GitHub 短时间内冲到近十万星。「虾农」们开始变成「马主」。

在大家现在聊的词中，多了一个词反复出现：Harness，被誉为继提示工程和上下文工程之后的「第三范式」。

Anthropic 把 Claude Code 的底层 SDK 叫 Agent Harness，OpenAI 专门发了篇讲 Harness engineering 的博文，评测榜单 TerminalBench 2.0 把 Harness 质量当作衡量 Coding Agent 的核心变量。

这个词，算是彻底出圈了。

视线绕回国内，MiniMax 是在往 Harness 这个方向上砸资源比较多，动作比较频繁的一家，试图构建完整的「Model + Harness」闭环。

正好在昨晚，「十字路口」团队与 Hermes

Agent 业务负责人 Tommy Eastman、

MiniMax Agent 首席架构师阿岛、Agent 研发工程师择因，在 B 站做了一场直播。这也算是 Nous Research 在中国的首次正式亮相。

在直播中，我们三方同台聊了聊 Harness 和模型到底该怎么配合这件事。

直播现场透露出一个明显的信号：MiniMax 在「Model + Harness」上的准备，很系统。

🚥

这篇文章，主要想聊聊三件事：

【1】Harness 到底是什么？

【2】MiniMax 在这个方向上具体做了什么？

【3】以及，为什么这件事值得单独拿出来说。Harness 是什么，Model + Harness 又是什么？

先把这个概念说清楚，不然后面我们对 MiniMax 的讨论会缺少背景。

Harness 这个词在 AI 领域其实不是新词。

最早是从软件工程里「test harness」的概念，一套包裹被测对象、驱动输入并捕获输出的支架代码。 2021 年，EleutherAI 发布了一个叫 lm-evaluation-harness 的评测工具，用来标准化大模型的性能测试，后来成了 HuggingFace Open LLM Leaderboard 的后端。

但 Harness 从「评测工具」变成「Agent 框架」，中间走了一段路。

2023 年，一位叫 Beren Millidge 的研究者写了一篇影响挺大的文章，提出了一个类比：LLM 是 CPU，上下文窗口是 RAM，外部数据库是磁盘，工具接口是设备驱动，而包裹它的整个 scaffold 相当于操作系统。

核心思考就一点：如果模型是硬件，那 Harness 就是那层操作系统。

这个类比后来被反复引用，奠定了后来 Harness 概念的基础。

真正让这个词出圈的，是 2026 年年初 Mitchell Hashimoto 的一篇博文：《My AI Adoption Journey》。Hashimoto 是 Terraform 的作者，他在文章里描述了自己从 AI 怀疑者变成重度使用者的过程，其中第五步专门讲了「Engineer the Harness」。

他给这个词下了一个特别直接的定义：

每次发现 Agent 犯了某个错误，就花时间设计一个机制，让它以后再也不会犯同样的错误。这个机制就是 Harness。

博文发布后不到两周，OpenAI 就发布了一篇专门讲 Harness engineering 的文章，Anthropic、LangChain 全面跟进。这个词很快在技术圈子里传开了。

那说了这么多，到底什么是 Agent Harness？

如果用一句话来概括：

模型决定一个 Agent 有多聪明，Harness 决定它能不能真正用起来，做一些实际的任务。

落到实际工程里，Harness 一般包括这几个组件：

【1】工具调用编排，让 Agent 能调用外部能力；

【2】记忆管理，让 Agent 能跨会话记住重要信息；

【3】Skills 系统，让 Agent 能学习和积累新的工作方式；

【4】验证反馈循环，让 Agent 能知道自己的输出是对还是错。

这四件事看起来各不相关，但说到底就是一件事：给模型配上一整套运行环境，让它真正变成可用的 Agent。

虽然 Harness 这个词听起来挺虚的，但它真的能让一个 Agent 的评分发生很大变化。

LangChain 在 2026 年初做过一次实验：在 TerminalBench 2.0 测试里，固定同一个模型（用的是 gpt-5.2-codex），只更换 Harness，工程团队把编码 Agent 的得分从 52.8% 提升到了 66.5%，排名从 30 名开外直接冲到前 5。

同一个模型，换了一套运行框架，性能提升幅度比换一代模型还大。

这件事让很多人开始意识到：

2026 年最有杠杆效应的工程活动，可能就是设计模型外围的那套 Harness。MiniMax 在搭自己的 Model + Harness 生态？

说清楚 Harness 之后，接下来一个问题就出来了：Harness 很重要，但光有 Harness 行不行？

答案是不行。

框架搭得再完善，模型调不准工具、调不准指令，整个系统还是跑不起来。所以问题变成了：Harness 重要，Model 也同样必要，那这两者能不能形成一个互相促进的闭环？

框架层的需求直接反馈到模型层，模型层的进步直接体现在框架层？

这个问题，国内很多 AI 厂商都在尝试回答。在大量摸索中，MiniMax 的动作算是比较显眼的。不只提供模型 API，在模型端，它做了一系列模型，包括 M2.7、在 Harness 方向，又做了 MaxClaw、MaxHermes 等，整体的方向都指向同一个点：自己的 Model + Harness 生态。

从时间线上看，这三条线的推出节奏很有意思。

先说模型端，M2.7 今年三月刚发布。从去年 10 月到今年 3 月，108 天里连推 M2、M2.1、M2.5、M2.7 四代，这个更新节奏很迅速，但 M2.7 真正值得看的，是它的优化方向变了，重点在于几个传统评测体系里不太会出现的指标：工具调用准确度、复杂 Skills 遵循率、Agent Harness 适配能力。

我们曾在《我们用 MiniMax M2.7 改造了「十字路口」的整套内容工作流》一文中，实测了该模型的完整能力，用它做了多个实际生产力工具。

这些数字背后还有一个更核心的能力：M2.7 能自我进化。它能自动监控实验状态、读取日志排查问题、执行代码修复、跑冒烟测试，在 RL 场景里能独立完成 30% 到 50% 的工作流。

到了年初 OpenClaw 爆火的时候，MiniMax 做出了第一批云端托管版本的龙虾—— MaxClaw。OpenClaw 的核心是 Skills 系统和自我进化能力，它的创始人 Peter Steinberger 当时连发推文称赞 M2.1 模型在工具调用和性价比上的表现。

MaxClaw 把 OpenClaw 这套能力云端化了，保留了 Skills 精选和持续进化的核心特性，把部署门槛降到接近零，用户不需要懂技术，直接上手用。

我们也在《当 MiniMax 遇见 OpenClaw：「1 2 3 上链接」》一文中，实际将 MaxClaw 部署进了 Slack 中，并完整用它走完了「整理 CVPR 2026 的 GitHub 仓库，定时汇报、监控、归类，到点自动汇报，更新列表，顺便做分类」的工作流：

该图片疑似使用了AI生成技术，请谨慎甄别

再往后 Hermes Agent 火起来的时候，MiniMax 又迅速跟进了 MaxHermes。Hermes Agent 是 Nous Research 开源的一个自我进化 AI Agent，MIT 协议。

它的核心能力有 2 块：

【1】一是自进化的 Skills 系统，能从使用经验中自动创建新技能、在使用中持续改进；

【2】二是全平台接入，能通过 Gateway 连接 15 个以上的聊天平台，包括飞书、钉钉、企业微信这类本土 IM。

Skills 自进化架构设计得很优雅，但开源版本有一个绕不开的问题：需要自己搭环境、配 API Key、管理服务器，门槛拦住了很多人，这也是 MaxHermes 的位置。

MaxHermes 把整个开源版本封装成云端服务，一键启动，把门槛从「需要技术背景」拉平到「会用手机就能上手」，部署完之后 Agent 直接跑在本土办公环境里，不用自己折腾。

我们也实际上手走完了一遍完整流程，在 MiniMax Agent 官网，只需要点击一下「MaxHermes」就能直接使用：

在我们的深度使用中，发现 MaxHermes 很适合做一些多步骤，比较复杂的任务，然后再将其自动归纳成 Skills。比如我们其实一直在往 GitHub 上上传一些自己做的 Vibe Tools 项目，但是维护开源项目其实也是需要一些精力的，这时候就可以用 MaxHermes 帮忙做这些事。

提示词如下；

`我负责维护一个开源项目 [XXX 的 GitHub 用户名]/[XXX的仓库名]，` `希望你每周一上午帮我生成一份"上周仓库运营周报"并发到我的 Telegram。` `这周先手动跑一次，我会在过程中给你反馈，` `你确认跑通后把流程沉淀成 Skill，之后每周一早上 9 点自动执行。` `周报需要包含以下内容：` 1. `数据概览` - `上周（周一 00:00 至周日 23:59，东八区）新增 Star / Fork / Watcher 数` - `对比再上一周的增长率` - `按日画一个简单的文本趋势（不需要图，用字符柱状图就行）` 1. `Issue 动态` - `新开 Issue 分类统计：bug / feature request / question / 其他` - `被关闭的 Issue 中，平均响应时间和平均关闭时间` - `列出仍 open 且超过 7 天无人响应的 Issue，按 reaction 数排序前 5 条` 1. `PR 动态` - `新开 / 已合并 / 已关闭的 PR 数` - `贡献者列表（区分首次贡献者，首次贡献者要特别标出）` - `合并耗时最长的 3 个 PR，以及耗时最短的 3 个` 1. `需要我关注的事项` - `你判断"我应该本周处理"的 issue 或 PR，最多 5 条，附理由` - `如果有首次贡献者，提醒我去写感谢语` `输出格式：Markdown，Telegram 推送时转换为纯文本排版。` `文件同时保存一份到 ~/reports/weekly/YYYY-WW.md 方便我归档。` `开跑吧。过程中遇到不确定的地方问我，不要瞎猜。`

MaxHermes 的流程比较快，所有内容都会存到云服务器的目录里，然后它会自动将整个多步骤流程沉淀成 Skill 并设置成每周一定时执行：

或者让 MaxHermes 关注 Polymarket 上的热门预测市场，每天早上 8:30（东八区）自动帮我生成一份"昨日 Polymarket 交易日报"并推送到我的 Telegram。

然后，先手动让它跑一次，在过程里给完反馈，跑通之后，就让它把整套流程沉淀成 Skill：

除此之外，在「十字路口」团队与 MiniMax 、Hermes Agent 业务负责人的直播中，MiniMax 透露出它们内部有个「Agent Harness」的直观用法：内部有一个 Auto Agent 员工，可以盯住 GitHub 上可能会用到 MiniMax 模型能力的开源项目，如果这个项目出现并被判断相关性很高，这个 Agent 员工就会自主触达这个项目的开发者，邀请他们体验 MiniMax 模型或产品。

所以，把 M2.7、MaxClaw、MaxHermes 以及上面的这个「内部 AI Agent 员工」放在一起看，从模型到 Harness，它们已然成为同一套体系的不同层面，这个体系就是 MiniMax 版的「Model + Harness」。

底层是 M2.7 的模型能力，工具调用准、复杂指令跟得上、能自我迭代。中间层是 MaxClaw 和 MaxHermes，把 Skills 系统、全平台接入、验证反馈这些工程能力封装好，拿来就能用。上层是对本土 IM 生态的对接，打通了飞书、钉钉、企业微信，Agent 直接跑进真实工作流里。

三层之间还有一个特点是，它们是相互加强的。M2.7 的模型能力为 MaxHermes 和 MaxClaw 的 Harness 提供了更扎实的底层支撑，而 MaxHermes 和 MaxClaw 在产品层收到的真实需求和使用反馈，又直接反馈到 M2.7 的优化方向上。

模型层和 Harness 层不是分离的，是一起转的。

这不只是 MiniMax 一家在做的事。就在最近，Anthropic 也发布了 Claude Managed Agents 的公测版本，把云端托管的 Agent 服务正式推向市场。这意味着什么？头部公司也在往同一个方向走：模型和 Harness 不只是凑在一起跑，还在同一个体系内持续磨合、持续进化。

这套飞轮一旦转起来，后来者要追的，就从一个指标变成了一整套互相咬合的体系。

这就是 MiniMax 押注的方向，也是 2026 年 AI Agent 领域可能真正会拉开差距的地方。

为什么这件事值得单独说一说

一个常见的解读是：模型能力逐渐趋同，谁能把让模型真正跑起来这件事做好，谁就能在下一阶段拿到优势。这个解读有道理，但如果只看到这一层，可能还是有点简单了。

更值得看的一点是 Harness 概念的出现，把行业里一个原本模糊的问题变清晰了：

模型和框架之间的关系，到底应该是怎样的？

传统做法是框架先搭好，模型塞进去跑。这种方式问题不大，但问题在于，框架是为通用场景设计的，而 Agent 作为一种具体的使用形态，有自己独特的需求：工具调用要准、指令遵循要稳、长时间运行要稳。

这些能力通用模型不会天然就有，得专门去做。

MiniMax 在 M2.7 上做的事，说白了就是让模型往框架需要的样子走。这个选择做起来并不容易，意味着模型迭代的方向要改，团队内部要协调的事情也变多了。但好处是：模型和框架在同一个体系内一起迭代，互相之间的咬合程度会越来越高，瓶颈会越来越少。

模型和框架分开迭代的时代，可能快结束了。

MiniMax 同时在做 Model 和 Harness，形成了一套相对完整的闭环。这种体系化的打法，是需要时间积累的。

拉长时间来看，积累的优势会慢慢体现出来。从M2.7开始的自主进化，到一整套自研 Harness 及外界各种 Harness，MiniMax 已经在为下一个赛点提前积累经验了。

十字路口正在寻找独立撰稿人，撰写 AI 产品和模型评测。

如果你写过类似文章：《实测 PixVerse C1》、《实测 LibTV》，请联系 zeo0811@gmail.com ，邮件内容请包括：① 个人介绍、② 你写过的 AI 评测文章。

我们会提供有竞争力的稿酬。期待与你一起观察与记录 AI 时代 🎪

颠颠 · 发表于 2026-3-20 20:06

AI都开始自己卷自己了，打工人慌啥

ycp123 · 发表于 2026-3-20 20:06

M2.7虽能自主开发扩展和优化脚本，但处理复杂样式时仍依赖人工微调，就像自动驾驶遇特殊路况还得司机接管，实际应用受限

com2 · 发表于 2026-4-20 10:24

谢谢楼主分享！

waluheke · 发表于 2026-4-20 10:59

谢谢分享~

账号		自动登录	找回密码
密码			注册

[综艺大观] MiniMax 的下一张牌：模型 × Harness

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块