MiniMax M3 对比 GLM 5.1:代码与 Agentic 能力比较

MiniMax M3 与 GLM 5.1 在 SWE-Bench Pro、Terminal-Bench、BrowseComp、MCP Atlas 上的对比、差距所在、社区反响,以及如何为真实工作评测两者。

2026/06/01M-Chat Team

MiniMax M3 对比 GLM 5.1:一场胶着的编码较量

MiniMax M3 对比 GLM 5.1,是 MiniMax 官方发布表里较接近的一组代码与 agentic 对比。MiniMax 给出 M3 的公开数字:SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%、BrowseComp 83.5%、MCP Atlas 74.2%、KernelBench Hard 28.8%。GLM 5.1 在同一来源是 SWE-Bench Pro 58.4%、Terminal-Bench 2.1 63.5%、BrowseComp 79.3%、MCP Atlas 71.8%。GLM 5.1 的 KernelBench Hard 和上下文长度在该来源中是 not reported。

差距出现在哪里

SWE-Bench Pro 的差距只有 0.6 个点,但在 BrowseComp、MCP Atlas 和 Terminal-Bench 2.1 上更明显,这几项 M3 在该表中领先。对 M-Chat 这样的网站,M3 的整体叙事也重要:MiniMax 把 M3 描述为原生多模态(text、image、video 输入)、1M 上下文、开源权重发布。如果 GLM 5.1 也在你的内部模型池里,应该用同一批 prompt 评测两者,并分别记录失败模式——工具结果幻觉、仓库修改不完整、长上下文漂移、长 prompt 下的延迟,各有各的失败方式。

放进更大的格局里看

拉远一点:M3 的 SWE-Bench Pro 59.0% 在常被对比的开放访问一组里略居首位(GLM 5.1 58.4%、Kimi K2.6 58.6%),并被 MiniMax 报告略胜 GPT-5.5。前沿闭源模型在原始编码分上仍领先——第三方报道给出 Claude Opus 4.8 约 69.2% 的 SWE-Bench Pro——但成本高出数倍。所以"M3 对比 GLM 5.1"更应被理解为性价比这一档里的较量:小幅 benchmark 差距,往往不如上下文长度、多模态、延迟和价格来得关键。

社区怎么说

GLM 和 MiniMax 都有活跃的开放模型用户群,所以这场对比是在公开场合进行的。M3 发布即登上 Hacker News 首页,讨论集中在它的 MiniMax Sparse Attention(MSA)设计和长程 agent 演示;The Information 把这次发布视为开源编码之战升温的一部分。一个常见且中肯的提醒(如 Open Source For You)是:M3 的"开源权重"并非完整开源许可。对 GLM 用户来说,这种许可证细节和你既有的工具链,常常和半个点的 benchmark 差距同样重要。

如何使用这个对比

不要把一张对比表直接变成自动路由规则。更合理的结论是:MiniMax M3 值得在代码和 agentic 任务里直接试用,尤其当 1M 上下文和多模态输入在你的路线图里时。GLM 5.1 仍是重要对比点,官方来源没给出的字段应继续写 not reported,而不是为了表格好看去填空。

适合同时评测的任务类型

因为公开分数接近,更应按任务类型拆开评。第一类是 repo 级理解,让模型读多个文件后解释风险。第二类是 terminal 任务,让模型根据失败日志给出可执行命令。第三类是浏览与工具调用,看模型能否把外部信息整合进最终答案。第四类是长上下文任务,把设计文档、会议记录和代码放在同一会话里持续追问。如果评测只有短问答,很可能看不出 M3 围绕 1M context、MSA 效率和多模态构建的产品差异。如果团队已有 GLM 5.1 调用链,也别只因 M3 某些指标更高就立刻迁移——先并行跑一周代表性任务,成功率、人工修正时间、上下文命中和上游稳定性都改善了,切换才算真有收益。

来源

M-Chat Team

M-Chat Team

MiniMax M3 对比 GLM 5.1:代码与 Agentic 能力比较