MiniMax M3 Benchmark:代码、Agent 与长上下文成绩全解读
MiniMax M3 在 SWE-Bench Pro、Terminal-Bench、BrowseComp、MCP Atlas 上的成绩,与 GPT-5.5、Claude Opus 4.8 的对比,以及开发者社区的早期反响。
MiniMax M3 benchmark 应该用表格看,而不是只看几个摘要数字。MiniMax 在 2026 年 6 月 1 日发布的官方表中,把 M3 与 MiniMax M2.7、Claude Opus 4.7、GPT 5.5、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek V4 Pro、GLM 5.1 Thinking、Kimi K2.6 Thinking 放在一起,覆盖 coding、协作 agent、GUI、多模态和推理任务。
最短结论:MiniMax M3 在接近真实软件工程和真实 agent 执行的任务上最有看点。它在 SWE-Bench Pro 为 59.0,Terminal Bench 2.1 为 66.0,BrowseComp 为 83.52,MCP Atlas 为 74.2,OSWorld-Verified 为 70.06。它不是每一行都第一,但结合 1M 上下文和开源权重定位,对长上下文开发工作很实用。
MiniMax M3 Benchmark:快速结论
| Benchmark | MiniMax M3 | 主要测什么 |
|---|---|---|
| SWE-Bench Pro | 59.0 | 真实软件工程修复 |
| Terminal Bench 2.1 | 66.0 | Shell 与终端任务完成 |
| BrowseComp | 83.52 | 长程网页浏览 agent |
| MCP Atlas | 74.2 | MCP 工具连接任务执行 |
| OSWorld-Verified | 70.06 | 桌面 GUI 任务完成 |
完整 Benchmark 表
短横线与 MiniMax 官方表中的空白单元格一致。
Coding Benchmarks
| Benchmark | MiniMax M3 | MiniMax M2.7 | Claude Opus 4.7 | GPT 5.5 | Gemini 3.1 Pro | Claude Sonnet 4.6 | DeepSeek V4 Pro | GLM 5.1 Thinking | Kimi K2.6 Thinking |
|---|---|---|---|---|---|---|---|---|---|
| SWE-Bench Verified | 80.5 | 79.9 | 87.6 | 82.9 | 80.6 | 79.6 | 80.6 | - | 80.2 |
| SWE-Bench Pro | 59.0 | 56.2 | 64.3 | 58.6 | 54.2 | - | 55.4 | 58.4 | 58.6 |
| Terminal Bench 2.1 | 66.0 | 51.1 | 66.1 | 78.2 | 70.3 | - | - | - | - |
| SWE Atlas-QnA | 37.9 | 11.29 | 45.16 | 45.43 | 13.5 | 31.20 | - | - | - |
| nl2repo | 42.13 | 34.99 | 56.28 | 52.9 | 21.62 | - | 35.5 | 41 | 42.8 |
| SWE Atlas-Test Writing | 30.83 | 18.89 | 38.21 | 42.59 | 29.84 | 31.76 | - | - | - |
| SWE-fficiency | 34.8 | 13.98 | 42.2 | 46.6 | 19.7 | - | - | - | - |
| LiveSQLBench | 40.17 | 33.17 | 41.00 | 40.17 | 39.83 | - | - | - | - |
| CL-bench | 20.48 | 15.38 | 22.92 | 25.38 | 21.06 | - | - | - | - |
| VIBE-V2 | 50.12 | 37.89 | 55.87 | 50.50 | 28.00 | - | - | - | - |
| SVG-Bench | 63.7 | 48.0 | 62.3 | 58.2 | 59.2 | - | - | - | - |
| PostTrainBench | 37.1 | 13.1 | 42.4 | 39.3 | 15.2 | - | - | - | - |
| KernelBench Hard | 28.8 | 10.5 | 30.7 | 20.9 | 18.6 | - | - | - | - |
| PaperBench | 52.6 | 30.6 | 58.5 | 57.5 | 46.7 | - | - | - | - |
Cowork 与 Agent Benchmarks
| Benchmark | MiniMax M3 | MiniMax M2.7 | Claude Opus 4.7 | GPT 5.5 | Gemini 3.1 Pro | Claude Sonnet 4.6 | DeepSeek V4 Pro | GLM 5.1 Thinking | Kimi K2.6 Thinking |
|---|---|---|---|---|---|---|---|---|---|
| BrowseComp | 83.52 | 76.3 | 79.3 | 84.4 | 85.9 | 74.7 | 83.4 | 79.3 | 83.2 |
| DRACO | 73.23 | 66.77 | 77.7 | - | - | 75.8 | - | - | - |
| GDPval rubrics | 74.78 | 66.44 | 79.8 | 80.66 | 57.82 | 75.65 | 70.32 | 68.26 | 65.12 |
| BankerToolBench | 76.12 | 63.89 | 81.34 | 70.04 | 67.03 | - | - | - | - |
| OfficeQA Pro | 45.1 | - | 43.6 | 52.6 | 18.1 | - | - | - | - |
| SpreadSheetBench-v1 | 89.35 | 84.92 | 88.49 | 88.11 | 56.06 | - | 84.9 | 85.2 | 84.5 |
| YC-Bench | 2.10M | 0 | 2.19M | 1.28M | 1.05M | - | - | - | - |
| LOCA-Bench (256k) | 49.3 | 0 | 57 | - | - | - | - | - | - |
| MCP Atlas | 74.2 | 49.4 | 77 | 75.3 | 69.2 | 61.3 | 73.6 | 71.8 | 66.6 |
| Apex-Agents | 27.7 | 5.6 | 37.2 | 41.7 | 33.4 | 26.2 | - | - | - |
| Claw-Eval | 74.5 | 49.7 | 71.6 | - | 57.8 | 68.3 | 58.4 | 62.7 | 61.5 |
GUI、多模态与推理 Benchmarks
| Benchmark | MiniMax M3 | MiniMax M2.7 | Claude Opus 4.7 | GPT 5.5 | Gemini 3.1 Pro | Claude Sonnet 4.6 | DeepSeek V4 Pro | GLM 5.1 Thinking | Kimi K2.6 Thinking |
|---|---|---|---|---|---|---|---|---|---|
| OSWorld-Verified | 70.06 | - | 82.8 | 78.7 | 76.2 | 72.5 | 80.6 | - | 73.1 |
| OmniDocBench | 91.6 | - | 89.3 | 87.5 | 88.1 | 86.9 | - | - | - |
| MMMU-Pro | 78.1 | - | 77 | 81.2 | 80.5 | 74.5 | - | - | 79.4 |
| Video-MMMU | 84.6 | - | 83 | 86.4 | 87.9 | - | - | - | - |
| VideoMME (w/ sub) | 85.4 | - | - | 89.4 | 87.9 | - | - | - | - |
| IMO 2025 | 35 / 42 | - | - | - | - | - | - | - | - |
| USAMO 2026 | 36 / 42 | - | 52.8% | 98.21% | 74.40% | - | - | - | - |
这张 MiniMax M3 Benchmark 表说明什么
官方表支持三个务实结论。第一,M3 在工程相关指标上明显强于 M2.7。第二,它在 BrowseComp、MCP Atlas、Claw-Eval、SpreadSheetBench-v1 这类 agent 和工具调用任务里最接近前沿模型。第三,Claude Opus 4.7、GPT 5.5、Gemini 3.1 Pro 仍然在单项指标上领先,所以不能把结论写成“M3 全面第一”。更准确的读法是:M3 是一个适合 coding 和 agent 工作流的强开源权重、1M 上下文基线模型。
把公开 Benchmark 变成自己的评测
公开表格适合帮你选择测试方向,不能替代本地评测。建议准备五类任务:真实仓库代码审查、仓库导航、终端任务、表格或浏览器 agent 任务、长上下文总结。每项都记录成功率、重试次数、延迟和人工修正成本。这样得到的结论比单看 SWE-Bench Pro 更贴近你的技术栈。
