MiniMax M3 Benchmark:代码、Agent 与长上下文成绩全解读

MiniMax M3 在 SWE-Bench Pro、Terminal-Bench、BrowseComp、MCP Atlas 上的成绩,与 GPT-5.5、Claude Opus 4.8 的对比,以及开发者社区的早期反响。

2026/06/01M-Chat Team

MiniMax M3 benchmark 应该用表格看,而不是只看几个摘要数字。MiniMax 在 2026 年 6 月 1 日发布的官方表中,把 M3 与 MiniMax M2.7、Claude Opus 4.7、GPT 5.5、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek V4 Pro、GLM 5.1 Thinking、Kimi K2.6 Thinking 放在一起,覆盖 coding、协作 agent、GUI、多模态和推理任务。

最短结论:MiniMax M3 在接近真实软件工程和真实 agent 执行的任务上最有看点。它在 SWE-Bench Pro 为 59.0,Terminal Bench 2.1 为 66.0,BrowseComp 为 83.52,MCP Atlas 为 74.2,OSWorld-Verified 为 70.06。它不是每一行都第一,但结合 1M 上下文和开源权重定位,对长上下文开发工作很实用。

MiniMax M3 Benchmark:快速结论

BenchmarkMiniMax M3主要测什么
SWE-Bench Pro59.0真实软件工程修复
Terminal Bench 2.166.0Shell 与终端任务完成
BrowseComp83.52长程网页浏览 agent
MCP Atlas74.2MCP 工具连接任务执行
OSWorld-Verified70.06桌面 GUI 任务完成

完整 Benchmark 表

短横线与 MiniMax 官方表中的空白单元格一致。

Coding Benchmarks

BenchmarkMiniMax M3MiniMax M2.7Claude Opus 4.7GPT 5.5Gemini 3.1 ProClaude Sonnet 4.6DeepSeek V4 ProGLM 5.1 ThinkingKimi K2.6 Thinking
SWE-Bench Verified80.579.987.682.980.679.680.6-80.2
SWE-Bench Pro59.056.264.358.654.2-55.458.458.6
Terminal Bench 2.166.051.166.178.270.3----
SWE Atlas-QnA37.911.2945.1645.4313.531.20---
nl2repo42.1334.9956.2852.921.62-35.54142.8
SWE Atlas-Test Writing30.8318.8938.2142.5929.8431.76---
SWE-fficiency34.813.9842.246.619.7----
LiveSQLBench40.1733.1741.0040.1739.83----
CL-bench20.4815.3822.9225.3821.06----
VIBE-V250.1237.8955.8750.5028.00----
SVG-Bench63.748.062.358.259.2----
PostTrainBench37.113.142.439.315.2----
KernelBench Hard28.810.530.720.918.6----
PaperBench52.630.658.557.546.7----

Cowork 与 Agent Benchmarks

BenchmarkMiniMax M3MiniMax M2.7Claude Opus 4.7GPT 5.5Gemini 3.1 ProClaude Sonnet 4.6DeepSeek V4 ProGLM 5.1 ThinkingKimi K2.6 Thinking
BrowseComp83.5276.379.384.485.974.783.479.383.2
DRACO73.2366.7777.7--75.8---
GDPval rubrics74.7866.4479.880.6657.8275.6570.3268.2665.12
BankerToolBench76.1263.8981.3470.0467.03----
OfficeQA Pro45.1-43.652.618.1----
SpreadSheetBench-v189.3584.9288.4988.1156.06-84.985.284.5
YC-Bench2.10M02.19M1.28M1.05M----
LOCA-Bench (256k)49.3057------
MCP Atlas74.249.47775.369.261.373.671.866.6
Apex-Agents27.75.637.241.733.426.2---
Claw-Eval74.549.771.6-57.868.358.462.761.5

GUI、多模态与推理 Benchmarks

BenchmarkMiniMax M3MiniMax M2.7Claude Opus 4.7GPT 5.5Gemini 3.1 ProClaude Sonnet 4.6DeepSeek V4 ProGLM 5.1 ThinkingKimi K2.6 Thinking
OSWorld-Verified70.06-82.878.776.272.580.6-73.1
OmniDocBench91.6-89.387.588.186.9---
MMMU-Pro78.1-7781.280.574.5--79.4
Video-MMMU84.6-8386.487.9----
VideoMME (w/ sub)85.4--89.487.9----
IMO 202535 / 42--------
USAMO 202636 / 42-52.8%98.21%74.40%----

这张 MiniMax M3 Benchmark 表说明什么

官方表支持三个务实结论。第一,M3 在工程相关指标上明显强于 M2.7。第二,它在 BrowseComp、MCP Atlas、Claw-Eval、SpreadSheetBench-v1 这类 agent 和工具调用任务里最接近前沿模型。第三,Claude Opus 4.7、GPT 5.5、Gemini 3.1 Pro 仍然在单项指标上领先,所以不能把结论写成“M3 全面第一”。更准确的读法是:M3 是一个适合 coding 和 agent 工作流的强开源权重、1M 上下文基线模型。

把公开 Benchmark 变成自己的评测

公开表格适合帮你选择测试方向,不能替代本地评测。建议准备五类任务:真实仓库代码审查、仓库导航、终端任务、表格或浏览器 agent 任务、长上下文总结。每项都记录成功率、重试次数、延迟和人工修正成本。这样得到的结论比单看 SWE-Bench Pro 更贴近你的技术栈。

来源

M-Chat Team

M-Chat Team

MiniMax M3 Benchmark:代码、Agent 与长上下文成绩全解读