MiniMax M3 Benchmark：代码、Agent 与长上下文成绩全解读

MiniMax M3 在 SWE-Bench Pro、Terminal-Bench、BrowseComp、MCP Atlas 上的成绩，与 GPT-5.5、Claude Opus 4.8 的对比，以及开发者社区的早期反响。

2026/06/01M-Chat Team

MiniMax M3 benchmark 应该用表格看，而不是只看几个摘要数字。MiniMax 在 2026 年 6 月 1 日发布的官方表中，把 M3 与 MiniMax M2.7、Claude Opus 4.7、GPT 5.5、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek V4 Pro、GLM 5.1 Thinking、Kimi K2.6 Thinking 放在一起，覆盖 coding、协作 agent、GUI、多模态和推理任务。

最短结论：MiniMax M3 在接近真实软件工程和真实 agent 执行的任务上最有看点。它在 SWE-Bench Pro 为 59.0，Terminal Bench 2.1 为 66.0，BrowseComp 为 83.52，MCP Atlas 为 74.2，OSWorld-Verified 为 70.06。它不是每一行都第一，但结合 1M 上下文和开源权重定位，对长上下文开发工作很实用。

MiniMax M3 Benchmark：快速结论

Benchmark	MiniMax M3	主要测什么
SWE-Bench Pro	59.0	真实软件工程修复
Terminal Bench 2.1	66.0	Shell 与终端任务完成
BrowseComp	83.52	长程网页浏览 agent
MCP Atlas	74.2	MCP 工具连接任务执行
OSWorld-Verified	70.06	桌面 GUI 任务完成

完整 Benchmark 表

短横线与 MiniMax 官方表中的空白单元格一致。

Coding Benchmarks

Benchmark	MiniMax M3	MiniMax M2.7	Claude Opus 4.7	GPT 5.5	Gemini 3.1 Pro	Claude Sonnet 4.6	DeepSeek V4 Pro	GLM 5.1 Thinking	Kimi K2.6 Thinking
SWE-Bench Verified	80.5	79.9	87.6	82.9	80.6	79.6	80.6	-	80.2
SWE-Bench Pro	59.0	56.2	64.3	58.6	54.2	-	55.4	58.4	58.6
Terminal Bench 2.1	66.0	51.1	66.1	78.2	70.3	-	-	-	-
SWE Atlas-QnA	37.9	11.29	45.16	45.43	13.5	31.20	-	-	-
nl2repo	42.13	34.99	56.28	52.9	21.62	-	35.5	41	42.8
SWE Atlas-Test Writing	30.83	18.89	38.21	42.59	29.84	31.76	-	-	-
SWE-fficiency	34.8	13.98	42.2	46.6	19.7	-	-	-	-
LiveSQLBench	40.17	33.17	41.00	40.17	39.83	-	-	-	-
CL-bench	20.48	15.38	22.92	25.38	21.06	-	-	-	-
VIBE-V2	50.12	37.89	55.87	50.50	28.00	-	-	-	-
SVG-Bench	63.7	48.0	62.3	58.2	59.2	-	-	-	-
PostTrainBench	37.1	13.1	42.4	39.3	15.2	-	-	-	-
KernelBench Hard	28.8	10.5	30.7	20.9	18.6	-	-	-	-
PaperBench	52.6	30.6	58.5	57.5	46.7	-	-	-	-

Cowork 与 Agent Benchmarks

Benchmark	MiniMax M3	MiniMax M2.7	Claude Opus 4.7	GPT 5.5	Gemini 3.1 Pro	Claude Sonnet 4.6	DeepSeek V4 Pro	GLM 5.1 Thinking	Kimi K2.6 Thinking
BrowseComp	83.52	76.3	79.3	84.4	85.9	74.7	83.4	79.3	83.2
DRACO	73.23	66.77	77.7	-	-	75.8	-	-	-
GDPval rubrics	74.78	66.44	79.8	80.66	57.82	75.65	70.32	68.26	65.12
BankerToolBench	76.12	63.89	81.34	70.04	67.03	-	-	-	-
OfficeQA Pro	45.1	-	43.6	52.6	18.1	-	-	-	-
SpreadSheetBench-v1	89.35	84.92	88.49	88.11	56.06	-	84.9	85.2	84.5
YC-Bench	2.10M	0	2.19M	1.28M	1.05M	-	-	-	-
LOCA-Bench (256k)	49.3	0	57	-	-	-	-	-	-
MCP Atlas	74.2	49.4	77	75.3	69.2	61.3	73.6	71.8	66.6
Apex-Agents	27.7	5.6	37.2	41.7	33.4	26.2	-	-	-
Claw-Eval	74.5	49.7	71.6	-	57.8	68.3	58.4	62.7	61.5

GUI、多模态与推理 Benchmarks

Benchmark	MiniMax M3	MiniMax M2.7	Claude Opus 4.7	GPT 5.5	Gemini 3.1 Pro	Claude Sonnet 4.6	DeepSeek V4 Pro	GLM 5.1 Thinking	Kimi K2.6 Thinking
OSWorld-Verified	70.06	-	82.8	78.7	76.2	72.5	80.6	-	73.1
OmniDocBench	91.6	-	89.3	87.5	88.1	86.9	-	-	-
MMMU-Pro	78.1	-	77	81.2	80.5	74.5	-	-	79.4
Video-MMMU	84.6	-	83	86.4	87.9	-	-	-	-
VideoMME (w/ sub)	85.4	-	-	89.4	87.9	-	-	-	-
IMO 2025	35 / 42	-	-	-	-	-	-	-	-
USAMO 2026	36 / 42	-	52.8%	98.21%	74.40%	-	-	-	-

目录