前沿编码能力
SWE-Bench Pro、Terminal-Bench 等指标在真实编码与调试中表现强。
在简洁的网页应用中使用 MiniMax M3——面向代码、agentic 工作流和 1M 上下文的开源前沿模型。难题保持 Thinking 开启,需要实时来源时打开联网搜索。
示例问题
来自开发者社区的 MiniMax M3 实测与评测视频。
跨编码与 agent 任务的 MiniMax M3 上手实测。
M3 的 agentic 编码与长上下文首轮实测。
把 MiniMax M3 作为 Claude Code 的编码模型。
完整演示,并介绍如何通过免费 API 试用 M3。
从成本与质量维度对比 MiniMax M3 与 Opus 4.7。
概览 MiniMax M3 在单一模型中带来的能力。
MiniMax M3 是面向代码、agentic 工具调用和长上下文的开源前沿模型。原生支持 text、image、video 输入,其 MSA 架构把 1M 上下文下的 per-token 算力降到上一代的约 1/20。
以开源权重发布,模型 ID minimax/minimax-m3,聚焦代码与 agentic 任务。
Multi-Sparse-Attention 让 1M token 上下文更省算力——约为上一代的 1/20。
支持 text、image、video 输入,输出文本。
MiniMax M3 在日常工程和 agent 工作中的突出之处。
SWE-Bench Pro、Terminal-Bench 等指标在真实编码与调试中表现强。
$0.30 / 1M 输入、$1.20 / 1M 输出——以零头价格获得前沿质量。
把整个仓库、长文档和多步 agent 轨迹放进一个上下文。
为多步工具调用、MCP 和自治工作流而构建。
开源权重发布,可自托管、可审计。
MSA 架构让 1M 上下文响应更快更省。
在 M-Chat 上与 MiniMax M3 对话时可用的核心能力。
为更难的代码、规划和分析切换扩展推理。
服务端 Tavily 搜索在模型作答前注入实时证据。
按模型能力发送 text、image 和 video。
编写、重构、调试代码,或驱动多步 agent 任务。
在大型代码库和长文档间工作而不丢上下文。
在你自己的应用中使用模型 ID minimax/minimax-m3。
来自 MiniMax 官方发布的完整 MiniMax M3 benchmark 表,覆盖代码、协作 Agent、GUI、多模态和推理评测。
| Benchmark | MiniMax M3 | MiniMax M2.7 | Claude Opus 4.7 | GPT 5.5 | Gemini 3.1 Pro | Claude Sonnet 4.6 | DeepSeek V4 Pro | GLM 5.1 Thinking | Kimi K2.6 Thinking |
|---|---|---|---|---|---|---|---|---|---|
| Coding | |||||||||
| SWE-Bench Verified | 80.5 | 79.9 | 87.6 | 82.9 | 80.6 | 79.6 | 80.6 | - | 80.2 |
| SWE-Bench Pro | 59.0 | 56.2 | 64.3 | 58.6 | 54.2 | - | 55.4 | 58.4 | 58.6 |
| Terminal Bench 2.1 | 66.0 | 51.1 | 66.1 | 78.2 | 70.3 | - | - | - | - |
| SWE Atlas-QnA | 37.9 | 11.29 | 45.16 | 45.43 | 13.5 | 31.20 | - | - | - |
| nl2repo | 42.13 | 34.99 | 56.28 | 52.9 | 21.62 | - | 35.5 | 41 | 42.8 |
| SWE Atlas-Test Writing | 30.83 | 18.89 | 38.21 | 42.59 | 29.84 | 31.76 | - | - | - |
| SWE-fficiency | 34.8 | 13.98 | 42.2 | 46.6 | 19.7 | - | - | - | - |
| LiveSQLBench | 40.17 | 33.17 | 41.00 | 40.17 | 39.83 | - | - | - | - |
| CL-bench | 20.48 | 15.38 | 22.92 | 25.38 | 21.06 | - | - | - | - |
| VIBE-V2 | 50.12 | 37.89 | 55.87 | 50.50 | 28.00 | - | - | - | - |
| SVG-Bench | 63.7 | 48.0 | 62.3 | 58.2 | 59.2 | - | - | - | - |
| PostTrainBench | 37.1 | 13.1 | 42.4 | 39.3 | 15.2 | - | - | - | - |
| KernelBench Hard | 28.8 | 10.5 | 30.7 | 20.9 | 18.6 | - | - | - | - |
| PaperBench | 52.6 | 30.6 | 58.5 | 57.5 | 46.7 | - | - | - | - |
| Cowork (Agent) | |||||||||
| BrowseComp | 83.52 | 76.3 | 79.3 | 84.4 | 85.9 | 74.7 | 83.4 | 79.3 | 83.2 |
| DRACO | 73.23 | 66.77 | 77.7 | - | - | 75.8 | - | - | - |
| GDPval rubrics | 74.78 | 66.44 | 79.8 | 80.66 | 57.82 | 75.65 | 70.32 | 68.26 | 65.12 |
| BankerToolBench | 76.12 | 63.89 | 81.34 | 70.04 | 67.03 | - | - | - | - |
| OfficeQA Pro | 45.1 | - | 43.6 | 52.6 | 18.1 | - | - | - | - |
| SpreadSheetBench-v1 | 89.35 | 84.92 | 88.49 | 88.11 | 56.06 | - | 84.9 | 85.2 | 84.5 |
| YC-Bench | 2.10M | 0 | 2.19M | 1.28M | 1.05M | - | - | - | - |
| LOCA-Bench (256k) | 49.3 | 0 | 57 | - | - | - | - | - | - |
| MCP Atlas | 74.2 | 49.4 | 77 | 75.3 | 69.2 | 61.3 | 73.6 | 71.8 | 66.6 |
| Apex-Agents | 27.7 | 5.6 | 37.2 | 41.7 | 33.4 | 26.2 | - | - | - |
| Claw-Eval | 74.5 | 49.7 | 71.6 | - | 57.8 | 68.3 | 58.4 | 62.7 | 61.5 |
| GUI | |||||||||
| OSWorld-Verified | 70.06 | - | 82.8 | 78.7 | 76.2 | 72.5 | 80.6 | - | 73.1 |
| MultiModal | |||||||||
| OmniDocBench | 91.6 | - | 89.3 | 87.5 | 88.1 | 86.9 | - | - | - |
| MMMU-Pro | 78.1 | - | 77 | 81.2 | 80.5 | 74.5 | - | - | 79.4 |
| Video-MMMU | 84.6 | - | 83 | 86.4 | 87.9 | - | - | - | - |
| VideoMME (w/ sub) | 85.4 | - | - | 89.4 | 87.9 | - | - | - | - |
| Reasoning | |||||||||
| IMO 2025 | 35 / 42 | - | - | - | - | - | - | - | - |
| USAMO 2026 | 36 / 42 | - | 52.8% | 98.21% | 74.40% | - | - | - | - |
来源:MiniMax M3 官方发布完整 benchmark 表。短横线与来源表的空白单元格一致。
更新于 2026-06-01选择适合 MiniMax M3 的 M-Chat 套餐。
包含
包含
包含
包含
关于 M-Chat、MiniMax M3、Thinking、联网搜索和本地验收的常见问题。
M-Chat 是面向 MiniMax M3 的独立网页聊天和研究站点,并不是 MiniMax 官方基础设施。
后端使用 MiniMax M3,模型 ID minimax/minimax-m3。
MiniMax M3 被描述为支持 text、image、video 输入并输出文本。M-Chat 已验证文本对话功能。
Thinking 会启用扩展推理,适合需要更深分析的提示。
服务端调用 Tavily 搜索,再把搜索结果作为上下文交给 MiniMax M3。
MiniMax M3 以开源权重发布;在 M-Chat,每位登录用户有 10 个免费 credits 可以试用。除此之外是付费:OpenRouter 和 MiniMax 官方 API 都按 token 计费,M-Chat 也提供 credit 套餐。
在 OpenRouter 上,MiniMax M3 折扣期价格为输入每 1M tokens $0.30、输出 $1.20。官方 MiniMax API 按输入长度分层,超过 512K 的费率更高。做预算前请核对实时价格。
MiniMax M3 以开源权重发布,可以下载并自部署,但并非完整开源许可。基于权重做商业产品前,请先查看 MiniMax 的条款。
MiniMax M3 面向代码和 agentic 任务,官方发布中 SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%,在开放访问一组里 SWE-Bench Pro 略居首位;不过 Claude Opus 4.8 等闭源模型分数更高。
MiniMax 报告 M3 在 SWE-Bench Pro 上略胜 GPT-5.5,BrowseComp 更强。Claude Opus 4.8 在原始编码上领先(约 69.2% SWE-Bench Pro)但价格高得多。M3 的优势是以零头价格接近前沿质量。
MiniMax M3 的上下文窗口是 1M token,比许多同类更大(例如 Kimi K2.6 为 256K)。这让完整仓库分析、长记录和工具密集型 agent 会话可以放进单个 prompt。
MiniMax M3 的模型 ID 是 minimax/minimax-m3。M-Chat 通过 OpenRouter 的统一 API 调用,因此你也可以用 OpenRouter key 和该模型 ID 接入同一个模型。
围绕 MiniMax M3 benchmark、价格和模型对比的说明。

MiniMax M3 在 SWE-Bench Pro、Terminal-Bench、BrowseComp、MCP Atlas 上的成绩,与 GPT-5.5、Claude Opus 4.8 的对比,以及开发者社区的早期反响。

MiniMax M3 在 OpenRouter 与官方 API 的价格、与 Claude Opus 4.8、GPT-5.5 的成本对比、M-Chat credits,以及社区的早期反响。

MiniMax M3 与 DeepSeek V4 Pro 在 SWE-Bench Pro、Terminal-Bench、BrowseComp、MCP Atlas 上的对比、各自优势、社区反响,以及生产环境如何选型。

MiniMax M3 与 GLM 5.1 在 SWE-Bench Pro、Terminal-Bench、BrowseComp、MCP Atlas 上的对比、差距所在、社区反响,以及如何为真实工作评测两者。

MiniMax M3 与 Kimi K2.6 在编码与终端 benchmark 上的对比、1M 与 256K 上下文差异、社区反响,以及 chat 和 agent 工作流如何选型。