前沿编码能力
SWE-Bench Pro、Terminal-Bench 等指标在真实编码与调试中表现强。
使用 M-Chat 这款独立网页应用,完成基于 MiniMax M3 的编码、agent 工作流、长上下文研究和 1M-token prompt。
M-Chat 是独立产品,与 MiniMax 官方无隶属关系。无需配置。支持 Thinking 模式和联网搜索。
示例问题
M-Chat 是围绕 MiniMax M3 构建的独立界面。MiniMax M3 是面向代码、agentic 工具调用和长上下文的开源前沿模型,原生支持 text、image、video 输入,其 MSA 架构把 1M 上下文下的 per-token 算力降到上一代的约 1/20。
以开源权重发布,聚焦代码与 agentic 任务。
Multi-Sparse-Attention 让 1M token 上下文更省算力——约为上一代的 1/20。
支持 text、image、video 输入,输出文本。
M-Chat 让 MiniMax M3 更适合日常工程和 agent 工作。
SWE-Bench Pro、Terminal-Bench 等指标在真实编码与调试中表现强。
$0.30 / 1M 输入、$1.20 / 1M 输出——以零头价格获得前沿质量。
把整个仓库、长文档和多步 agent 轨迹放进一个上下文。
为多步工具调用、MCP 和自治工作流而构建。
开源权重发布,可自托管、可审计。
MSA 架构让 1M 上下文响应更快更省。
M-Chat 围绕 MiniMax M3 访问提供的核心能力。
为更难的代码、规划和分析切换扩展推理。
服务端联网搜索在模型作答前注入实时证据。
按模型能力发送 text、image 和 video。
编写、重构、调试代码,或驱动多步 agent 任务。
在大型代码库和长文档间工作而不丢上下文。
在你自己的应用中使用 MiniMax M3。
来自 MiniMax 官方发布的完整 MiniMax M3 benchmark 表,覆盖代码、协作 Agent、GUI、多模态和推理评测。
| Benchmark | MiniMax M3 | MiniMax M2.7 | Claude Opus 4.7 | GPT 5.5 | Gemini 3.1 Pro | Claude Sonnet 4.6 | DeepSeek V4 Pro | GLM 5.1 Thinking | Kimi K2.6 Thinking |
|---|---|---|---|---|---|---|---|---|---|
| Coding | |||||||||
| SWE-Bench Verified | 80.5 | 79.9 | 87.6 | 82.9 | 80.6 | 79.6 | 80.6 | - | 80.2 |
| SWE-Bench Pro | 59.0 | 56.2 | 64.3 | 58.6 | 54.2 | - | 55.4 | 58.4 | 58.6 |
| Terminal Bench 2.1 | 66.0 | 51.1 | 66.1 | 78.2 | 70.3 | - | - | - | - |
| SWE Atlas-QnA | 37.9 | 11.29 | 45.16 | 45.43 | 13.5 | 31.20 | - | - | - |
| nl2repo | 42.13 | 34.99 | 56.28 | 52.9 | 21.62 | - | 35.5 | 41 | 42.8 |
| SWE Atlas-Test Writing | 30.83 | 18.89 | 38.21 | 42.59 | 29.84 | 31.76 | - | - | - |
| SWE-fficiency | 34.8 | 13.98 | 42.2 | 46.6 | 19.7 | - | - | - | - |
| LiveSQLBench | 40.17 | 33.17 | 41.00 | 40.17 | 39.83 | - | - | - | - |
| CL-bench | 20.48 | 15.38 | 22.92 | 25.38 | 21.06 | - | - | - | - |
| VIBE-V2 | 50.12 | 37.89 | 55.87 | 50.50 | 28.00 | - | - | - | - |
| SVG-Bench | 63.7 | 48.0 | 62.3 | 58.2 | 59.2 | - | - | - | - |
| PostTrainBench | 37.1 | 13.1 | 42.4 | 39.3 | 15.2 | - | - | - | - |
| KernelBench Hard | 28.8 | 10.5 | 30.7 | 20.9 | 18.6 | - | - | - | - |
| PaperBench | 52.6 | 30.6 | 58.5 | 57.5 | 46.7 | - | - | - | - |
| Cowork (Agent) | |||||||||
| BrowseComp | 83.52 | 76.3 | 79.3 | 84.4 | 85.9 | 74.7 | 83.4 | 79.3 | 83.2 |
| DRACO | 73.23 | 66.77 | 77.7 | - | - | 75.8 | - | - | - |
| GDPval rubrics | 74.78 | 66.44 | 79.8 | 80.66 | 57.82 | 75.65 | 70.32 | 68.26 | 65.12 |
| BankerToolBench | 76.12 | 63.89 | 81.34 | 70.04 | 67.03 | - | - | - | - |
| OfficeQA Pro | 45.1 | - | 43.6 | 52.6 | 18.1 | - | - | - | - |
| SpreadSheetBench-v1 | 89.35 | 84.92 | 88.49 | 88.11 | 56.06 | - | 84.9 | 85.2 | 84.5 |
| YC-Bench | 2.10M | 0 | 2.19M | 1.28M | 1.05M | - | - | - | - |
| LOCA-Bench (256k) | 49.3 | 0 | 57 | - | - | - | - | - | - |
| MCP Atlas | 74.2 | 49.4 | 77 | 75.3 | 69.2 | 61.3 | 73.6 | 71.8 | 66.6 |
| Apex-Agents | 27.7 | 5.6 | 37.2 | 41.7 | 33.4 | 26.2 | - | - | - |
| Claw-Eval | 74.5 | 49.7 | 71.6 | - | 57.8 | 68.3 | 58.4 | 62.7 | 61.5 |
| GUI | |||||||||
| OSWorld-Verified | 70.06 | - | 82.8 | 78.7 | 76.2 | 72.5 | 80.6 | - | 73.1 |
| MultiModal | |||||||||
| OmniDocBench | 91.6 | - | 89.3 | 87.5 | 88.1 | 86.9 | - | - | - |
| MMMU-Pro | 78.1 | - | 77 | 81.2 | 80.5 | 74.5 | - | - | 79.4 |
| Video-MMMU | 84.6 | - | 83 | 86.4 | 87.9 | - | - | - | - |
| VideoMME (w/ sub) | 85.4 | - | - | 89.4 | 87.9 | - | - | - | - |
| Reasoning | |||||||||
| IMO 2025 | 35 / 42 | - | - | - | - | - | - | - | - |
| USAMO 2026 | 36 / 42 | - | 52.8% | 98.21% | 74.40% | - | - | - | - |
来源:MiniMax M3 官方发布完整 benchmark 表。短横线与来源表的空白单元格一致。
更新于 2026-06-01选择适合托管 MiniMax M3 访问的 M-Chat 套餐。
包含
包含
包含
包含
关于 M-Chat、MiniMax M3、Thinking、联网搜索和本地验收的常见问题。
M-Chat 是面向 MiniMax M3 的独立网页聊天和研究站点,并不是 MiniMax 官方基础设施。
对话使用 MiniMax M3。
MiniMax M3 被描述为支持 text、image、video 输入并输出文本。M-Chat 已验证文本对话功能。
Thinking 会启用扩展推理,适合需要更深分析的提示。
服务端执行联网搜索,再把搜索结果作为上下文交给 MiniMax M3。
MiniMax M3 以开源权重发布;在 M-Chat,每位登录用户有 10 个免费 credits 可以试用。除此之外是付费——M-Chat 提供 credit 套餐,通过其他服务商使用该模型则由对方按 token 计费。
第三方服务商在折扣期把 MiniMax M3 列为输入每 1M tokens 约 $0.30、输出约 $1.20。官方 MiniMax API 按输入长度分层,超过 512K 的费率更高。做预算前请核对实时价格。
MiniMax M3 以开源权重发布,可以下载并自部署,但并非完整开源许可。基于权重做商业产品前,请先查看 MiniMax 的条款。
MiniMax M3 面向代码和 agentic 任务,官方发布中 SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%,在开放访问一组里 SWE-Bench Pro 略居首位;不过 Claude Opus 4.8 等闭源模型分数更高。
MiniMax 报告 M3 在 SWE-Bench Pro 上略胜 GPT-5.5,BrowseComp 更强。Claude Opus 4.8 在原始编码上领先(约 69.2% SWE-Bench Pro)但价格高得多。M3 的优势是以零头价格接近前沿质量。
MiniMax M3 的上下文窗口是 1M token,比许多同类更大(例如 Kimi K2.6 为 256K)。这让完整仓库分析、长记录和工具密集型 agent 会话可以放进单个 prompt。
MiniMax M3 可通过 MiniMax 官方 API 使用,也以开源权重发布、可自部署。M-Chat 是一个托管的对话界面,并不是供二次开发的 API;要在自己的应用里集成 M3,请使用 MiniMax 官方 API 或开源权重。
围绕 MiniMax M3 benchmark、价格和模型对比的说明。

MiniMax M3 在 SWE-Bench Pro、Terminal-Bench、BrowseComp、MCP Atlas 上的成绩,与 GPT-5.5、Claude Opus 4.8 的对比,以及开发者社区的早期反响。

MiniMax M3 在 OpenRouter 与官方 API 的价格、与 Claude Opus 4.8、GPT-5.5 的成本对比、M-Chat credits,以及社区的早期反响。

MiniMax M3 对比 DeepSeek V4 Pro:M3 在 SWE-Bench Pro 领先(59.0% vs 55.4%),DeepSeek 在 Terminal-Bench 更高。规格、路由与上线前测试清单。

MiniMax M3 对比 GLM 5.1:在引用表里 M3 每一行都领先(SWE-Bench Pro 59.0% vs 58.4%)。规格表、如何选型、路由方案与常见问题。

MiniMax M3 对比 Kimi K2.6:1M 与 256K 上下文、SWE-Bench Pro 59.0% vs 58.6%。规格表、如何选型、路由方案与上线前测试。