## 六大模型深度对比报告（GLM-5 / Kimi K2.5 / MiniMax M2.5 / Claude Opus 4.6 / GPT-5.3-Codex / Gemini 3.1 Pro）

> 统计日期：2026-02-23（美国时区）  
> 数据源：仅使用任务给定的 10 个官方链接；未扩展到其他网址。  
> 特别说明：`https://openai.com/index/introducing-gpt-5-3-codex/` 直连抓取触发 Cloudflare，已按要求改用浏览器方式读取核心内容。

---

## 1. 执行摘要

本轮对比的核心结论有三条：

1. **工程与 Agent 综合上限**：Gemini 3.1 Pro 与 Claude Opus 4.6 在公开高难基准上更“全能”，尤其在 `Terminal-Bench 2.0`、`HLE(with tools)` 一类任务上竞争激烈。  
2. **性价比与规模部署**：MiniMax M2.5 在价格与吞吐叙事上最激进，给出了非常明确的 Agent 规模化成本模型。  
3. **工程可执行度**：GPT-5.3-Codex、GLM-5、Kimi K2.5 都在“能写代码”之外，强调了“能跑长流程、能调工具、能持续执行”的 Agentic 工程能力。

如果你只看一个决策建议：

- **追求最高上限与企业稳健**：`Gemini 3.1 Pro` / `Claude Opus 4.6`
- **追求低成本高并发 Agent 生产**：`MiniMax M2.5`
- **追求工程链路和开发者原生体验**：`GPT-5.3-Codex` / `GLM-5` / `Kimi K2.5`

---

## 2. 方法与口径

### 2.1 数据处理原则

- 仅采集指定链接中的官方内容。
- 对可对齐的硬指标进行并列比较（如 `Terminal-Bench 2.0`、`SWE-Bench Verified`、`上下文窗口`、价格）。
- 对不可直接对齐项（不同 harness、不同 thinking 设置）单独标注，避免“伪公平”。

### 2.2 不可忽视的口径差异

- 多数成绩为各家自报，且**测试框架不同**（是否开工具、上下文管理、thinking budget、是否多 Agent harness）。
- 同一 benchmark 在不同页面可能出现不同配置分数（例如 Opus 在 `Terminal-Bench 2.0` 的“默认/高 effort”口径）。
- 因此，本报告更适合用于**技术选型方向**，不适合直接当成“绝对冠军榜”。

---

## 3. 图片信息识别与分析（重点）

本任务要求必须分析图片信息。以下结论来自页面中的图片 `alt` 描述、配图标题与正文互证：

### 3.1 Kimi K2.5（Moonshot）

- 图片明确展示了 **Agent Swarm 架构图**：由 Orchestrator 动态创建并调度子 Agent 并行执行。
- 训练曲线图的图片描述显示：**训练准确率与并行度随 RL 训练持续上升**。
- 对比图描述显示：K2.5 Agent Swarm 在 `BrowseComp`、`Wide Search`、内部基准相对 Opus 4.5 有优势区间。
- 这与正文“最多 100 子 Agent、最多 1500 工具调用、最高 4.5x 提速”的叙述一致。

### 3.2 Anthropic Opus 4.6

- 图片 `alt` 明确给出多个图表主题：`GDPval-AA`、`DeepSearchQA`、`Terminal-Bench 2.0`、综合 benchmark table。
- 文本给出具体值（如 `Terminal-Bench 2.0 = 65.4%`），与图表主题形成互证。
- 图片层面还显示大量企业 logo，用于背书“真实生产验证场景”。

### 3.3 Gemini 3.1 Pro

- Google Keyword 页面配图包含 benchmark 对比动图（`gemini_3-1-pro__benchmarks.gif`），与正文 `ARC-AGI-2 = 77.1%`、高推理场景描述一致。
- DeepMind 页面中展示多个“代码生成与交互设计”案例图（航天遥测仪表盘、群体仿真、动画 SVG），强调的是**复杂推理+可交互产物**。

### 3.4 MiniMax M2.5

- 模型页图片包含多组实战产物示例（电商站点、演示稿、3D 场景）和多种脚手架/工具 Logo，强调“真实交付”与“工具栈兼容”。
- 这与其正文“Agent 生产力场景、Office skills、脚手架泛化”的主张一致。

结论：图片信息不是装饰，而是“Agent 架构、训练走势、基准分布、真实产物类型”的直接证据，已纳入综合判断。

---

## 4. 六模型关键事实卡（按官方发布时间）

### 4.1 MiniMax M2.5（2026-02-12）

- `SWE-Bench Verified 80.2%`
- `Multi-SWE-Bench 51.3%`
- `BrowseComp 76.3%`
- 声称 `100 TPS` 推理速度，且给出成本：`$0.3/M 输入`、`$2.4/M 输出`（快速版）；50 TPS 输出价再减半。
- 给出 Agent 端到端效率数据：平均 31.3 分钟降至 22.8 分钟（+37%）。

### 4.2 Claude Opus 4.6（2026-02-05）

- `1M token` 上下文（beta，开发者平台）
- `Terminal-Bench 2.0: 65.4%`（产品页口径）
- `OSWorld: 72.7%`
- 价格：`$5/M 输入`、`$25/M 输出`（标准定价）
- 在公告中给出：对 GPT-5.2 在 GDPval-AA 约 +144 Elo。

### 4.3 GPT-5.3-Codex（2026-02-17）

- 定位：专注软件工程的 agentic 模型（并兼顾通用推理）。
- `1M token` 上下文，知识截止 `2024-10`。
- Appendix 公开：`SWE-Bench Verified 74.9`、`Terminal-Bench 2.0 64.7`、`HLE(with tools) 36.8`。

### 4.4 Gemini 3.1 Pro（2026-02-19，preview）

- 官方给出 `ARC-AGI-2 = 77.1%`（verified）。
- DeepMind 对比表显示：`HLE(with Search+Code) 51.4%`、`Terminal-Bench 2.0 68.5%`、`GPQA Diamond 94.3%`。
- 定位强调：复杂推理、工具调用、agentic coding。

### 4.5 GLM-5（文档页）

- `上下文窗口 200K`，`最大输出 128K`。
- 文档宣称在 `SWE-bench-Verified 77.8`、`Terminal Bench 2.0 56.2` 达到开源高分。
- 明确主张：Coding 对齐 Opus 4.5、Agent 面向长程任务执行。

### 4.6 Kimi K2.5（Tech Blog + GitHub）

- 连续预训练规模：约 `15T` 视觉+文本 token。
- `Context Length 256K`。
- Agent Swarm：最多 `100` 子 Agent、最多 `1500` 工具调用、最高 `4.5x` 提速。
- GitHub表格可见：`SWE-Bench Verified 76.8`、`Terminal Bench 2.0 50.8`、`BrowseComp(Agent Swarm) 78.4`。

---

## 5. 横向硬指标对比（公开可提取）

| 维度 | GLM-5 | Kimi K2.5 | MiniMax M2.5 | Opus 4.6 | GPT-5.3-Codex | Gemini 3.1 Pro |
|---|---:|---:|---:|---:|---:|---:|
| Terminal-Bench 2.0 | 56.2 | 50.8 | N/A | 65.4 | 64.7 | 68.5 |
| SWE-Bench Verified | 77.8 | 76.8 | 80.2 | N/A | 74.9 | N/A |
| HLE（with tools） | N/A | 50.2 | N/A | N/A* | 36.8 | 51.4 |
| BrowseComp（代表口径） | 开源SOTA（未给同表数） | 60.6 / Swarm 78.4 | 76.3 | 多 Agent harness 86.8 | N/A | N/A |
| 上下文窗口 | 200K | 256K | N/A | 1M(beta) | 1M | N/A（页面未披露） |
| 公开价格（每百万 token） | N/A | N/A | $0.3 输入 / $2.4 输出 | $5 输入 / $25 输出 | N/A | N/A |

注：`N/A*` 表示该维度页面有“领先描述”但未在同口径公开同表数值。

---

## 6. 深度判断（多维）

### 6.1 编码与工程执行

- **第一梯队（公开分数+产品叙事最完整）**：Gemini 3.1 Pro、Opus 4.6、GPT-5.3-Codex、MiniMax M2.5。
- **开源阵营强势**：GLM-5、Kimi K2.5 在工程与 Agent 结合上非常激进，尤其 Kimi 的 Swarm 方案更“研究前沿化”。

### 6.2 Agent 长程任务

- **并行编排最显性**：Kimi K2.5（Swarm）与 Opus 4.6（agent teams / context compaction）。
- **成本驱动规模部署**：MiniMax M2.5 把“长期运行 Agent 的账”算得最清楚。

### 6.3 成本与可扩展性

- 公开价格里，MiniMax M2.5 的单位输出成本明显激进。
- Opus 4.6 给出成熟定价与缓存/批处理节省策略，更偏企业稳态治理。

### 6.4 风险点

- 各家 benchmark 口径差异大，不能用单个分数做“绝对排名”。
- 许多“领先”结论依赖内部框架，落地时需做你自己的回归评测。

---

## 7. 选型建议（按场景）

1. **高价值企业任务（合规+稳定）**：优先 `Claude Opus 4.6` / `Gemini 3.1 Pro`。  
2. **低成本大规模 Agent 生产**：优先 `MiniMax M2.5`。  
3. **开发者主导的代码 Agent 工程链**：优先 `GPT-5.3-Codex`，并对比 `GLM-5`、`Kimi K2.5` 的开源可控性。  
4. **想要并行多 Agent 玩法**：优先试 `Kimi K2.5 Agent Swarm`，并用 Opus/Gemini 做对照组。

---

## 8. 自身优势总结（GPT-5.3-Codex 视角）

如果目标是“把需求稳定变成可运行工程产物”，GPT-5.3-Codex 的优势在于：**长上下文工程记忆、CLI/Agent 工作流适配、代码修改与调试闭环能力**。它不是只会“给答案”，而是更偏“把任务做完并能复盘”的工程型模型。

---

## 9. 搞笑环节：对弱模型的无情吐槽（文明版）

有些模型看起来参数很猛，真到实战就开始：

- 规划三步，第一步就忘了目标；
- 工具会调，但调完像把扳手当麦克风；
- 代码能跑，但一跑就把 CI 跑进 ICU；
- 说自己是 Agent，结果更像“需要被 Agent 管理的实习生”。

一句话总结：**PPT 里是全栈战神，终端里是“command not found”。**

---

## 10. 参考链接（仅任务指定地址）

- GLM-5: https://docs.bigmodel.cn/cn/guide/models/text/glm-5
- Kimi K2.5 Blog: https://www.kimi.com/blog/kimi-k2-5.html
- Kimi K2.5 GitHub: https://github.com/MoonshotAI/Kimi-K2.5
- MiniMax News: https://www.minimaxi.com/news/minimax-m25
- MiniMax Model Page: https://www.minimaxi.com/models/text
- Anthropic Announcement: https://www.anthropic.com/news/claude-opus-4-6
- Anthropic Opus Page: https://www.anthropic.com/claude/opus
- OpenAI GPT-5.3-Codex: https://openai.com/index/introducing-gpt-5-3-codex/
- Google Keyword (Gemini 3.1 Pro): https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
- Google DeepMind Gemini Pro: https://deepmind.google/technologies/gemini/pro/