DeepSeek V3.1未发布模型卡片却依旧排名第四，它到底更新了啥？它与 GPT-5 相比又如何？

今天，DeepSeek 正式发文把 V3.1 推上前台，前两天还只是在群里简单通知一下，即便还未公布模型卡，DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。

But连官方文章都没有，搞得用户云里雾里不知道 V3.1 具体更新了些什么

而就在今天下午，官方终于发布了V3.1相关更新文章👇

这一版的主题很鲜明：把“思考模式（Reasoning）”与“普通对话”合到一套模型里，再把工具调用与智能体（Agent）能力一并补强。

而说起DeepSeek，我们不免会想到前不久上线，且成为 ChatGPT 的默认引擎 —— OpenAI GPT-5 这个强有力的对手了。

那两者路线不同、侧重点不同——到底怎么选？下面把最重要的变化、对比与上手路径一次说清。

一、V3.1 本次升级要点

混合推理架构：V3.1 兼容“思考/非思考”两种聊天模板；API 侧直接映射为 deepseek-reasoner（思考）与 deepseek-chat（非思考）。官网更新日志已确认两者均已升级为 V3.1。
模板与上下文：开源权重的 tokenizer_config.json 显示 model_max_length 为 131072（约 128K）；新版 chat template 引入 <think> 片段与更清晰的工具调用占位
Agent 能力显著增强：后训练优化带来工具使用与智能体任务的大幅提升；在代码与搜索类智能体评测上，V3.1 的分数整体高于前代，例如编码方面SWE-bench Verified 66.0%，数学方面AIME 2025 88.4%（详细参数见官文）
工具/函数调用：非思考模式支持 Function Calling 与严格 JSON；
Agent 生态更顺手：新增 Anthropic API 兼容层，可把 DeepSeek 挂进 Claude Code 流程里，无缝融入现有工程链路。

App/网页端也同步了“深度思考”开关，可在界面上自由切换模式，最明显变化就是，DeepSeek 在官方 APP 和网页版上，从“深度思考（R1）”中删除了“R1”。

上下文：400K 窗口、128K 最大输出
编码与推理：官方给出 SWE-bench Verified 74.9%、Aider-Polyglot 88%，并强调在同等任务上较 o3 更省输出 token 与工具调用
数学：AIME 2025 94.6%（无工具）
工具智能：能稳定串并联多次工具调用，长链路任务更稳。
价格（API）：输入 $1.25 / 百万 tokens，缓存输入 $0.125 ，输出 $10；另有 mini / nano 低价档。

官网参考文档：

https://openai.com/index/introducing-gpt-5/?utm_source=chatgpt.com

说明：仅纳入双方均有官方/模型卡数值的基准；DeepSeek 若区分思考/非思考，取**更强的“思考”**版本一并列示。

任务/基准	DeepSeek-V3.1（Think）	GPT-5	备注
SWE-bench Verified（真实软件缺陷修复）	66.0% （V3.1-NonThinking，Agent 模式）	74.9%	DS 官方以内部 Agent 框架跑分；仍可视作同一任务族对比
Aider-Polyglot（多语种代码编辑）	76.3%	88%	官方均给出明确百分比
AIME 2025（数学）	88.4%	94.6% （无工具）	同为 Pass@1

编码&修复：在 SWE-bench Verified 和 Aider-Polyglot 上，GPT-5 领先 6.9–11.7 个百分点，属于稳定领先。
数学推理：AIME 2025 上 GPT-5 领先 6.2 个百分点，也是明确领先。

因此，仅看双方共同公开的权威基准，GPT-5 整体领先一个梯级；DeepSeek-V3.1 在成本/开源/可控方面具现实优势，工程落地性强。

维度	DeepSeek-V3.1	GPT-5
模型形态	同一模型双模板：`chat`（非思考）/`reasoner`（思考），前端“深度思考”开关	统一系统 + 自动路由；可显式切换到 Thinking
上下文	128K（开源权重配置）；API 以定价/模型页为准	400K 上下文，128K 最大输出
工具/函数调用	非思考：支持；思考：不直接支持（传 `tools` 会回落到 `chat`）	强化的并行/串行工具链、鲁棒错误处理、长链检索优化
结构化输出	JSON Output（严格 JSON 返回）	函数调用 + 结构化输出，生态配套完善
Agent 生态	新增 Anthropic API 兼容（Claude Code 直连）	ChatGPT 原生生态（搜索/文件/图像/任务），路线更“全集成”
开源/可控	权重开源（Base/后训），可私有化/微调	闭源商用，胜在产品整合与服务保障
价格带（API）	价目将 9月6日凌晨变更并取消夜间折扣	GPT-5：input $1.25 / output $10（百万tokens），有 mini/nano 梯度
适配场景	私有化可控、成本敏感、需要深度定制的 Agent/应用	统一入口追求最强通用生产力、复杂多工具链路任务

要“最强通用生产力/端内一体化” ：优先GPT-5：400K 窗口 + 更强的编码&数学 + 事实性显著提升，复杂多工具链路更稳。
要“开源可控/私有化/成本敏感” ：优先DeepSeek-V3.1：128K 权重、模板清晰、Function Calling/JSON/Anthropic 兼容，工程改造友好。
团队落地：推荐混合路由——日常与私有任务走 V3.1，超长上下文/关键链路切 GPT-5，兼顾成本与效果。