DeepSeek V3 中文实测

1. 测试方法

我们准备了 6 套各 50 道题的中文测试集，覆盖 maker 真实工作场景。每道题用 3 个模型独立跑 3 次取平均（避免随机性）。测试集来自 MOXIE 编辑团队过去 6 个月的真实工作样本，不来自任何公开 benchmark，避免模型针对性优化。

测试环境配置截图 — 测试在本机 + 3 家官方 API 上完成，统一 prompt 模板 / 温度 0.7 / 最大 token 2000

调用方式统一通过各家官方 API：

DeepSeek V3：api.deepseek.com，¥1/M 输入
Claude 3.5 Sonnet：api.anthropic.com，$3/M 输入
GPT-4o：api.openai.com，$2.5/M 输入

「DeepSeek V3 在中文长文档场景明显胜出 Claude；代码场景与 Claude 持平；Function Calling 还有差距，复杂 schema 偶尔会丢字段。综合算下来，同样的工作量月度 API 成本降了 92%。」

— 测试结论一句话总结

2. 3 个 Claude 没有的优势

① 中文长文档理解更深

测试场景：一份 4.2 万字的中文合同 PDF，问 15 个具体条款。三家模型的表现差异比想象中大很多。

3 模型准确率对比柱状图 — 3 个模型在 15 道合同条款题上的准确率对比 · 蓝：GPT-4o · 紫：Claude 3.5 · 红：DeepSeek V3

模型	准确率	识别隐含条款	响应时间
GPT-4o	86%	9/15	14s
Claude 3.5	91%	11/15	11s
DeepSeek V3	94%	14/15	9s

DeepSeek 多识别出 3 处「条款 A 的成立依赖条款 G 中的某状态」这种隐含逻辑。Claude 给出的回答更"完整漂亮"，但少了这种深度。

② 数学推理稳定性

50 道高中竞赛题，要求逐步推理。这是个对模型「自我修正能力」要求很高的场景。

DeepSeek V3 错误率 12%，Claude 3.5 错误率 18%，GPT-4o 错误率 23%。更关键的是 DeepSeek 错误时会自我修正 —— 出错的题里有 7 道在中途意识到错误并重算。

③ 中文代码注释生成

给一段 200 行 Python，让模型补全中文 docstring。DeepSeek 生成的注释更符合中文工程师习惯：少用"该函数...的作用是"，多用"做什么、用什么、注意什么"的实操格式。

# DeepSeek V3 输出
def retry_with_backoff(func, max_tries=3):
    """带指数退避的重试装饰器

    做什么：失败时等 2^n 秒后重试
    用什么：func 必须无副作用
    注意：max_tries=0 会直接抛异常
    """
    ...

实操建议：如果你的项目大量涉及中文注释 / 文档生成，DeepSeek V3 的输出更接近中文工程师的真实写法，几乎不需要二次修改。

3. 2 个仍有差距的地方

① Function Calling 复杂 schema

20 个 tool、嵌套 3 层的 JSON schema 场景下，DeepSeek 有 3 次丢字段（必填字段没传）。Claude 0 次。GPT-4o 1 次。

Function Calling 失败案例截图 — DeepSeek V3 在调用 12 参数 schema 时偶尔丢失嵌套字段，需要 retry 机制兜底

建议生产环境加 retry + schema 校验兜底。具体代码模式可以参考 OpenAI 官方的 structured outputs 示例。

② 长尾领域知识

问到「2024 年 11 月 OpenAI 的某个具体声明」时，DeepSeek 信心十足地编造了一个回答。Claude 直接说「我不确定」。事实查询场景 Claude 仍然更安全。

4. 实际成本对比

团队 8 人，月度 AI API 调用统计：

模型	月度调用	原成本	切换后
Claude 3.5 Sonnet（之前）	~12M tokens	¥35,000	—
DeepSeek V3（之后）	~12M tokens	—	¥2,800

成本对比折线图 — 切换前后连续 30 天的 API 成本曲线 · 切换日为第 7 天

降本 92%，质量在我们测试集上 95% 持平。具体看场景：

中文长文档 / 数据分析 / 报告生成 → DeepSeek 完全可替
复杂 Agent / Function Calling → 建议 Claude 仍保留，配合 fallback
事实查询 / 关键决策 → Claude 优先

5. 怎么开始用

3 步迁移：

在 platform.deepseek.com 注册账号（国内手机号即可，赠 ¥10）
把 OpenAI SDK 的 base_url 改成 https://api.deepseek.com，model 改成 deepseek-chat
跑你自己的真实样本（不要看 benchmark），看是否能替代你当前模型

最后

DeepSeek V3 不是 silver bullet。它在中文长文档和数学推理上确实强，但在复杂 Function Calling 和长尾事实查询上仍弱于 Claude。最佳实践是 用 DeepSeek 处理 80% 常规任务，关键 20% 保留 Claude 兜底，整体成本能降到原来 1/10。

下周我们会发 Coze / Dify / FastGPT 的中文工作流横评，关注周报第一时间收到。

评论 8 条

登录后即可参与评论 / 收藏 / 点赞

王

王哲明 · 2 小时前

实测过 V3 vs Claude 3.5 在代码场景，DeepSeek 在复杂 refactor 时会主动重构，Claude 偏保守。我们团队最后选了路由策略：简单任务给 DS，关键逻辑给 Claude。

张

张敏 · 5 小时前

我们公司全切到 V3 了，月度 token 成本从 ¥35k 降到 ¥4.2k，质量 95% 没差别。Function Calling 加了 retry 也没问题。

李

李铭 · 8 小时前

同感，长尾事实查询是真的不行。问了几个 2024 年的 API 变更，DS 一本正经胡说八道。结论场景一定要看，不能 all in。

周

周野 · 1 天前

本地部署 671B 需要 8×H100，普通人玩不起，建议直接走 API。我们试过用 int4 量化版本跑 4090×4 也可以，但延迟翻倍。

加载中…