1. 测试方法
我们准备了 6 套各 50 道题的中文测试集,覆盖 maker 真实工作场景。每道题用 3 个模型独立跑 3 次取平均(避免随机性)。测试集来自 MOXIE 编辑团队过去 6 个月的真实工作样本,不来自任何公开 benchmark,避免模型针对性优化。
调用方式统一通过各家官方 API:
- DeepSeek V3:
api.deepseek.com,¥1/M 输入 - Claude 3.5 Sonnet:
api.anthropic.com,$3/M 输入 - GPT-4o:
api.openai.com,$2.5/M 输入
「DeepSeek V3 在中文长文档场景明显胜出 Claude;代码场景与 Claude 持平;Function Calling 还有差距,复杂 schema 偶尔会丢字段。综合算下来,同样的工作量月度 API 成本降了 92%。」
2. 3 个 Claude 没有的优势
① 中文长文档理解更深
测试场景:一份 4.2 万字的中文合同 PDF,问 15 个具体条款。三家模型的表现差异比想象中大很多。
| 模型 | 准确率 | 识别隐含条款 | 响应时间 |
|---|---|---|---|
| GPT-4o | 86% | 9/15 | 14s |
| Claude 3.5 | 91% | 11/15 | 11s |
| DeepSeek V3 | 94% | 14/15 | 9s |
DeepSeek 多识别出 3 处「条款 A 的成立依赖条款 G 中的某状态」这种隐含逻辑。Claude 给出的回答更"完整漂亮",但少了这种深度。
② 数学推理稳定性
50 道高中竞赛题,要求逐步推理。这是个对模型「自我修正能力」要求很高的场景。
DeepSeek V3 错误率 12%,Claude 3.5 错误率 18%,GPT-4o 错误率 23%。更关键的是 DeepSeek 错误时会自我修正 —— 出错的题里有 7 道在中途意识到错误并重算。
③ 中文代码注释生成
给一段 200 行 Python,让模型补全中文 docstring。DeepSeek 生成的注释更符合中文工程师习惯:少用"该函数...的作用是",多用"做什么、用什么、注意什么"的实操格式。
3. 2 个仍有差距的地方
① Function Calling 复杂 schema
20 个 tool、嵌套 3 层的 JSON schema 场景下,DeepSeek 有 3 次丢字段(必填字段没传)。Claude 0 次。GPT-4o 1 次。
建议生产环境加 retry + schema 校验兜底。具体代码模式可以参考 OpenAI 官方的 structured outputs 示例。
② 长尾领域知识
问到「2024 年 11 月 OpenAI 的某个具体声明」时,DeepSeek 信心十足地编造了一个回答。Claude 直接说「我不确定」。事实查询场景 Claude 仍然更安全。
4. 实际成本对比
团队 8 人,月度 AI API 调用统计:
| 模型 | 月度调用 | 原成本 | 切换后 |
|---|---|---|---|
| Claude 3.5 Sonnet(之前) | ~12M tokens | ¥35,000 | — |
| DeepSeek V3(之后) | ~12M tokens | — | ¥2,800 |
降本 92%,质量在我们测试集上 95% 持平。具体看场景:
- 中文长文档 / 数据分析 / 报告生成 → DeepSeek 完全可替
- 复杂 Agent / Function Calling → 建议 Claude 仍保留,配合 fallback
- 事实查询 / 关键决策 → Claude 优先
5. 怎么开始用
3 步迁移:
- 在
platform.deepseek.com注册账号(国内手机号即可,赠 ¥10) - 把 OpenAI SDK 的
base_url改成https://api.deepseek.com,model改成deepseek-chat - 跑你自己的真实样本(不要看 benchmark),看是否能替代你当前模型
最后
DeepSeek V3 不是 silver bullet。它在中文长文档和数学推理上确实强,但在复杂 Function Calling 和长尾事实查询上仍弱于 Claude。最佳实践是 用 DeepSeek 处理 80% 常规任务,关键 20% 保留 Claude 兜底,整体成本能降到原来 1/10。
下周我们会发 Coze / Dify / FastGPT 的中文工作流横评,关注周报第一时间收到。
登录后即可参与评论 / 收藏 / 点赞
登录 / 注册