首页 / 文章 / REVIEW
REVIEW · · — MIN READ

加载中…

MOXIE 编辑团队
独立测试 · 不收任何赞助

1. 测试方法

我们准备了 6 套各 50 道题的中文测试集,覆盖 maker 真实工作场景。每道题用 3 个模型独立跑 3 次取平均(避免随机性)。测试集来自 MOXIE 编辑团队过去 6 个月的真实工作样本,不来自任何公开 benchmark,避免模型针对性优化。

测试环境配置截图
测试在本机 + 3 家官方 API 上完成,统一 prompt 模板 / 温度 0.7 / 最大 token 2000

调用方式统一通过各家官方 API:

  • DeepSeek V3api.deepseek.com,¥1/M 输入
  • Claude 3.5 Sonnetapi.anthropic.com,$3/M 输入
  • GPT-4oapi.openai.com,$2.5/M 输入

「DeepSeek V3 在中文长文档场景明显胜出 Claude;代码场景与 Claude 持平;Function Calling 还有差距,复杂 schema 偶尔会丢字段。综合算下来,同样的工作量月度 API 成本降了 92%。」

— 测试结论一句话总结

2. 3 个 Claude 没有的优势

① 中文长文档理解更深

测试场景:一份 4.2 万字的中文合同 PDF,问 15 个具体条款。三家模型的表现差异比想象中大很多。

3 模型准确率对比柱状图
3 个模型在 15 道合同条款题上的准确率对比 · 蓝:GPT-4o · 紫:Claude 3.5 · 红:DeepSeek V3
模型准确率识别隐含条款响应时间
GPT-4o86%9/1514s
Claude 3.591%11/1511s
DeepSeek V394%14/159s

DeepSeek 多识别出 3 处「条款 A 的成立依赖条款 G 中的某状态」这种隐含逻辑。Claude 给出的回答更"完整漂亮",但少了这种深度。

② 数学推理稳定性

50 道高中竞赛题,要求逐步推理。这是个对模型「自我修正能力」要求很高的场景。

数学题输出对比 1 数学题输出对比 2

DeepSeek V3 错误率 12%,Claude 3.5 错误率 18%,GPT-4o 错误率 23%。更关键的是 DeepSeek 错误时会自我修正 —— 出错的题里有 7 道在中途意识到错误并重算。

③ 中文代码注释生成

给一段 200 行 Python,让模型补全中文 docstring。DeepSeek 生成的注释更符合中文工程师习惯:少用"该函数...的作用是",多用"做什么、用什么、注意什么"的实操格式。

# DeepSeek V3 输出 def retry_with_backoff(func, max_tries=3): """带指数退避的重试装饰器 做什么:失败时等 2^n 秒后重试 用什么:func 必须无副作用 注意:max_tries=0 会直接抛异常 """ ...
实操建议:如果你的项目大量涉及中文注释 / 文档生成,DeepSeek V3 的输出更接近中文工程师的真实写法,几乎不需要二次修改。

3. 2 个仍有差距的地方

① Function Calling 复杂 schema

20 个 tool、嵌套 3 层的 JSON schema 场景下,DeepSeek 有 3 次丢字段(必填字段没传)。Claude 0 次。GPT-4o 1 次。

Function Calling 失败案例截图
DeepSeek V3 在调用 12 参数 schema 时偶尔丢失嵌套字段,需要 retry 机制兜底

建议生产环境加 retry + schema 校验兜底。具体代码模式可以参考 OpenAI 官方的 structured outputs 示例。

② 长尾领域知识

问到「2024 年 11 月 OpenAI 的某个具体声明」时,DeepSeek 信心十足地编造了一个回答。Claude 直接说「我不确定」。事实查询场景 Claude 仍然更安全。

4. 实际成本对比

团队 8 人,月度 AI API 调用统计:

模型月度调用原成本切换后
Claude 3.5 Sonnet(之前)~12M tokens¥35,000
DeepSeek V3(之后)~12M tokens¥2,800
成本对比折线图
切换前后连续 30 天的 API 成本曲线 · 切换日为第 7 天

降本 92%,质量在我们测试集上 95% 持平。具体看场景:

  • 中文长文档 / 数据分析 / 报告生成 → DeepSeek 完全可替
  • 复杂 Agent / Function Calling → 建议 Claude 仍保留,配合 fallback
  • 事实查询 / 关键决策 → Claude 优先

5. 怎么开始用

3 步迁移:

  1. platform.deepseek.com 注册账号(国内手机号即可,赠 ¥10)
  2. 把 OpenAI SDK 的 base_url 改成 https://api.deepseek.commodel 改成 deepseek-chat
  3. 跑你自己的真实样本(不要看 benchmark),看是否能替代你当前模型
步骤 1 步骤 2 步骤 3

最后

DeepSeek V3 不是 silver bullet。它在中文长文档和数学推理上确实强,但在复杂 Function Calling 和长尾事实查询上仍弱于 Claude。最佳实践是 用 DeepSeek 处理 80% 常规任务,关键 20% 保留 Claude 兜底,整体成本能降到原来 1/10。

下周我们会发 Coze / Dify / FastGPT 的中文工作流横评,关注周报第一时间收到。

评论 8 条

登录后即可参与评论 / 收藏 / 点赞

登录 / 注册
王哲明 · 2 小时前
实测过 V3 vs Claude 3.5 在代码场景,DeepSeek 在复杂 refactor 时会主动重构,Claude 偏保守。我们团队最后选了路由策略:简单任务给 DS,关键逻辑给 Claude。
张敏 · 5 小时前
我们公司全切到 V3 了,月度 token 成本从 ¥35k 降到 ¥4.2k,质量 95% 没差别。Function Calling 加了 retry 也没问题。
李铭 · 8 小时前
同感,长尾事实查询是真的不行。问了几个 2024 年的 API 变更,DS 一本正经胡说八道。结论场景一定要看,不能 all in。
周野 · 1 天前
本地部署 671B 需要 8×H100,普通人玩不起,建议直接走 API。我们试过用 int4 量化版本跑 4090×4 也可以,但延迟翻倍。

下一篇评测周一发

订阅 MOXIE 周报,第一时间收到中文 AI 工具的真实评测和实操内容。