伴随Deepseek V4的发布,Deepseek专用Agent Harness是一个热点,相关项目甚至可以说层出不穷。
我知道的就有三个:
- 最先出名的,是Deepseek-TUI,因为开发老哥在X上要微信号而出圈,甚至还来中国一游,不过如今改名CodeWhale(https://github.com/Hmbown/CodeWhale)
- 第二个出名的,应该是Reasonix(https://github.com/esengine/DeepSeek-Reasonix),是我现在搭配Deepseek用的主力Agent,有CLI,有GUI,对普通人很友好
- 看Deepseek官网,还看到一个Deep Code(https://github.com/lessweb/deepcode-cli)
随之而来,社交网络上也有一种说法,层出不穷的Deepseek专用CodeAgent,有点蹭流量,甚至是讨好中国开发者。
但在我看来,Deepseek专用CodeAgent,非常重要,对我等这样的Deepseek V4模型用户,在深度求索的官方Harness还没落地之前,是一个重要的补完手段。
Deepseek V4 Pro和Deepseek V4 Flash,到底模型能力如何?
从刚出笼的评测数据来看,略平庸,让许多玩家有点失望。
但一个值得注意的信息是Ahmad Awais(CommandCodeAI 的创始人)发的帖,表示通过自动修复,可以让Deepseek V4 Pro比肩Claude 4.7 Opus。

这里的“击败”“6/10”这些,也就姑且听之,核心在于“自动修复”。
是的,伴随Deepseek V4 Pro发布后使用时间渐长,大家都发现这个模型有很多小毛病,这些小毛病就会导致工具调用失败,进而影响整体的表现。如果修复,性能是可以上涨的。
关于这个细节,Reasonix其实说的比较详细。在它宣称的“三大支柱”中,第一点是针对缓存优化的,剩下两点,都是与之相关的。
第二点,称之为“推理链回收”,也就是当模型在

第三点,则是工具调用自愈,也就是:模型生成的工具参数偶尔会有 JSON 拼写错、引号不闭合、shape 不一致的情况。Reasonix 在送入 dispatch 之前先做一轮 schema-aware 的修复,把畸形参数补好再执行。

其实,大模型因为原理,出现这些小毛病往往难免,但一旦出现,就要报错后重新运行处理报错信息,不但额外消耗token,而且也会白白污染上下文。
其实这不是Deepseek V4一家的毛病。此前OpenRouter在2月也出过一个类似的JSON修复功能,从公告中也能看到许多细节:

下面则是OpenRouter披露的一些案例,可以让你有一个直观的了解。

在Agent的问题上,Deepseek某种程度上是新人。
更重要的是,在上一代模型,Deepseek V3.1时代,Deepseek在这块做的有点逊色,下面是OpenRouter对不同模型的测试,可以看到Deepseek V3.1的成功率低得离谱。

Deepseek V4是否有缓解,没看到数据。但从CommandCodeAI 的发言来看,修复Deepseek V4输出bug的收益显然很大。
从这个角度说,Model+Agent Harness,或许将越来越成为标配。
Model,努力提升智能的上限;
Agent Harness,通过各种约束、修复,在不额外消耗推理token的前提下,通过避免低级错误来提升模型的下限。
这两者,相得益彰。