多个国产模型联合，就能挑战Claude Fable 5？

GPT 5.6发布了，但大概率步Claude Fable 5的后尘，大部分普通人尤其是中国用户，短期用不到。

在有限模型可选的前提下，如何提升你的大模型输出上限？

大模型聚合网站OpenRouter倒是提出了一个有趣的思路——Funsion。

传统模型厂商，在提升自家模型输出上限上，更多是从思考预算、Harness之类上入手，OpenRouter因为是模型聚合网站，所以思路就会偏向于多模型整合——这恰恰是单一模型厂商的盲区，或者说不愿意尝试探索的领域。

OpenRouter的Fusion，最早是以聊天框的形式上线，你可以确定几个模型去思考，并选定一个模型将他们思考的结果综合后输出。

比如下面这个是我之前的尝试，用了三个廉价模型去翻译，然后交给Opus 4.6来综述。

翻译这个事儿，很难打分，评判模型产出好坏。

OpenRouter这次是引入DRACO测试集，这是Perplexity AI推出，包含 100 个深度研究任务，涵盖 10 个领域：学术研究、金融、法律、医学、技术、用户体验设计、常识、大海捞针式检索、个性化协助以及产品比较。

下面是OpenRouter公布的测试结果。标记Solo的就是单一模型的结果，Funsion的则是走上述多模型给答案高级模型综述（OpenRouter这次统一用了Opus 4.8）的结果。

当然，哪怕是Opus 4.8 + Opus 4.8 ，然后再用Opus 4.8 综述，也会有惊喜，相比单一Opus 4.8，分数能从58.8%提升到65.5%，已经赶超Claude Fable 5的65.3%了。这个结果其实不奇怪，大模型领域本来就有很多类似的“奇淫巧技”，比如一个问题复制粘贴两遍，会比只有一遍的提问获得更好的结果——这种不会发生在人类身上的智能呈现，在大模型上却是常态。

表格1

不过对于OpenRouter，或许这个测试最值得关注的是Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 的组合，交由Opus 4.8综述后也有64.7%的得分，只是略微弱于Claude Fable 5。

站在2026年的6月，只谈模型的智能上限，不谈模型的成本，是不够的。

尤其是对于不能买月付会员，必须真金白银购买API的企业级用户。

OpenRouter特地制作了一张成本与产出的散点图，请注意我用红色虚钱标记的部分，Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro的组合，在获得与Claude Fable 5相若的产出同时，成本只有一半。

对OpenRouter，做的是模型聚合的生意，所以他将这套原本只能用Chatbox的模式，做成了API接口，中间过程全部由OpenRouter完成，用户就像调用普通模型一样来调用，开发难度锐减。

当然，于我而言，更好奇的是，如果综述模型也改用国产低成本模型会如何？

毕竟在上面的测试排行中，DeepSeek V4 Pro单模型的成绩，竟然力压GPT 5.5和Claude Opus 4.8。以至于OpenRouter只能在问答部分，单独增加一个回答。

“三个臭皮匠，顶个诸葛亮”，这句传统老话，在大模型领域，似乎有了新的含义。

对于单一模型上限还有差异，但是性价比普遍比较高的国产开源模型而言，OpenRouter的这种探索，其实对于动摇海外顶级模型的性能优势，具有很大的挑战潜力。当然，上述结果只是基于DRACO测试集，还期待有更多的同类测试，尤其是在编程能力上的测试，能够陆续有来。