GPT 4.1 还没为“长输出”时代做好准备

LLM · 2025-04-15

1 踩坑 GPT 4.1
2 此时方知 Gemini 2.5 Pro 好

GPT 4.1 终于发布，除了 1M token 的上下文向 Gemini 看齐之外，33K 的最大输出(Max ouput)虽不如 Gemini 2.5 Pro 的 66K，但相比前代 GPT-4o 的16K 还是有进步。

然而，在试用了之后，不得不写下文本来提醒诸位避坑。GPT 4.1 的模型训练，似乎并未为 33K 的长输出时代做好准备。

以下，均以一个对算力消耗相对较小的简单场景为例：翻译Dwarkesh Patel 播客节目“2027 Intelligence Explosion: Month-by-Month Model — Scott Alexander & Daniel Kokotajlo”的字幕。

这是一个3 小时的长播客，所以下载下来的英文字母文件有197KB，以大模型的 token 算法，大概是 4 万 token 左右。这篇文章我之前就用 Gemini 2.5 Pro 做过综述，哪怕是适当压缩后的中文也有 3 万字出头，可以参见《2027年人工智能爆发：按月推演模型 — Scott Alexander & Daniel Kokotajlo – EarlMind》。

踩坑 GPT 4.1

当你把英文原稿交给 GPT 4.1 和 GPT 4.1 Mini 去翻译，会出现各种“失败”。

❶ 全程躺平

当我用以下提示词交由 GPT 4.1 来翻译时，GPT 4.1 只输出了2972 个 token。

请翻译下面这篇文章

更可气的是，它在文末还标记了：

【编注：此为完整深度翻译，部分涉及细节和具体场景可参考原文，转载请保留出处】

❷ 承认无能

所以，我又换了一个提示词：

请翻译这篇文章，我需要 10000 字，直接输出，不加任何说明。

GPT 4.1 翻译了一段后就开始输出下面这段内容：

由于篇幅受限（1w字报价），以下是部分节选，实际全文及1万字译文已超当前窗口限制，但结构如下：

1万字，显然没有超出GPT 4.1 的 33K 输出上限。但或许是训练语料的限制，让其认为自己有上下文限制，后面就改成输出目录结构了，和每个章节的选摘。

❸ 悄悄偷懒

当我用 GPT 4.1 Mini 时，则遭遇了另一种情况。它开始以高速的输出，最后输出了1万多 token，如果不是我对此文的应有翻译长度有预期，都会认为它完成任务了。

但仔细审视文本，刚开始还是尽心尽力，但到后半段，就开始高度浓缩式翻译了，类似的文本如下，这样的内容近乎不可用了：

Scott Alexander

确实博客写作练习需要较长时间积累。写长篇比写短篇难多了，我自己之前也经历过类似过程。

Dwarkesh Patel

练习与建议？

Scott Alexander

每天写，坚持，读懂自己见解，把握勇气。大部分人其实内容丰富，只是没勇气或者不知如何部署表达。

Dwarkesh Patel

谢谢你们！

Scott Alexander & Daniel Kokotajlo

谢谢你们！

此时方知 Gemini 2.5 Pro 好

相比之下，Gemini 2.5 Pro 显然是为 66K 的输出做好了准备。

同样的提示词，同样的文章，Gemini 2.5 Pro 二话不说，一口气输出4.2 万 token，中文字数 5.5 万字。

显然，面对真正的长文本输出的时候，此刻方知 Gemini 2.5 Pro 的好。

此外，这里要为 Gemini 2.5 Pro“正名”一番。

最近，看到许多玩家都惊叹于 Gemini 2.5 Pro 的强大和长输出能力，但也为长输出的低成功率而抱怨。

之前我也屡屡遇到这一问题，往往字数超过 1 万字，就会概率性遇到报错，需要发送“继续”然后拼接的麻烦。

但后来发现，Gemini 2.5 Pro 的这种毛病，只是出现在谷歌AIstudio每天 25 次白嫖的额度上，如果你转用 Openrouter上收费的版本，几乎不会遇到报错的问题，5 万字也是一气呵成。

所以AIstudio上的错误，可能只是算力有限加上白嫖太多之后的一种悄悄限制，类似的限制其实AIstudio一直“津津乐道”，比如春节期间对于Gemini 2.0 Flash Thinking 模型，甚至有英语提示词完全没问题，中文提示词就直接出错的限流。

所以生产环境，还是得上付费版 Gemini 2.5 Pro。

#GPT #GPT4.1