Qwen 3.6 Flash的视觉理解能力强得有点离谱

之前用Qwen 3.6 Flash，识别了我的股票账户逐日收益数据，对其性价比有了一点认识。

假期中，给小学二年级的娃默写单词，正好想到类似这样的英文横线本，对多模态模型是否会构成障碍。

于是，找了一张默写纸，让几个国产模型识别出默写了哪些单词，等第和时间是什么。总体来说，模型们都没障碍。

alt text

于是我使了一个坏，上传了一张纯抄写，没等第的单词纸。

alt text

Qwen 3.6 Flash毫无困难地识别出了这是4月13日抄写的，以及老师没有给出等第。成本0.017元，便宜！

alt text

Flash尚且如此，Qwen 3.6 Plus也不在话下。

然后，Kimi K2.6也成功识别了，不过毕竟是御三家的头部模型，成本就要0.04元了。

alt text

接下来出场的，就是一些略失望的模型了。

先是小米新出的多模态模型，成本很低，才0.009元，但可惜有“幻觉”，说等第是“良”，显然是错的。

alt text

接下来是我觉得应该表现不错的Gemini 3.0 Flash，谷歌家的多模态我一直觉得挺强的，没想到也答错，将左下角识别成五角星了。

alt text

换上更贵的Gemini 3.1 Pro，错误依旧，识别成A-了。

alt text

GPT 5.4更蠢，将右下角的日期识别成A+了。

alt text

这么一对比，Qwen 3.6 Plus的性价比就凸显出来了，不贵的价格，脑子还好使。

当然，之前也说了，我是故意“使坏”，问等第，但其实没等第，于是许多大模型在总想回答什么的前提下，就给出了“幻觉”答案。

只要在提问时加一句“如果没有等第就直接告诉我。”，包括小米、Gemini Flash就都能答对了。

这是一种提示词技巧，但模型发展的意义就在于，提示词技巧可以越来越少依靠。

在这点上，Qwen 3.6 Plus的确不错。