娃刷到了一个纸盒小猫的视频,说自己也要做一个。

alt text

在作者小红书账号的评论区找到了图纸,长下面这个样子。

alt text

这图纸,直接打印吧,肯定一言难尽。

一方面底纹打在卡纸上废墨水,另一方面那些数字标记也麻烦。

就想着,让多模态的大模型,把图纸转换成干干净净的SVG,打印出来直接能用。

我的提示词很简单:

请将图纸转换成SVG版本,上面的数字标记不要,但要保持比例

直接上Gemini 3.1 Pro,完美!

alt text

Gemini 3.1 Pro不仅完美复刻了,甚至还“炫技性”地做成了刀模图,连折痕线都给安排了。

厉害啊!

这就想着,国产的多模态模型们能不能做到这一点呢?于是测试了好几个。

先是新近发的Mimo V2.5,这图显然不好用。

alt text

然后是Kimi K2.6,思考了553.9秒,花了我0.5元后,给了一个最接近成功的图。但红框能看到,重叠了,没法用。

alt text

又试了Qwen 3.6 Plus,耗时288.9秒后出了下图,正方形变成长方形了,一样没法用。

alt text

当然,这未必是什么中美大模型的差距。

让马斯克的Grok来操作,结果更搞笑。

alt text

更离谱的是Claude 4.6 Sonnet,在一次Chatbox的对话中,连续画了四个版本,自称每个都有优化,颇有爱因斯坦的“三个小板凳”的味道,但最后出来的,依然是长方形正方形都没搞清楚的样子。

alt text

甚至,上了号称专门为视觉优化的Claude 4.7 Opus,依然是完全不可用。

alt text

只能说,在多模态+SVG空间想象领域,Gemini 3.1 Pro的强大令人赞叹。