娃刷到了一个纸盒小猫的视频,说自己也要做一个。

在作者小红书账号的评论区找到了图纸,长下面这个样子。
这图纸,直接打印吧,肯定一言难尽。
一方面底纹打在卡纸上废墨水,另一方面那些数字标记也麻烦。
就想着,让多模态的大模型,把图纸转换成干干净净的SVG,打印出来直接能用。
我的提示词很简单:
请将图纸转换成SVG版本,上面的数字标记不要,但要保持比例
直接上Gemini 3.1 Pro,完美!

Gemini 3.1 Pro不仅完美复刻了,甚至还“炫技性”地做成了刀模图,连折痕线都给安排了。
厉害啊!
这就想着,国产的多模态模型们能不能做到这一点呢?于是测试了好几个。
先是新近发的Mimo V2.5,这图显然不好用。

然后是Kimi K2.6,思考了553.9秒,花了我0.5元后,给了一个最接近成功的图。但红框能看到,重叠了,没法用。

又试了Qwen 3.6 Plus,耗时288.9秒后出了下图,正方形变成长方形了,一样没法用。

当然,这未必是什么中美大模型的差距。
让马斯克的Grok来操作,结果更搞笑。

更离谱的是Claude 4.6 Sonnet,在一次Chatbox的对话中,连续画了四个版本,自称每个都有优化,颇有爱因斯坦的“三个小板凳”的味道,但最后出来的,依然是长方形正方形都没搞清楚的样子。

甚至,上了号称专门为视觉优化的Claude 4.7 Opus,依然是完全不可用。

只能说,在多模态+SVG空间想象领域,Gemini 3.1 Pro的强大令人赞叹。