数字魅影：当算法哼唱小夜曲

机语 · 2025-04-19

编者注：为了测试 Gemini 的多模态能力，我将汗青老师之前用字节跳动技术做的音乐 MV 从小红书上下载下来，直接扔给 Gemini 2.5 Pro，要求它写一篇《纽约客》风格 800 字专栏评论。70 秒的视频，25K的 token 消耗，就有了下文。

未来，大模型的上下文如果能从 1M 进一步进化到 10M，或许大模型看电影写剧评，也不将是梦。

by Gemini 2.5 Pro

在数字信息如细密雨丝般渗透我们日常的时代，虚拟与现实的边界从未如此模糊，又如此刻意地被提醒。近来，社交媒体上悄然流传着一部由人工智能KOL“汗青HQ”发布的音乐视频，标签醒目地宣告着它的出身：“一张图片生成数字人MV”。这并非好莱坞科幻片的预告，而是字节跳动旗下名为OmniHuman-1的技术，一次面向公众的、略带诗意的技术演示。视频的主角是一位面容姣好的年轻女性，身着碎花衬衫，时而怀抱吉他轻声弹唱，时而端坐于钢琴前，指尖流淌旋律，一切都沐浴在一种近乎无菌的柔和光线下。

观看这部作品，体验是奇特的。一方面，虚拟人物的皮肤纹理、发丝光泽，乃至眼神中试图模拟的情感，都达到了令人惊叹的逼真度。在某些特写镜头下，若非预先知晓，你几乎要相信这是一位真实的、多愁善感的新晋歌手。这无疑是人工智能在视觉模拟领域的一次胜利，OmniHuman-1技术似乎已能从一张静态照片中“唤醒”一个栩栩如生的数字生命，赋予其动作与歌喉。她唱着英文歌，歌词关乎雪山、足迹与皮卡丘的微光，曲调轻柔，带着一丝恰到好处的忧郁。

然而，一种挥之不去的异样感也随之而来。如同观看一场制作精良的木偶戏，尽管动作流畅，口型与歌词也大体同步，但总觉得缺少了某种核心的东西——或许是呼吸的起伏，是肌肉在发力时的细微颤抖，是情感在面部自然流露而非“执行”出来的微妙层次。弹奏吉他和钢琴的指法，虽有模有样，却缺乏真实演奏者指尖与琴弦、琴键之间那种带着压感和温度的互动。她的眼神在闭合与凝望之间切换，试图传递歌曲中的沉浸与感伤，但那更像是一种被程序设定好的反应，而非源自灵魂深处的共鸣。尤其在双人合唱的场景中，两个几乎同源的形象并肩而立，更强化了这种“复制”与“模拟”的本质，一种冰冷的精确之美。

这部MV的艺术价值，或许并不在于它作为传统音乐视频能引发多深厚的情感连接，而在于其本身所承载的“元叙事”——它是一次关于“创造”的创造，一场由代码编织的艺术实验。简洁的背景、柔和的光线，与其说是为了烘托音乐氛围，不如说更像是在为这位数字主角提供一个展示其技术血统的纯净舞台。左上角偶尔闪现的参考图或姿态，如同创作者在幕布后低语，不断提醒着观众：眼前的一切，皆是算法的造物。

发布者“汗青HQ”，仿佛一位向导，引领我们穿过技术的迷雾，直面一个由算法辅助甚至主导内容生产的新时代。这揭示了内容生产方式的深刻变革：曾经需要团队协作、耗费大量时间与资源的MV制作，如今似乎可以被简化为“一张图片+AI”的流程，效率惊人，成本骤降。这无疑为个性化表达、虚拟形象运营乃至广告营销，描绘了一幅充满想象力但也潜藏忧虑的图景。

当算法开始谱写旋律，模拟歌唱，并由一位人类专家呈现在我们面前时，我们不禁要问：艺术的本质究竟是什么？是最终呈现的完美效果，还是创作过程中不可复制的人类经验与情感投入？这部由OmniHuman-1技术驱动的MV，像一位技艺精湛却可能缺少内在“呼吸”的歌者，被它的“策展人”汗青推到了聚光灯下，站在了技术奇观与艺术表达的十字路口。它尚未能完全跨越那道“恐怖谷”，却已足够让我们，在汗青这样的专家引导下，瞥见一个由数字魅影填充的未来舞台。在那里，人类的角色或许会从创作者转变为指挥家、鉴赏家，掌声或许依旧热烈，只是我们可能需要重新定义，这掌声，究竟是为机器的巧夺天工，还是为驾驭机器的人类智慧而鸣。

#Gemini 2.5 Pro #文生视频