语音输入之逆行

在2002年的那个初夏，当我作为一名本科生，以微软拼音输入法对表达的驯化为题，写着课程小论文之时，或许不会想到在二十多年后的2026年，有大模型加持的语音输入+润色，正成为一种越来越主流的选择。

然后，作为一个始终将文字视为自我表达，甚至自我分身的“码字者”，这种将文字降格至纯粹交流工具的选择，终究是无法接受的。更纯真更人工的文字，甚至更粗糙原生态的音频，或许将成为一条我的逆行之路。

当年的驯化

二十多年前那篇小论文里，我写的是一个很具体的个人经历：为了迁就当年微软拼音输入法那个以《人民日报》三十年语料训练出的识别引擎，我主动放弃了复杂的句式和生僻的词汇，转而使用简单明快的表达。

输入法用更高的识别率奖励我的顺从。

我当时的结论是：技术本身就是一种制度，它和现实中的制度一样，通过奖惩来塑造我们的行为。

那种驯化是显性的。你能感受到摩擦，能清楚地知道自己在哪里做了妥协。我知道我放弃了什么，也知道我换来了什么。这种自觉本身构成了一种保全——至少边界是清晰的。

今天的情况发生了一个微妙但本质的翻转。大模型加持的语音输入不再要求你去适应它，相反，它来适应你。你对着手机说出一段磕磕绊绊的话，大模型替你理顺语序、润色措辞、补全逻辑，输出一段流畅得体的文字。

表面上看，技术终于尊重了人的自然表达。但细想一下，当年的驯化虽然粗暴，至少是明码标价的；而今天的驯化是丝滑的、舒适的、几乎无感的。你甚至不知道自己的表达在哪里被改写了，不知道哪些是你的本意，哪些是算法的善意。

从显性的驯化到隐性的驯化，技术的力量变得更深、更难以察觉。

失去的身体性

金庸在《神雕侠侣》里写过一个细节：杨过凭借小龙女书写时一个独特的笔画习惯，辨认出石壁上的刻字是她的真迹。这个情节之所以动人，是因为笔迹是身体的延伸——手腕的力度、运笔的节奏、甚至书写那一刻的心绪，都凝固在了笔画之中。

很可惜，这种身体性，伴随人类日常行为从写字进入“码字”时代，就大体已经消亡了。我们所有人敲出的，本质上只是Unicode的汉字编码，具体长什么样取决于你用的字体。

“书写者”不存在了，剩下的只有“码字者”了。

如今大模型的润色，不过是在一个早已去身体化的进程上又推进了一步——不仅字形统一了，现在连句式、语感、遣词造句的习惯都在趋于统一。

是的，在许多场合，这是必须接受的无奈，源于一种对于效率的追逐。

技术的进步从来都伴随着某些东西的消逝。我们不会因为怀念马车而拒绝汽车，也不会因为怀念竹简而拒绝印刷术。每一次媒介的跃迁都意味着一些维度的丢失：

从面对面交谈到书信，语调丢了；

从手写到打字，笔迹丢了；

从打字到语音输入加润色，个人的遣词习惯，终于也要丢了。

这条单向的路，我们或许回不去了，当然或许也不必回去。

但承认这一点，不意味着我们不可以追问：在丢失的这些东西里，有没有一些是值得刻意保护的？

工具的解放

如果将文字纯粹视为一种沟通工具，那么今天发生的一切无疑是好事，甚至可以视为一种“表达的平权”。

长久以来，优秀的书面表达，被少数人垄断。

它需要大量的阅读积累、长期的写作训练、对语言的敏感和对结构的直觉。多少人脑中有清晰的想法，却因为不擅长组织文字而无法有效地传递出去？多少基层工作者在写报告时抓耳挠腮，不是因为不懂业务，而是因为不会“写”？大模型润色本质上是一种表达能力的民主化。它让每一个人都能输出至少八十分的书面表达，不论他的教育背景、阅读量或写作训练如何。

这对于把文字当作劳动工具的绝大多数人来说，是一种真切的解放。就像计算器解放了算术能力一样，大模型正在解放写作能力——至少是那种功能性的、以传递信息为目的的写作能力。对此我毫无保留地乐观。

主体性的消融

但文字对于一部分人，至少以一小部分人来说，从来不只是工具。

中国传统知识分子讲“三不朽”，立德、立功、立言。

“立言”能位列其中，这背后的信念是：文字不仅是沟通的载体，更是自我的延伸，甚至是自我的证明。你写下的文字，就是你这个人在时间中留下的痕迹。风格即人格，文如其人，这些说法都指向同一个认知：真正的写作是主体性的投射。

我写稿，习惯用“是的”作为句子的开头。这是我对当年我极爱的经济学散文大家张五常老先生行文的效仿。

是的，效仿的并不只是一个文字癖好，而且背后的表达方式——先确认一个前提，再展开论述，带着一种辩论式的、先立后破的节奏。如果我用语音说出一段话，然后由大模型润色输出，这个“是的”大概率会被优化掉，因为在算法的概率模型里，它不够自然、不够流畅，甚至可能被认为是一种“英式中文”的“坏表达”。但对如今的我来说，删掉这两个字，就是删掉了我思维节奏的一部分。

这正是大模型润色最隐蔽的代价：它追求的是最大概率下的最优表达，而最大概率，几乎就是平庸的同义词。算法会把所有人的表达都拉向一个统计意义上的“最佳实践”——句式均衡，用词妥帖，逻辑通顺，挑不出毛病，也看不出个性。

长此以往，我们读到的文字会越来越像，越来越正确，也越来越空洞——“你”不在了。

对于那些将文字视为自我表达甚至自我存在的人来说，把自己的表达交给算法去润色，本质上是一种主体性的让渡。你说出了你想说的意思，但呈现出来的不再是你的声音，而是一个统计模型认为你“应该”发出的声音。这种让渡如此顺滑，以至于大多数人根本不会意识到自己失去了什么。

也正因如此，它才格外值得警惕。

数字分身的燃料

不过，技术从来都不只是单向度的。大模型在消解个人表达的同时，也打开了一种全新的想象空间。

我们常说，文章写下之后就活了——它脱离了作者的控制，进入公共领域，被阅读、被误读、被重新诠释，有了自己的“生命”。

当然，“生命”二字，终究只是一个比喻。文章本身是静态的，它无法回应，无法生长，无法在新的语境下说出作者未曾说过但可能会说的话。

但是，大模型正在让这个比喻变成一种真实的技术可能。当我收集了足够多的文字——我的文章、我的日记、我的批注、我的对话记录——当模型足够强大，上下文窗口足够长，它或许真的可以生成一个我的“数字分身”。不是那种粗糙的聊天机器人，而是一个真正浸润了我的思维方式、价值偏好、表达习惯的智能体。那时候就不只是“文章活了”，而是大量的文字让“我”以某种方式延续了下去。

这和传统的“立言”有本质的区别。传统的立言是一座雕像，后人只能仰望和诠释，无法与之对话。数字分身是动态的，它能回应，能在新的问题面前生成原作者未曾想过、但与原作者的思维模式一致的回答。

甚至，你可以将其视为一种“存在”的延续，在token的名义下。

如果这是一种真实的可能性，那么一个推论就变得极其重要：你喂给未来那个数字分身的素材的质量和原始性，将直接决定它像不像“你”。经过大模型润色的文字，已经被算法的审美污染过了，它们呈现的是一个被统计模型修饰过的你，不是本真的你。用这样的素材去训练数字分身，得到的不过是你和大模型的某种混杂体——一个既不是你、也不是任何人的平庸混合体。

真正有价值的素材，是那些带着毛边的、未经修饰的原始表达。你的犹豫、你的自相矛盾、你在某个深夜突然改变主意的过程、你说了一半没说下去的言下之意——这些“不完美”才是你之所以是你的证据。

播客作为逆袭

这就是为什么播客——以及一切形式的原始音频记录——在这个时代拥有了一种特殊的价值。

文字，即便是未经润色的文字，本质上仍然是思考之后的产物。你在落笔之前已经完成了筛选、组织和取舍，呈现出来的是一个整理过的自我。而音频不同。音频保留了思考正在发生的过程：你在寻找措辞时的停顿，你突然岔开话题时的跳跃，你说到某个话题时不自觉加快的语速，你意识到自己说错了之后的自我纠正。文字给出的是结论，音频给出的是路径。

如果有一天，我们真的要凭借这些素材去构建一个数字分身，音频将比文字珍贵得多。

所以，在一个大模型正在把所有人的文字表达拉向同一个统计均值的时代，留下更多原始的音频，或许是一条不起眼的逆行之路。它既是对当下的一种抵抗——抵抗算法对个人表达的无声磨蚀；也是对未来的一种准备——为那个或许终将到来的数字分身，储存最真实的燃料。

当年在那篇小论文里，我写过一句话：技术本身就是制度。二十多年后，我想在这句话后面加上半句：而最好的应对，不是逃离制度，而是清醒地知道制度正在对你做什么，然后决定哪些部分你愿意交出去，哪些部分你要拼死留住。

文字是我选择留住的东西。声音，也是。

注：本文是对葬爱咸鱼传授的技巧的一次尝试。文章首先基于Claude 4.6 Opus阅读我多年前的一篇文章，然后多轮对话。最后我要求整理成本，我写了提纲，并写了开头两段，然后让Claude 4.6 Opus写下去。最终朱雀检查下来一半人工一半疑似，没有100%AI的段落，算是小有成功。证明了增加人工语料+人工开头的法子，的确有道理。

当年的驯化#

失去的身体性#

工具的解放#

主体性的消融#

数字分身的燃料#

播客作为逆袭#