未被数字化的真实

今天看到《单读》2023年末发表的文章《被两地“驱逐”的人》，很棒。

这篇非虚构写作，是林秋铭写她母亲丽珊离婚并通过假结婚去台湾做卡拉OK陪酒女的10年，一个非常复杂的故事。

看完后，深深感慨，这就是真实的力量。

不同于小说考验想象力，非虚构写作的核心价值在于对真实的触达。

对这篇作品，显然不能用“幸运”去描述林秋铭，但至少没有这样的“巧合”，即使有再好的文字，也是无从完成这样的作品。

在这个AI模型越来越强的当下，AI的文字能力越来越强，在“读万卷书”上，我们可能已经无法与AI匹敌，但是在“行万里路”，触及AI无法到达的真实，或许依然是人类写作者的优势。

是的，“真实”，或者在大模型时代，应该用“尚未数字化的真实”来描述这种价值。

我的本科，是在复旦大学念社会学系。

那时系里有一位教授农村社会学的老师，张乐天教授。

当时师兄们提及张乐天教授的学术生涯，往往要带着羡慕的口吻，会提到他在农村做知青要回上海时，当其他知青只是兴奋时，他却将当时人民公社许多底层的原始资料带回上海，并借此写了一本书《告别理想——人民公社制度研究》。

搜了一下那本书的电子版，下面这段描述的更为真切。1954年到1995年联民村完整的经济资料，1954年到1982年联民村一大队干部完整的工作笔记……搞过学术的人，自然明白如此长时间连续资料的珍贵性。

由于如此底层的史料，别的研究者完全没有，这就奠定了张乐天教授的这个领域的领跑甚至独占优势。想到这件事儿，网上搜了下，发现张乐天教授近年再接再厉，还搞了一个张乐天联民村数据库的在线数据库网站，进一步分享搜集到的户籍、会计、生产、土改、家庭资料、口述历史等。

当我们津津乐道大模型的强大时，往往会说说大模型已经穷尽了人类所有的优秀文字资料，以至于需要用最强大模型生成的合成数据来训练。

但我始终觉得，类似如张乐天教授这个数据库那样以图片资料存在的内容，其实依然在水面之下，并未进入大模型的数据集中。

甚至，可能还有太多资料，存在于当事人的电脑硬盘中——比如我当年做论文的数据集。

2004年，我在香港中文大学攻读硕士，暑假是同学们回大陆搜集论文数据的时段，我却悠闲的在香港宿舍享受着与学术无关的生活。

我的论文数据，靠一封邮件解决了。

当时的课题，是关于现代人求职会通过亲戚(strong tie)还是朋友(weak tie)，这是社会学social network领域的大问题。当时我的假设是这与求职的职业相关，专业人士追求信息量，要使用weak tie，普通人人可做的工作，strong tie的帮忙程度可能更重要。

这样宏大的题目，靠自行搜集数据，对一篇硕士论文是要命的。当时看了几十篇之前的研究，发现有一篇论文William P.Bridges and Wayne J.Villemez. 1986. “Informal Hiring and Income in the Labor Market”使用的数据正好能用，是1981年芝加哥地区的Metropolitan Employer-Worker Survey (MEWS)。厚颜找到William P.Bridges教授的邮箱询问是否可以共享一份。没想到那位教授二话不说就将这份20多年前的数据，整个打包发给了我，让我免去了搜集资料之苦。

论文写完了，这份数据集依然在我的电脑硬盘里，也不知道Wayne J.Villemez后来是否有将数据集在网上开放，若是没有，那显然这同样是一份不存在于大模型数据集中的资料。

类似我这样的资料，这个世界中不会少。我相信还有更多文本资料、录音资料，同样存在于许多人的电脑、私有云盘上。

这同样是大模型无法触达的“真相”。

更何况，人类生活在发展，在进步，每天又有大量的新事物在出现，去触达这些，或许才是人类写作者最大的价值所在——去到AI去不了的地方，并将他们记录下来。

这些东西，对我们之所以为人，很重要，因为它包含了人的那些粗糙、原始、矛盾的地方，那恰恰是我们与追求**统计意义上的“最大可能”**的大模型不同的地方。

当然，即使对于大模型，这一样重要。

当大模型基于 统计意义上的“最大可能” 这个算法之时，我们将多少真相数字化，某种程度上就在改变大模型的认知边界。在《被两地“驱逐”的人》没有被大模型纳入之前，宁德某个小镇的女性去台湾谋生的这段叙事，或许就会如作者林秋铭描述的村上的偏见“去卖淫”那样被大模型认知，被大模型输出，成为更多人的文字素材。

但有了这篇文章后，大模型的认知，或许就会微微的偏向了一些，能落到林秋铭文中隐藏的那条女性主义的虚实线之下，虽然作者说妈妈是“最不女性主义的女性”，但也正是她妈妈，实践了一条最女性主义的路线——用自己挣的钱，在父亲反对的情况下，硬是把女儿推上了更宽的路。

这种偏一偏，对这个大模型在深刻影响我们文字输出的时代，格外重要。大模型“最大公约数”的锚点，能更丰富，更接近世界的真实面貌——即使每一次记录，注定是对真实世界的有损压缩，但足够多的有损压缩彼此抵消之下，也能帮我们更好的逼近真实。

这一切，核心在于，有没人去到了那个地方，然后回来，并写下。

那个地方可以是某个宁德小镇，可以是1970年代的联民村，也可以是这个世界上任何一个地方。去了，再写下来，哪怕只是有损压缩，也已经多出了一份。

数字化，并发表(Publish)或公开(Public)，有时候不是一个选择的问题，而是一个时间窗口的问题。窗口关上之前，有人恰好在场，恰好觉得这东西值得留下来，恰好动手了。留下来的那一小部分，就构成了我们所能触及的世界的轮廓。

轮廓之外，是更大的沉默。