今天看到《单读》2023年末发表的文章《被两地“驱逐”的人》,很棒。

这篇非虚构写作,是林秋铭写她母亲丽珊离婚并通过假结婚去台湾做卡拉OK陪酒女的10年,一个非常复杂的故事。

看完后,深深感慨,这就是真实的力量。

不同于小说考验想象力,非虚构写作的核心价值在于对真实的触达。

对这篇作品,显然不能用“幸运”去描述林秋铭,但至少没有这样的“巧合”,即使有再好的文字,也是无从完成这样的作品。

在这个AI模型越来越强的当下,AI的文字能力越来越强,在“读万卷书”上,我们可能已经无法与AI匹敌,但是在“行万里路”,触及AI无法到达的真实,或许依然是人类写作者的优势。

是的,“真实”,或者在大模型时代,应该用“尚未数字化的真实”来描述这种价值

我的本科,是在复旦大学念社会学系。

那时系里有一位教授农村社会学的老师,张乐天教授。

当时师兄们提及张乐天教授的学术生涯,往往要带着羡慕的口吻,会提到他在农村做知青要回上海时,当其他知青只是兴奋时,他却将当时人民公社许多底层的原始资料带回上海,并借此写了一本书《告别理想——人民公社制度研究》。

搜了一下那本书的电子版,下面这段描述的更为真切。1954年到1995年联民村完整的经济资料,1954年到1982年联民村一大队干部完整的工作笔记……搞过学术的人,自然明白如此长时间连续资料的珍贵性。

image-20260315203610774

由于如此底层的史料,别的研究者完全没有,这就奠定了张乐天教授的这个领域的领跑甚至独占优势。想到这件事儿,网上搜了下,发现张乐天教授近年再接再厉,还搞了一个张乐天联民村数据库的在线数据库网站,进一步分享搜集到的户籍、会计、生产、土改、家庭资料、口述历史等。

image-20260315203735406

当我们津津乐道大模型的强大时,往往会说说大模型已经穷尽了人类所有的优秀文字资料,以至于需要用最强大模型生成的合成数据来训练。

但我始终觉得,类似如张乐天教授这个数据库那样以图片资料存在的内容,其实依然在水面之下,并未进入大模型的数据集中。

甚至,可能还有太多资料,存在于当事人的电脑硬盘中——比如我当年做论文的数据集。

2004年,我在香港中文大学攻读硕士,暑假是同学们回大陆搜集论文数据的时段,我却悠闲的在香港宿舍享受着与学术无关的生活。

我的论文数据,靠一封邮件解决了。

当时的课题,是关于现代人求职会通过亲戚(strong tie)还是朋友(weak tie),这是社会学social network领域的大问题。当时我的假设是这与求职的职业相关,专业人士追求信息量,要使用weak tie,普通人人可做的工作,strong tie的帮忙程度可能更重要。

这样宏大的题目,靠自行搜集数据,对一篇硕士论文是要命的。当时看了几十篇之前的研究,发现有一篇论文William P.Bridges and Wayne J.Villemez. 1986. “Informal Hiring and Income in the Labor Market”使用的数据正好能用,是1981年芝加哥地区的Metropolitan Employer-Worker Survey (MEWS)。厚颜找到William P.Bridges教授的邮箱询问是否可以共享一份。没想到那位教授二话不说就将这份20多年前的数据,整个打包发给了我,让我免去了搜集资料之苦。

论文写完了,这份数据集依然在我的电脑硬盘里,也不知道Wayne J.Villemez后来是否有将数据集在网上开放,若是没有,那显然这同样是一份不存在于大模型数据集中的资料。

类似我这样的资料,这个世界中不会少。我相信还有更多文本资料、录音资料,同样存在于许多人的电脑、私有云盘上。

这同样是大模型无法触达的“真相”。

更何况,人类生活在发展,在进步,每天又有大量的新事物在出现,去触达这些,或许才是人类写作者最大的价值所在——去到AI去不了的地方,并将他们记录下来。

这些东西,对我们之所以为人,很重要,因为它包含了人的那些粗糙、原始、矛盾的地方,那恰恰是我们与追求**统计意义上的“最大可能”**的大模型不同的地方。

当然,即使对于大模型,这一样重要。

当大模型基于 统计意义上的“最大可能” 这个算法之时,我们将多少真相数字化,某种程度上就在改变大模型的认知边界。在《被两地“驱逐”的人》没有被大模型纳入之前,宁德某个小镇的女性去台湾谋生的这段叙事,或许就会如作者林秋铭描述的村上的偏见“去卖淫”那样被大模型认知,被大模型输出,成为更多人的文字素材。

但有了这篇文章后,大模型的认知,或许就会微微的偏向了一些,能落到林秋铭文中隐藏的那条女性主义的虚实线之下,虽然作者说妈妈是“最不女性主义的女性”,但也正是她妈妈,实践了一条最女性主义的路线——用自己挣的钱,在父亲反对的情况下,硬是把女儿推上了更宽的路。

这种偏一偏,对这个大模型在深刻影响我们文字输出的时代,格外重要。大模型“最大公约数”的锚点,能更丰富,更接近世界的真实面貌——即使每一次记录,注定是对真实世界的有损压缩,但足够多的有损压缩彼此抵消之下,也能帮我们更好的逼近真实。

这一切,核心在于,有没人去到了那个地方,然后回来,并写下。

那个地方可以是某个宁德小镇,可以是1970年代的联民村,也可以是这个世界上任何一个地方。去了,再写下来,哪怕只是有损压缩,也已经多出了一份。

数字化,并发表(Publish)或公开(Public),有时候不是一个选择的问题,而是一个时间窗口的问题。窗口关上之前,有人恰好在场,恰好觉得这东西值得留下来,恰好动手了。留下来的那一小部分,就构成了我们所能触及的世界的轮廓。

轮廓之外,是更大的沉默。