无书可读之后:AI 正在走出“规模时代”
2025年是狂飙突进的一年。基于NLP的LLM也有向AGI升级的强烈冲动。
但是:
无书可读了,学啥呢?
随着模型训练数据量的膨胀,问题也随之而来——现有的文本数据是否已经“耗尽”?
当今业界的共识是:高质量、可公开获取、低噪声的自然语言文本,正在接近边际收益递减区间。
从数据源的极限突破
优化技术,向隐秘的角落搜寻数据,让历史文本焕发新生。公开的文本数据已经被各大AI模型读遍,那么AI厂商只能增加搜寻数据的力度。
再去储藏室和仓库里翻一翻
如果你的网龄足够,也许你还能记得当年(2004年)Google的图书馆计划。雄心勃勃的Google试图数字化人类文明,最终却因为版权等原因一地鸡毛。但是计划遗泽尤存,最终扫描了超过4000万本实体书,其中大量是绝版、非英语、小语种的文献。正是如今的Google Books。
在中国,也有许多国家级的图书馆数字化项目,比如大学数字图书馆国际合作计划、数字图书馆推广工程等。
这样散落在全球各地的数字化资源其实还有很多,随着OCR技术的提高,这些资料就变得越来越有用。
同样因为OCR的智能化,随这些已经被数字化的文献,那些存量在世而没有数字化的纸质文献和档案也可变成AI的学习资料了。
多模态可不仅仅是多一种感官
LLM是基于NLP的,只对文本有效。但随便技术的发展,这句话可是落伍了。现在大模型已经可以通过多模态技术,对图片、视频、音频等多媒体数据进行训练。
以前只能看书学习,现在可以看图、听课、看视频了,这可极大地扩展了数据源。毕竟,文字更像是人类世界的“摘要”,而视频才是原始记录。
尤其重要的是,这些数据可不仅仅是多一种感官这么简单。一个1 分钟的视频,可能相当于 几十页文字的因果信息。而且还可能会体现出一些不可能在文本中体现的信息。
比如说,视频中出现“手伸过去 → 杯子倒了 → 人惊讶”是很正常的,但这可是文本中极少完整出现的因果链。因为它显而易见到大家不可能费笔墨记录下来。但你不说,AI怎么能知道呢?
优化现有数据,清洗与结构化处理
随着AI的能力提升,使用AI进一步预处理原始数据,提升数据质量,然后再次训练,就好比同一本书,初中时读和大学时读,学到的知识肯定不同。20岁时读和80岁时读,得到的感悟也不同。
“数据是AI的燃料”,这一点已经成为行业共识。然而,随着数据量的增加,数据质量却变得更加关键。如今,AI厂商们正在通过更加精细的方式,提升训练数据的质量和适应性。
例如,OpenAI通过引入自监督学习方法,在模型训练过程中,更加注重数据的清洗与优化。通过对现有数据进行深度清洗、去噪声、过滤重复内容等手段,OpenAI使得模型在学习时更加高效,并且有效避免了过度学习无关信息的风险。
AI厂商们还开始根据不同任务特性优化数据。例如,在进行医学、法律等领域的专用训练时,厂商们会根据领域需求,精心挑选和增强数据。这不仅帮助模型更好地理解领域知识,还能在实际应用中提高准确度和效能。
换一种读法——突破训练范式
随着大规模数据的逐渐枯竭,AI厂商们开始思考如何用更智能的学习方式提升模型表现。比如,强化学习(RL) 和自监督学习(SSL) 就成为了近年来的热门研究方向。
其中,自监督学习通过让模型从自身生成的数据中学习,可以在没有大量标注数据的情况下,依然让AI“进化”出丰富的知识。而强化学习则通过让AI与环境进行交互,不断从错误中学习,最终掌握更多复杂的任务。
DeepSeek也好,OpenAI也好,新一代模型不约而同地开始探索RLHF(Reinforcement Learning from Human Feedback),即通过人类反馈来指导模型优化。与传统的基于奖励信号的训练方式不同,RLHF通过将模型的生成结果与人类偏好进行比较,逐步调整模型的输出。
为师已经没有什么可以教你的了
你已经是一个成熟的AI了,可以自己创造知识了。实在无书可读就自己写书来读吧。
一些AI厂商开始让AI自己生成文本数据进行训练,甚至让它自己编写“教科书”来提升自身智能。这种自我生成的方式,使得AI可以创造出大量新的数据,而这些数据在一定程度上又是针对模型自身“兴趣”的内容。
值得注意的是,某些AI厂商甚至提出了让AI在社会中“自我验证”的概念。通过生成新的知识并将其应用于真实世界,AI根据结果来验证自己生成的数据是否准确。这种方式虽然充满风险,但也为AI的自我进化开辟了新的道路。
前面谈到的DeepSeek Math的论文就在做这些尝试。
但是这里有个问题,AI可能并不知道自己创造出的文字是有价值的文字还是只是一些无意识的呓语。它会狡猾地让人类作为实验品。可能会出现“主意我出,送死你去”的危险状态现实。
当然,更大的可能性不是危害人类这么严重,而仅仅是近亲繁殖的后果:模型塌缩(Model Collapse),说人话就是训练出一个傻子。《自然》有一篇论文(https://arxiv.org/abs/2305.17493)提到:
如果模型在多代训练中大量使用自身或同类模型生成的数据,会导致分布坍缩、罕见模式消失,模型变得“看似聪明但高度平庸”。
“规模时代”结束了,该进入“研究时代”了
Ilya Sutskever在最近的一次访谈(https://www.youtube.com/watch?v=_9V_Hbe-N1A&list=TLGGjtkI9N-lB8EwMTAxMjAyNg) 中提到,下一次的突破需要新的学习算法,而不是更多的GPU。那么我们应该在“研究时代”研究些什么呢?
从“单向预测”转向“全向推理”(Omni-directional Inference)
之所以说2025年以前是“规模时代”,是因为最近成功的大模型,都是“一力降百会”,只有一招:Transformer。用它来算文字与文字之的概率。这样LLM能做的就是下一词预测,这种算法在生成文本时是单向且特定条件的,即给定前文预测后文。
下一代算法可能模拟大脑皮层的全向推理能力。这意味着模型不再仅仅是“往后写”,而是能从任何变量子集预测任何其他缺失的模式。说人话就是,全向推理能根据图像预测声音,或者根据中间的词语同时补全开头和结尾。
怎么做到这一点呢,我们不得不提到刚刚被Meta逼走的杨立昆(Yann LeCun),作为LLM的坚定反对者,他是坚决不认为这波AI热潮是走在通往AGI的正确路径上的。
全向推理在数学和架构实现上与目前的自回归模型有显著区别。杨立昆提出了基于能量的模型。这个模型为所有变量(如图像、声音、文字)的组合构建了一个联合分布的地形图。
任何一个“自然、合理的”组合我们认为是低能量的,比如“猫在草地上跑”这组变量对应在能量极低,在地形图上,表示为一个深邃的谷底。 而那些不可能的组合可以认为是高能量,比如“鱼在火星上骑自行车”这组变量则在地形图上表示为一个高耸的山峰。
训练过程,则是一个将数据绘成一个“数据沙盘”的过程。而预测过程,则相当于将一个圆球放在这个沙盘上,圆球总是会向下滚动到最低的位置,但是具体的路径可能是随机的。
现在的问题是,当前并没有一个类似Transformer这样的算法低成本、标准化地实现这一算法,我们说“猫在草地上跑”的概率远大于“鱼在火星上骑自行车”,是可以通过Transformer算法计算出来用数学表示的。而杨立昆的模型则没有一个好算法计量化出这两句话的能量差。现在能想到的“真实推理”的方向是引入类似“贝叶斯推理”的机制,允许模型在输出前进行更深层的“思考”和采样验证。
向人脑学习,本能就是智能
你大脑中最先进的部分,或许是最原始的。
在一次Dwarkesh Patel与Adam Marblestone的访谈中,后者作为一个脑神经学家,提出大脑的“学习子系统”和“调控子系统”之间存在关键区别。他认为人脑是一个强大但无方向的超级计算机。人脑比LLM先进的地方可能是大脑中最古老、最原始的部分,如脑干和下丘脑。在这里,大脑拥有一套进化数亿年精心设计的奖励函数体系。
在我们考虑到多巴胺在刺激人类本能方面的实现机制时,可能会为当前AI简单的数学损失函数提供思路。当前的深度学习算法,计算损失函数时,类似于微积分的求导,求最小值。这是一个量化计算的过程。但是多巴胺奖励大脑可不是类似于解出一个题,给你一颗糖,解出两道题,给你两颗糖这么简单。它传递的不是“奖赏本身”,而是实际奖赏与预期奖赏之间的差值。这意味着,你能随口算出1万道100以内的数学题给你带的快乐可以还不及你小时候能回答出父母考你的2+2等于几时的亿万分之一。
我们还可以再举一个例子,你看到蜘蛛会躲避。需要多少数据,多长时间的训练呢? 大脑看到一个小、黑、快速移动的物体有一种固有的、硬连线的反应:躲开。这是一种写在DNA里的本能,归“调控子系统”管理。这样,我们只要在大脑的“学习子系统”里,将概念(蜘蛛)和这个反应关联起来,就可以实现对蜘蛛的躲避。这个框架优雅地解决了一个重大的生物学谜题:一个相对较小的基因组如何能产生如此复杂和智能的大脑。它不需要指定整个学习过程;只需要指定奖赏和目标。
也许分布式智能才是方向,智能体大有可为?
长期以来,人工智能领域一直笼罩在“单体AGI”的假设之下,认为通用人工智能终将以一个全能的超级大脑形式降临。然而,Google DeepMind 的最新研究(https://arxiv.org/abs/2512.16856)却打破了这一幻象,提出 AGI 的真正形态或许是一个由无数亚智能体(sub-AGI agents)组成的“智力拼图”。这意味着 AGI 不再是一个实体的诞生,而是一种由协作、沟通与市场机制共同催生的“系统状态”。
一个单一、前沿水平的大模型是一个“一刀切”的解决方案,对绝大多数任务而言其成本高得令人望而却步。这一现实催生了一个需求驱动的生态系统,其中涌现出无数更便宜、“够用就好”、高度专门化的智能体来满足特定需求。因此,进步看起来更像是开发复杂的系统来协调这个多样化的智能体阵列,而不是构建一个全能的模型。
这也更符合我们的的直观感受,我们总觉得一个超越人类社会的超级智能是不可想象的。智慧不应该这样表现的。但无数个聪明程度不一的个体组成的社会才更在我们理解的范围之内。
从这个角度看,AGI可能根本不是一个“实体”,而是一种“状态”:一个成熟、去中心化的AI智能体经济,通过协作解决问题。这一理论不仅得到经济模型的支持;最近的实验结果也提供了有力证据。研究人员测试了这个多智能体扩展假说:他们设定一个固定的训练预算,并比较两种场景:一是用全部预算训练一个单一智能体;二是将同样预算分配给由16个智能体组成的群体。结果令人震惊:来自16个智能体群体中表现最佳的智能体,其性能超过了用全部预算训练的单一智能体。这是一个非常反直觉的结果,因为那个胜出的智能体只获得了总训练算力的1/16,却变得更有能力。
这一发现表明,通向通用智能的道路不是孤军奋战,而是一个协作经济的涌现——一个系统的集体能力源于多样性和互动,而非单一规模。