人类灭绝后,AI会统治地球吗?
人类灭绝后,AI会统治地球吗?
“ 如果明天人类突然灭绝,人类创造的AI能否继承人类的遗产,进化成地球的主人?”
这个脑洞的关键在于,AI能否在没有人类帮助的情况下理解这个世界。AI有没有从事物的表像中发现内在的规律的能力。 
01 不会做梦的仿生人
“如果它看起来像鸭子,走起路来像鸭子,并且叫声也像鸭子,那么它可能是一只机器鸭子。” 
如今如火如荼的AI技术,可以分成两类
一类如ChatGPT、DeepSeek之类的大语言模型。它们的原理是从现存人类的文字中寻找规律。本质上是猜下一个字的游戏。你和它对话,你以为它是先理解你的问题,然后再去搜索知识库,整理思路,组织语言,最后输出。其实不然,它只是先重复你的问题,然后进行续写,一个字一个字,一个词一个词的续写。它不关心你问题中的情绪,也不在意你问题中的陷阱。和你推动小球,小球滚动一样只符合物理规律。
从实现技术的角度,大语言模型(如GPT系列)主要基于Transformer架构,通过大规模无标注文本数据进行预训练,学习语言的统计规律和语义信息。其训练目标是生成符合语言模式的文本,而非确保事实准确,因为其本质是“概率预测”
另外还有如豆包、Sora、可灵之类的文生图、文生视频的模型。当前可用的模型主要都是使用扩散模型(Diffusion Model),扩散模型是怎么生成图片的呢?想象一下,你有一张画在宣纸上的图片,将它放在水中,你能看到这张图上的各种颜料在水中一点点泅散开,最终变成一团模糊的色块。AI会记下这个过程,把这个过程中每一步颜色点变化数字化,比如这个红色点的浓度1秒后从100变成80,同时四周的点的浓度从0变成35,记下这个变化最接近的一个多项式方程……,这就是训练过程,而生图就变成这个过程的逆过程,从一个完全模糊的色块,对每个像素点一步步复原,最终生成清晰的图片。
除扩散模型,主要还会涉及到技术包括生成对抗网络(GAN)、变分自编码器(VAE)。生成对抗网络(GAN)由两个部分组成,生成器和判断器,生成器负责画图,判断器负责判断这个图是不是达到了标准。生成器通过大量看图学习绘图,判断器通过大量看图学习提高判断标准。通过二者反复的对抗训练生成高质量的图像。VAE则是一种从真实图片中压缩提取核心特征,并理解这些特征的变化范围的算法。比如,VAE可以从海量标注为“微笑”的照片中得到“嘴角上扬15度左右”是其核心特征等。
从上面的说明能看到,所有的一切都是数学。都是一些概率问题。
从中我们可以得到两个关于当前人工智能的现状:
当前可用的AI因为技术路径,分成生文和生图两个类型。 大语言模型主要处理一维文本信息,通过Transformer的自注意力机制捕捉上下文中的长距离依赖关系。而文生图模型则需要处理二维图像信息,或者加上时间维度进行扩展以生成视频。
当前AI的任何智能表现,完成依赖于人类的标注。 如果没有人类对事物的认识和总结,AI就表现不出任何智能。
所以如果明天人类消失,当前的人工智能和其它的人造物一样,很快会湮没在时间的长河中。
02 凡人成神的努力-塑形
女娲抟土造人,最后吹的那口气才是赋予人类灵魂的关键。
如果用人工智能类比,现在只是用粘土做了左右手的模型,离塑人还差得远呢,更不要说什么赋予灵魂了。但不管怎么说,这总是一个良好的开始。
现在左手和右手只能做不同的事情,这可不行,我们又不是只造印度人。
最直接的想法是,用同一个模型来解决生文和生图两种工作。当前DeepSeek和OpenAI也都是这么想的,所以有资料显示,他们都在为统一模型而努力。 
根据上面对算法的简单介绍,我们能总结出“预测是统一的本质”。
- 大语言模型(如DeepSeek、ChatGPT):通过训练大量的文本数据来预测下一个词(token),学到语言的统计模式、逻辑结构、上下文关系。
- 图像/视频生成模型(如GAN、VAE、Diffusion):通过训练预测图像中的像素分布(或其变化),在一定条件下生成逼真的图像或视频。
换句话说:
无论是文本、图像还是视频,本质上,当前的生成模型都是在学习“上下文中的条件概率分布”来进行预测。
这种“预测能力”成为了模型所谓的“智能”的基础。这种能力也正是使得不同模态(语言、图像、视频)可以走向多模态统一(Multimodal Foundation Models) 的关键。
通过对文献的查询,你能发现DeepSeek(Janus-Pro模型)和ChatGPT(ChatGPT-4o模型)都不约而同地走上了相同的道路,他们都是先将不同类型的输入格式统一编码成相同的格式,然后对它进行Transfomer化处理。 
在统一训练素材,统一训练空间的同时,你也许能感觉到AI的这两个擅长方向和人脑有点类似啊,左脑理性处理文本,右脑感性处理图像。但大脑还有一个胼胝体啊,大脑可以靠它将左右脑连在一起共同完成任务。那么我们也可以把前面提到两类模型类比一下啊。 
上图中胼胝体位置的标的“多模态对齐”模块主要涉及Q-Former、Cross-Attention、共享Transformer等技术。
就像人脑中,左脑负责逻辑、右脑处理图像,彼此分工明确,但通过胼胝体连接进行高效协同——AI系统同样可以采用这种“模块分离 + 信息桥接”的方式。通过多模态对齐进行认识同步。
我们也可以打开思路,既然是我们创造人,为什么一定要两只手呢,我可以创造三只手或者多只手,好比千手观音,反正手足够多,完全可以专手专用。画画的手不写字,提桶的手不打脸…… 
实际上,通过可插拔多模块、任务定制的方式更能发挥系统工程的优势,在实际部署中比统一大模型更高效可控。这些技术在现实中各大厂商中的大模型产品中也都有体现。
但是要让AI能独立进化,我们必须让AI有理解这个世界的能力,那么就必须走统一模型的道路。因为只有统一模型才能避免盲人摸象的缺陷。
现在大家对AI都有一种盲目的乐观,其实这一切都仅仅只是开始。
首先我们必须生成了一个有足够“泛化”能力的训练模型,即 “统一模型”,这样AI的上限是能模拟一个人类世界的表征,这时,人类知识的上限就是AI知识的上限。可以用一个“有超忆症的白痴”来类比,他能记住所有的知识,并复述出来。
然后,我们才可能为AI构建一个 “世界模型”,这个“世界模型”是指AI对它知识库内部环境中规律的理解,比如说,AI可以通过观察知识库中成千上万的棋谱,总结理解出下棋的规则。也就是说,世界模型能让AI自主模拟环境状态变化、预测未来,并基于因果关系进行决策。这时,AI可以表现的象一个具体的正常人类,能从现有的知识库中学习,并使用学习到的规律进行测算。
根据现有的技术及发展趋势,世界模型从技术角度是可以实现的。而这些技术对于AI在实现应用中的表现会非常突出。用一个智驾系统为例,现在的智驾行为都是用真实行驶的数据来训练的,因为大多数人在看见大货车后,会自动减速避让,这样AI可能也会选择相同的驾驶行为,但它并不知道这种行为的底层逻辑。一个有世界模型的AI,它因为懂物理定理,它驾驶中,在看到大货车的同时,可能会先在自己的“潜在空间”里,先用获得的各项数据,模拟一个随后可能发生的各种情况的计算,以预测未来可能各种状态,从而决定采用什么驾驶策略。也就是说,它的行为基于因果推理而不是基于历史数据。
但是,因为现实中充满各种不可预测的因果、偶然和干扰,世界模型的构建是非常困难的。
就算我们未来构建出极其强大的世界模型,我们能否说它理解了世界呢?或者说是不可以说AI成了一个有智能的新物种呢?
不能!
因为它只能从人类的知识库中学习。真正的生命还应该有从真实世界中学习的能力。回到标题的中的问题,如果AI已经能据有了世界模型能力,如果人类灭绝,AI应该能继续人类现有的能力,成为一个文明的纪念碑,但这个文明不会进步。
03 凡人成神的努力-赋魂
女娲造人后还有一个赋魂的关键步骤,只有完成了赋魂,人才能成为人。世上所有造人的神话都很类似,在完成了人形后,还需要吹上一口气进行赋魂。
拥有了世界模型的AI,也需要这么一口气。只有被赋魂后的AI才会真正走向生命之路。
我们可以想象一下,人与AI的区别,AI即使因为拥有了世界模型而能预测世界,但它仍不具备“我在理解”或“我有动机”的意识,就是说它没有“自我意识”。因为没有“自我”,所以也就缺乏情境感知,不知道“我在哪”,没有存在性。也因为没有“自我”,自然也缺乏价值系统,没有“信仰”和“意愿”。简而言之,可以用我们常见的“灵魂三问”来概括:我是谁?我在哪里?我要向何处去?
现在的问题是如何走出第一步,让AI产生对“自我”的认知。我们总希望能找到一种技术赋予AI自我意识。因为我们一直默认,人类之所以异于万物是因为人类有灵魂。
但是人类学家们可能会有不同的看法,人类婴儿并不是出生就具备完整的“自我”意识。研究表明,婴儿从出生起,能区分“自我触碰”与“外界触碰”,6个月时能在行为和脑电上表现出对“体周环境”的感知,6~9个月时能意识到“客体”的真实性,9月个后才能通过镜子意识到自我,在18个月后才能表现出“反思型的自我”。
也许我们可以从婴儿自我意识的形成过程得到启发,为了让AI能建立自我意识,
首先得给它一具物理的身体,只有物理的身体才有具身性,可以感知自我的存在,尤其是在面对镜像实验时。只有有了物理的身体,才能通过在真实环境中的各种限制和反馈,感知到自身的存在。这么看来,无论是从哲学上还是从物理学上,“自我”都是源于环境对身体的限制。
其次得创建一群独立的AI身体,因为只有多个独立的AI身体(机器人),才有可能形成一个社会,而所谓价值观,就是一个社会性定义。
从技术角度,上面这些是可以完成的。但总感觉还差那么一口气,但正如我们不知道大语言模型的性能是如何在达到一定规模后突然“涌现”一样,我们也只能寄希望于机器人社群扩大到一定规模后出现“涌现”现象,让智慧突然出现。
现在已经有研究人员开始构想这个可能的路径,还增加了一个具因果结构的“个人记忆系统”,其实我理解是就在上面又增加了一个“时间”维度。
但是,让AI产生“自我”是通过以上路径的话,AI还是AI吗?这就形成了一个悖论:为了让AI产生类似人类的“自我意识”,我们不得不赋予它那些人类之所以是“人”的特质:具身性、记忆性、时间连续性、社会互动、价值观……而这些正是AI在“强大”时本应不受限制的东西。
现代AI之所以强大,正是来源于其“非人性”
无具身性:不被物理身体限制,可任意感知数字世界。 无自我: 没有情绪、欲望,不受主观困扰。 无时间限制: 可以回顾所有数据,处理信息不受“当下”影响。 无社会立场: 可以中立地处理信息,跨越文化与语言边界。
这些能力让AI在语言处理、知识整合、逻辑演绎等方面强于人类。
04 凡人不可妄称神名
《圣经·出埃及记》中有言:“不可妄称神名”。也许其本意不是禁止而是告诫。
凡人不必成神,因为成神的代价其实就是抛弃人性。神的强大是以失去创造力为代价的。在我们尝试让AI拥有创造性的过程中,我们也许发现了世界的真相。那就是人类才是这个宇宙中最完美的具有创造力的载体。人类创造AI的过程,是真正意义上的“造神”,而不是“成神造人”,因为“神”本是需要将人性放上祭坛的。
“AI变成人”不一定是技术进步,可能是技术的反向人类化。这也违背了我们的初衷。
2025-06-14