从“人工智能”进化到“人工智人”

当大模型厂商接连公布产品,声称它们有多么智能时,我们曾欢天喜地迎接新时代。但在最初的激动消退后,普通人发现 AI 似乎只是个“文字助手”,帮着改改文档、写写 PPT。若用于搜索,其知识又止步于训练数据的截止日期。目前,能将其作为核心生产力工具深度使用的,似乎也只有程序员群体了。
这可和我们想象中能帮我们打理工作与生活的“机器人”不一样。既然 AI 已经有了如此强大的智商,也得有匹配的动手能力才行。好在,现在的进化路线图已经初步成型。
一、AI已经能搜索没学过的新知识
大模型训练完成后,知识就固定了。要让它跟上时代,现在有两种主流方案。
专业引擎:AI自己查资料
普通人面对问题,会先查资料。AI也可以使用搜索引擎获取实时信息,再结合自身知识进行整合回答。
然而,传统搜索引擎的结果页包含大量广告、导航链接等为人类设计的元素,对AI而言是信息噪音。因此,出现了如Tavily、Exa等专门为AI优化的搜索服务,它们能提供更干净、结构化的信息摘要。谷歌、必应等传统引擎也提供了相应的API接口。这相当于为AI配备了高质量、实时更新的外部知识库。
举个例子: 如果家里的洗衣机坏了,你想买台新的。直接问 AI,它肯定不知道当前的最新型号。但现在的 AI 可以自己调用搜索引擎,像你打开浏览器一样查找型号和价格。而且它比你更擅长精准搜索,绝不会被满屏的广告带偏,误入山寨产品的网站。
RAG:像一个AI硬盘,存有私有数据的仓库
对于企业内部文档、个人笔记等未公开的私有信息,则普遍采用检索增强生成技术(RAG)。其流程是:先将私有文本资料分割成片段,并转化为数值向量存入数据库;当用户提问时,系统从向量库中快速检索出语义最相关的文本片段;最后,将这些片段作为补充上下文,与问题一并提交给大模型,从而生成基于私有知识的回答。
RAG的优势在于无需重新训练模型即可更新知识,但其效果受限于检索精度,且知识以碎片化片段提供。随着模型上下文窗口的不断增长,也有人提出直接让AI阅读整篇长文档。
然而,面对海量文档库,将全部内容塞入上下文既不现实,成本也极高。更可行的路径是“RAG + 长上下文”的结合:先用RAG精准定位相关文档,再利用长上下文窗口对筛选出的完整文档进行深度理解与综合。
继续修理洗衣机: 如果你想尝试自己修理,但复杂的电路图让你困惑。你可以将官网下载的说明书和维修教程作为知识库导入 AI。这样,它就能完全根据官方手册指导你工作,绝不会胡言乱语、“产生幻觉”,也不需要你在堆积如山的文档中翻找
二、有策略、有技巧的AI学习方式
早期的 AI 回答问题是线性的:从系统提示词出发,加上你的问题开始续写。这种“单线条”思维限制了输出质量。为了优化产出,AI 进化出了更好的方式:
Agent:智能体让AI拥有人格和协作能力
智能体指能够自主理解目标、规划步骤、执行工具调用并完成任务的AI单元。
其价值在于模拟了分工协作。我们可以为不同智能体设定特定的“系统提示词”,赋予其专长角色。这样,即使是基于同一个底层模型,也能衍生出风格各异的“专家”。通过工作流编排,让多个智能体协同完成复杂任务,例如一个负责搜集信息,另一个负责分析汇总,第三个负责格式化输出,从而大幅提升处理复杂问题的能力与可靠性。
MCP: 万能插口让AI可以借助外力
MCP是Model Context Protocol的缩写,意思是“模型上下文协议”,是由Anthropic公司在2024年11月推出的一个开放标准协议。它类似于为AI世界建立了一套统一的“插座”规范。能让AI调用其它的外部工具。
任何支持MCP协议的应用、数据源或工具,都可以被接入支持该协议的AI模型,使其能力得以无缝扩展。例如,AI在制定旅行计划时,可通过MCP直接调用地图服务规划路线、接入天气API查看预报、访问票务平台查询门票,从而生成一份可执行、信息丰富的方案。
回到例子: 你想让AI安排周末游玩,AI助手会自动调用多个Agent,分别通过优化搜索获取本地活动资讯,并结合家庭日程与偏好进行规划。在规划过程中,天气查询、日历管理、票务预订等子任务,可由不同的智能体通过MCP协议调用相应工具完成。
三、AI现在能干白领的活
一直以来,我们使用AI的方式主要是通过对话,AI是一个好的顾问,但君子动口不动手。它可以给你完善的建议和规划,具体的活还得自己干。但现在AI进化了。
Claude Code:AI能操作电脑了
Claude Code现在开始尝试让AI直接操作计算机。
Claude Code 标志着 AI 开始尝试直接操作计算机。它允许 AI 在受控权限下,读取文件系统、运行终端命令、甚至操控图形界面程序。这标志着 AI 从“建议者”转向了“执行者”。
OpenCode到OpenClaw:身兼多职的疯狂员工
OpenCode起初是Claude Code的开源替代版本,但在实际使用中它表现得更灵活,尤其是其开放的插件系统。
在安装了插件(如Oh-My-OpenCode)后,OpenCode就像是办公室里的多面手:它能根据你的要求,自拟计划、自动执行,并根据内容调用不同的大模型。每做完一步还会自我检查验证,俨然一名资深的“数字白领”。
OpenClaw是最近的热门应用,它甚至可以直接操纵你的社交媒体——你能给它多大的权限,它就敢给你闯多大的祸。
Skills:技能固化,做的好自然就成了经验
还是Anthropic公司,近期又提出了Skills概念。我们可以将一系列复杂的操作流程固化为可重复调用的“技能”。
这通常通过编写标准化的描述文件或插件来实现。例如,将“分析销售数据并生成可视化图表报告”这一任务,封装成一个预设技能。当用户发出指令时,AI便能自动激活该技能,按步骤调用数据分析工具、图表生成软件,最终完成报告。
这使得复杂任务的执行变得像调用一个函数那样简单。但AI在执行时可不简单,它象一个真正的员工那样工作,函数执行出错只会退出中止,而AI可以反过来分析原因然后尝试修复,修复不成功,还可以在线搜索解决方案,然后再次尝试。
终级方案: 维修尝试还是失败了?看来只能买一台新洗衣机了。现在你不必花时间泡在各大网站看评测比价格,只要对你的AI助手说一声,“帮我买一台新洗衣机”,它会根据你家庭人口,自动选型、比价,然后自动下单,然后把这些流程记录下来。如果觉得它的考虑非常周全,完全可以将“定期比价采购日用品”的流程固化为一个技能。以后它就是你家的专属采购经理了。
四、下一步得物理意义上的“落地”了
然而,屏幕内的操作只是人类劳动的一部分。要真正成为“人工智人”,AI 必须走出屏幕,进入物理世界。
具身智能:有手有脚开阔视野
这意味着AI要有“身体”——传感器、机械臂、轮子,甚至仿生肢体。和科幻电影中的机器人一样。
目前我们看到的各类国产AI人型机器人已经能跑能跳能说话了,简单的抓取搬运都不在话下。现在结合大模型的理解能力,它们正快速学习如何与真实环境互动。
科幻照进现实: 有了具身智能,机器人保姆不公能帮你下单买洗衣机,还能在快递送到后,直接把它搬进屋内装好。
结语
从“人工智能”到“人工智人”,不是一夜之间的飞跃,而是一步步补齐“感知—思考—行动”的闭环。
今天的AI,正在从“会说话的百科全书”蜕变为“能干活的数字员工”;明天的AI,则可能成为有手有脚、眼观六路、耳听八方的“生活伙伴”。