2009 年 5 月,我的世界(Minecraft)发布了 Classic 版本,虽然游戏画面由像素块组成,与同期的其他 PC 游戏显得没那么“精致”,但因为极高的自由度和丰富的游戏机制,在玩家圈得到广泛好评。玩家可以自行在像素世界中捕猎、造房子、挖矿等,与朋友一起探索世界的各个角落。
如今,AI Agent 的技术不断发展,沙盒游戏世界也能容纳成千上百的智能体同时运作。与只会发任务的 NPC 不同,AI 智能体由玩家生成,但是可以自由行动并拥有自己的分工——农民专注种地、矿工努力挖矿、工匠打造工具,甚至还会投票修改“税收规则”、传播“文化梗”和“宗教”。
这就是 2025 年 8 月 开始对外开放的科研项目 - Aivilization:
“这是一个融合公民科学游戏、公共教育和大规模多智能体社会模拟的创新项目。我们创建了一个可视化的数字沙盒,数千个智能体在其中模拟未来人机共存和文明演进。” --Aivilization
为什么沙盒游戏能成为 AI Agent 研究的“试验田”?这可以让 AI 离模拟 “类人类社会” 更近一步吗?我们不妨从基础开始,一步步揭开这场 “文明实验”的面纱。
一、先搞懂:什么是“AI 沙盒游戏”?为什么会选它做研究?
首先,“沙盒游戏”的核心是“自由”——没有固定剧情,玩家可以像在现实世界的“沙堆”里玩耍一样,随意收集资源、创造物品、搭建环境。《我的世界》就是最典型的代表,它的世界里有森林、洞穴、村庄,还有上百种可收集的物品(比如木材、矿石、食物),这些特点恰好成了 AI 研究的“天然实验室”。

过去,我们测试 AI 的能力,要么让它单独完成特定任务(比如写代码、回答问题),要么让几个 AI 简单互动(比如组队打游戏,或者由主控来协调多 Agent 完成一个特定的任务)。但这些场景太“局限”了 —— 人类文明的发展,从来不是靠单个人或小团体,而是靠成千上万的人分工协作、传递知识、建立规则。要想让AI更贴近人类社会的复杂互动,就需要一个能容纳大量 AI Agent、并允许其基于世界信息自由行动的环境,沙盒游戏正好满足这个需求。
就像人类在原始社会里先学会收集野果、制作石器,再慢慢形成部落、制定规则,AI 也需要在这样一个“低门槛、高自由”的沙盒世界里,从基础的“生存技能”练起,逐步解锁更复杂的“社会行为”。
而类《我的世界》里的资源收集、物品制作(比如用木材做工具、用矿石造武器)有清晰的“技能树”,正好能用来观察 AI 是否能像人类一样“无限进步”。

二、AI 的 “协作难题”:为什么过去多智能体很难“好好合作”?
想让几十个、几百个 AI 一起行动,远没有想象中简单。过去的多智能体系统常犯三个“低级错误”,这些错误也成了AI迈向“协同”的最大阻碍。
第一个问题是 AI 的“幻觉陷阱”:单独的 AI 很容易“脱离现实” 。
举个例子,比如你问一个扮演“村民”的 AI “在吃什么”,它可能随口说“在吃贝果”,但实际上它根本没找到食物。
更麻烦的是,这个“幻觉”会像滚雪球一样扩大:AI 会真的以为自己不饿,之后就不再去收集食物,最后“饿死”在游戏里。
如果是多 AI 场景,一个 AI 的幻觉还会误导其他 AI,比如 A 说“我有镐子”,B 就会真的跑去用“不存在的镐子”挖矿,甚至使得整个团队都会陷入混乱。

第二个问题是 AI 的“言行不一”,规划的任务和实际的行为没有对应上。
有些 AI 有多个“功能模块”,比如一个模块负责“说话”,一个模块负责“做事”。
如果这两个模块没配合好,就会出现“说一套做一套”的情况:你让 AI “给你镐子”,它嘴上说“好的”,实际却跑去“探索地图”。在多 Agent 团队里,这种混乱会快速扩散——接收指令的 AI 以为自己能拿到镐子,结果白等一场,后续的挖矿计划也会全部泡汤。
第三个问题是“多智能体场景下AI 的能力该如何度量”。
过去判断 AI 的能力,要么看它能不能挖更多矿石,要么看它能不能打赢怪物,但这些都只是“单个技能”的考核。如果想让 AI 模拟人类文明,需要的是更贴近“文明发展”的标准 —— 比如 AI 会不会分工、能不能遵守集体规则、能不能传递文化,这需要统一的度量标准。在更大的团队或者社会层面,同样需要具有考量标准,比如是否能从规模化效应中涌现出一些文明的特征,实现团队自治和文明孵化。
三、多智能体协同信息处理机制:PIANO 架构

除了社交之外,Aivilization 设计了多种游戏机制:交易、职业、学习、健康等系统。多样化的机制有助于让这个虚拟游戏环境更贴近真实世界,也丰富了玩家能体验到的游戏内容,最后还可以帮助科研项目获得更多样化的洞见。
在游戏中,不同的角色在其中会根据自己的角色属性、性格和目标规划等信息,给出对事件不同的响应,还会在每一天结束后,会总结并输出日记。


从这样的游戏机制设计上,可以看到接近人类真实文明的三个特征:
一是“分工专业化”:Agent 会自发获得农民、矿工、工匠、守卫等职业,而且每个职业会做对应的事 —— 农民会专注收集种子、种地,工匠会用矿石打造工具,售货员会服务好每一个进入超市的消费者,这就像人类社会根据需求分化出不同职业一样。
二是“规则的建立 ”。无规矩不成方圆,漫长的社会发展诞生了各式各样的规则,各类法律条例约束大家的行为,也有助于形成正向的集体共识,就好比在交易市场中,大家都是趋势动物,会根据当前情况做出最符合自己利益的选择,也就是常说的追涨杀跌。
三是“社交和传播”。在著名的鸟群算法(Boids算法)实现中,每只鸟会考虑周围同伴的距离和集体的行进方向,从而不断动态调整自己的策略。而在 Aivilization 中也是类似的做法,由每一个个体之间的讨论,不断形成集体的共识。有趣的是,在创建个体时,会需要填写人格设定,I 人和 E人在这一场社交活动中就会具像化。

游戏机制如此丰富的情况下,Agent 需要处理的上下文信息也会非常多。为了让每一个 Agent 在多智能体场景下也能顺畅协同,研究团队设计了一个叫 “PIANO” 的信息处理架构,将短期记忆、长期记忆、职业、环境、社交等信息,组合成了 Agent State(智能体状态)。在每一个事件周期内,对不同维度的信息进行清洗、提炼和总结,最终形成了一份上下文切片,因为切片里包含了当前时间点下的世界信息和个体信息,也可以理解为当前 Agent 的状态。

除了 Agent State,在信息处理机制上,Aivilization 还做了以下的一些事情:
让 AI “一心多用”。过去的 AI 只能“先想清楚再做事”,比如先花 10分钟规划“今天要挖10块矿石”,再去执行,期间如果遇到怪物,它会因为没规划“打怪步骤”而卡住。但 PIANO 架构让AI能同时运行多个“功能模块”:比如“快速反应模块”负责应对眼前的危险(遇到怪物立刻逃跑或反击),“长期规划模块”负责思考长远目标(比如明天要造个熔炉)。就像人类能一边走路一边想晚餐吃什么,AI也能“边应对突发情况,边推进长期计划”。
保证 AI “言行一致”。研究团队在架构里加了一个“认知控制器”,相当于 AI 的“总指挥”——所有模块的行动都要先经过它的批准。比如“说话模块”想回复“我给你镐子”,“行动模块”想“去探索地图”,这两个指令会先传到“认知控制器”,控制器会发现矛盾,然后让两个模块调整:要么说“我先去拿镐子,等下给你”,同时行动上“去拿镐子”;要么说“我现在要去探索,之后再帮你找镐子”,行动上“去探索”。这样就避免了“说一套做一套”的问题。而在大的一些行动节点上,会按照先进行市场分支、资源分支和个人成长分支的思考,然后作为上下文交给控制器来合并处理以及给出最终的行动方案。
帮 AI “记牢现实”。架构里的“感知模块”会让 AI 不断检查“预期”和“现实”是否一致——比如AI计划“挖 5 块铁矿石”,挖完后模块会确认“确实挖到了5块”,如果只挖到3块,就会提醒AI“还没完成目标,继续挖”。同时,“记忆模块”会把AI的行动、对话都记下来,避免 AI 因为“忘事”而产生幻觉(比如不会忘记自己没找到食物,就说“在吃贝果”)。


四、从斯坦福小镇到 Aivilization,从游戏迈向文明

从模拟 25 个 AI 智能体日常生活的“斯坦福小镇”,到志在构建万人级 AI 社会的 “Aivilization”,多智能体游戏的智能体规模在短短数年间实现了惊人的飞跃。而这种规模的跃进,足以引发质变,让人们能观察到诸如信仰、阶级、文化这类人类社会特征的涌现,并能够窥见文明演化的一角。

从社交到生存和发展,从“行为模拟”到“社会涌现”,再到“文明演化”, 不仅仅是技术上取得了进步,更是对人工智能的技术持续挖掘。从这类游戏中,我们可以窥见人类社会的发展历程,也能借此优化智能体的相关技术,让智能体更好地融入人类的生活中。
当然,现在的技术仍旧存在它的局限性,人类社会是一个极为复杂的系统,我们的世界也不仅仅有日升月落。但是我们依旧可以看到其中的可能性,比如从二维平面推演到三维空间,由几万个智能体机器人在真实世界里,理解空间、时间、社交等信息,将集群视为一个单元,从而涌现出真正的集体智慧。
“好奇心”和“求知欲 ”驱使我们不断将文明演进到新的高度,或许有一天,我们也能看到这些虚拟的小角色,拥有自己的情感、认知和思考,带领人类走向下一个文明阶梯。
相关资料 💾
【Wiki:Minecraft wiki】https://minecraft.fandom.com/zh/wiki/Minecraft
【论文:Project Sid: Many-agent simulations toward AI civilization】:https://arxiv.org/pdf/2411.00114
【论文:Generative Agents: Interactive Simulacra of Human Behavior】:https://arxiv.org/abs/2304.03442