手机版我的世界攻略大全(爆料游戏的4个技巧)

手机版我的世界攻略大全(爆料游戏的4个技巧)

本文源自:机器之心

《我的世界》里,玩家不一定都是人类,现在 AI 也会玩了。《我的世界》是全球知名度最高的开放世界游戏。小朋友只需观看十分钟的教学视频,就能学会在游戏中寻找稀有的钻石,但这却是 AI 此前无法企及的高度。今天 OpenAI 的研究团队宣布他们开发了一种能玩《我的世界》的智能体,其中使用《我的世界》游戏大量未标记视频数据集训练神经网络,仅使用少量标记数据。微调之后,OpenAI 训练的模型还可以学习制作挖矿工具,熟练的人类玩家在 20 分钟内可以完成这个任务(24000 次操作)。OpenAI 的模型使用按键和鼠标移动控制人机界面,这使得该模型非常通用,这向通用计算机使用智能体迈出了一步。

制作石镐

在村庄里搜寻

VPT 方法互联网包含大量可供我们学习的公开视频,例如游戏玩家演示游戏玩法,《我的世界》玩家建造一个错综复杂的房子。然而这些视频只提供了事情发生的记录,而不是确切的实现方式,即没有说明鼠标移动和按键的确切顺序。相比于 OpenAI 的大型语言模型,要在视频游戏等更通用领域构建大型基础模型(foundation model),缺乏动作标签带来了新的挑战。为了利用互联网上可用的大量未标记视频数据,该研究提出了一种新颖但简单的半监督模仿学习方法:视频预训练(VPT)。该研究首先从游戏商家那里收集了一个小型数据集,其中不仅记录了玩游戏的视频,还记录了玩家采取的行动,即按键和鼠标的移动。利用这些数据,该研究训练了一个逆动力学模型 (IDM),以预测视频中每个步骤所采取的动作。重要的是,IDM 可以使用过去和未来的信息来猜测每一步动作。与仅给定过去视频帧预测动作的行为克隆任务相比,这种任务要容易得多,需要的数据也要少得多。然后该研究使用经过训练的 IDM 来标记更大的在线视频数据集,并通过行为克隆来学习行动。下图为 VPT 方法概览:

VPT 零样本结果该研究选择《我的世界》这个游戏中验证了所提方法,因为它 (1) 是世界上最流行的视频游戏之一,拥有大量可免费获得的视频数据,并且 (2) 是开放式的,可以提供各种各样的行为动作,类似于现实世界的应用程序(如计算机使用)。与之前的工作在《我的世界》中使用简化动作空间不同,OpenAI 的新模型使用更普遍适用、难度也更大的原生人机界面:鼠标和键盘使用 20Hz 帧率。该研究的行为克隆模型(VPT 基础模型)使用 70000 小时的 IDM 标记在线视频进行训练,在《我的世界 》中完成了强化学习几乎不可能实现的任务。新模型学会了砍树收集原木,将原木制作成木板,然后将木板制作成箱子;这个行为序列对于《我的世界》高级玩家在约 50 秒内执行 1000 个连续的游戏动作。

《我的世界》制作箱子过程中每一步所需的动作数目和时间。

零样本模型制作箱子的过程。此外,该模型还可以执行人类在游戏中经常执行的其他复杂技能,例如游泳、狩猎动物、食用食物以及一些《我的世界》专用技能。

游泳。

狩猎。

食用食物。用行为克隆进行微调基础模型旨在具有广泛的行为特征,并且完成各种任务。为了整合新知识或让他们专注于更具体的任务,通常的做法是基于更小、更具体的数据集对模型进行微调。那么,VPT 基础模型如何微调到下游数据集呢?OpenAI 让人类玩家在最新版《我的世界》中玩了 10 分钟,并用基本的材料建造房子。OpenAI 希望这能增强基础模型执行早期游戏技能的能力。结果表明,基础模型在可靠执行早期游戏技能方面有了巨大进步,而且微调后的模型还掌握了制作石器等新技能。

制作一个石镐所需要的物品顺序

数据扩展也许该研究中最重要的假设是,使用标记的 contractor 数据训练 IDM(作为 VPT pipeline 的一部分)要比直接从同一个小型 contractor 数据集训练 BC 基础模型有效得多。为了验证这一假设,研究者不断增加数据量来训练基础模型,数据量规模从 1 小时增加到 70000 小时。他们将训练分为两个部分,如下图虚线所示,训练数据时长以 2000 为分界线。基础模型训练数据对微调的影响:从图中可以看出,随着基础模型数据的增加,模型制作能力随之增加,只有在最大的数据规模下,我们才会看到石器工具制作的出现。

通过强化学习进行微调当指定的奖励函数足够好时,强化学习便能够成为一种强大的方法去激发更高的,甚至是超人类的表现。VPT 模型和 RL 搭配更好,因为模仿人类行为可能比采取随机行动更有帮助。该研究设置了一些模型挑战任务,即收集钻石鹤嘴锄,这是在《我的世界》中前所未有的能力。制作一把钻石鹤嘴锄需要一长串复杂的子任务。为了使这个任务易于处理,该研究会奖励序列中的每一项智能体。

RL 微调 VPT 模型制作钻石鹤嘴锄该研究发现,从随机初始化(标准 RL 方法)训练的 RL 策略几乎没有获得任何奖励。与之形成鲜明对比的是,VPT 模型的微调不仅可以(它在 10 分钟的《我的世界》中有 2.5% 会这样做),而且它在收集所有物品以获得钻石镐方面的成功率甚至达到了人类的水平。这是人类首次展示计算机智能体能够在《我的世界》中制作钻石工具,而人类平均需要 20 多分钟(24000 次操作)。

热门视频推荐

# 往期推荐 #

winter

【学术头条】持续招募中,期待有志之士的加入

【招人】学术头条多岗位招聘,我们一起见证改变生活的科技

2022-05-06

发表评论

登录后才能评论