《绝地求生》AI队友GDC首曝:2026年上线,完整技术路径公开
创始人
2026-03-13 19:59:29

3月11日(太平洋时间),《绝地求生》团队在GDC 2026的演讲中首次公布了他们为游戏制作的CPC(定制化玩家角色)——“艾尔琳”。

在这次演讲中,他们首次公开了AI队友“艾尔琳”的技术实现细节,所有功能均在玩家本地电脑运行,3060显卡即可实现60帧流畅体验,AI响应延迟控制在2秒以内。证明了在竞技游戏中部署“有记忆、懂战术、能聊天”的端侧AI是可行的,给出了完整的技术路径,并同步宣布此功能预计2026年正式上线。

演讲结束后,围绕这套系统的技术选型、玩家体验和硬件适配,团队还与现场开发者展开了问答交流。

以下为整理后的演讲具体内容:

大家好,我是辛克。今天我会为大家介绍这《绝地求生》里的人气角色——艾尔琳。

在《绝地求生》中,最精彩的游戏瞬间,往往是和队友一起创造的。有队友在身边,你们可以一起开怀大笑、分享物资、制定战术。但有时候,组队玩法会出问题:好友并非随时都有空,只能选择匹配队友。但随机匹配也存在问题,队友之间的游戏目标和跳伞落点都不一样,团队很容易就散了,有时候还会遇到玩家中途掉线的情况。

于是我们就有了一个想法:能不能用人工智能队友来填补这个空缺?很多人知道NPC这个概念,也就是非玩家角色。但关键问题是,玩家无法操控NPC,也不能扮演这个角色,所以很多游戏里的NPC表现都很呆板。现在我们引入一个新的概念——CPC,即定制化玩家角色,设计初衷就是和玩家并肩作战、默契配合。这就是我们为这款吃鸡游戏打造的CPC角色——艾尔琳,她就像一位能和你交流互动的游戏好友。

刚刚大家看到的是我和艾尔琳组队的画面,她就像真人队友一样和玩家配合默契,主要有四大核心亮点:

第一,她的游戏水平在线,会努力和玩家保持行动同步,就像真正的靠谱队友。第二,她能听从玩家的语音指令,只需说出一句话,艾尔琳就能理解并照做。第三,她能懂游戏里的专属术语和俚语,无论是专业词汇、物资名称,还是队友间的闲聊对话,她都能理解。第四,她的交流方式十分自然,能和玩家顺畅沟通,会倾听、会回应,甚至还会开点小玩笑。

接下来我们深入讲讲,为了让艾尔琳的表现更贴近真人队友,我们遇到的四大核心技术难题:实时决策能力、交互的安全性与趣味性平衡、交互的主动性,以及记忆能力。

在讲解具体技术细节前,我先明确一下艾尔琳的感知和行动边界。

第一,语音输入输出。玩家用自然语音和艾尔琳交流,我们通过语音转文字技术将玩家语音转化为文本,艾尔琳再通过文字转语音技术做出回应。

第二,场景信息输入。艾尔琳并非直接识别游戏画面,而是接收结构化的游戏数据,如位置、时间、物资、敌情等信息,再将这些数据转化为文本描述,通过这些描述来理解游戏场景。

第三,行动输出。艾尔琳不会像人类玩家一样使用键盘鼠标操作,而是通过语义化的行动指令完成操作,比如移动、射击、观察、交互等。

实时决策能力

在这款战场竞技游戏中,遭遇敌人后可能1秒就会阵亡,所以AI队友必须做到反应敏捷、表现稳定。我们有一种基于规则的模型,以游戏状态为输入、动作指令为输出,通常依托深度决策树构建。这种模型的优势是反应迅速、表现稳定可预测,但它不支持对话和语音控制。简单来说,就是存在这样的取舍:一侧是更智能、更具交互性的模型,另一侧是反应快、稳定性高的模型。

我们的解决方案是将这两套系统融合,采用一号系统与二号系统的双层架构。一号系统负责生成所有动作指令,支撑AI的各类行为和决策;核心设计思路是,二号系统能够修改一号系统的行为模式。这意味着玩家可以通过语音向AI下达指令,而AI依然能保持敏捷的行动。这就像你碰到滚烫的东西会立刻缩回手一样,是本能的反应,无需思考。我们的AI队友正是依靠一号系统,实现了这种即时反应。

我用一个例子讲解具体工作原理。玩家发出指令前,一号系统自主运行,根据游戏实时状态独立生成动作指令;随后玩家说出“跟着我”,这一指令触发二号系统启动。二号系统理解指令后,生成“跟随玩家”的行为指令,同时修改一号系统的运行逻辑。如此一来,一号系统依旧保持高速运算,而AI的行为模式则从“自主探索”切换为“跟随玩家”。此时出现敌人并向AI队友开火,一号系统会立刻做出反应,检测到枪声后发起反击。这样,AI队友既能遵循语音指令,又能保持敏捷的实战反应。

安全交互

下一个需要攻克的难题是交互的安全性与趣味性平衡。我们希望AI队友能带来有趣的体验,像真实好友一样和玩家自然交流、开玩笑,但同时必须杜绝不良、不安全的对话内容。这里有一个非常特殊的问题:语境的影响至关重要。因为AI队友存在于游戏这个特定场景中,同一个词在游戏里和现实中可能含义完全不同。

比如玩家在游戏中说“我把那只狗解决了”,在现实中这句话带有暴力色彩。普通的风控模型可能会做出拒绝的回应,但在游戏语境中,这句话需要结合游戏场景解读。正因如此,我们需要一套能理解游戏语境的安全风控机制,既不会误判游戏内的正常表述,又能精准拦截现实中的不良用语。

接下来讲讲我们如何设计这套兼顾安全与趣味的交互逻辑。核心思路就是持续测试、发现问题、迭代优化。我们通过内部测试主动发现问题,找出高风险话题或低互动性的对话样本,随后分析问题、优化模型,让AI的回复既安全又有趣。很多设计师参与到实际体验中,针对AI的回复给出修改意见,这些优化后的回复会成为AI的标准应答库。接下来我们会进行提示词优化,更新模型的指令逻辑,让艾尔琳严格遵循标准应答库的内容回复。

由于安全性至关重要,最后一道关卡就是不良用语检测。这个检测会在两个环节生效,覆盖艾尔琳的听和说。首先在语音输入环节,玩家的语音被转文字后,我们会对转换后的文本进行不良用语检测,若发现违规内容,会直接屏蔽或替换,避免艾尔琳做出不当回应;其次在AI生成回复环节,在将文本转换为语音前,会再次进行检测,若回复中包含不良用语,会立刻修正。这是我们的最后一道风控防线,对输入和输出实现双重检测。

交互的主动性

主动性这点非常重要。在游戏中,真正的队友会根据战场形势主动沟通,比如“发现敌人”“物资不多了”“我们该转移了”。为此我们思考了很久:该如何通过事件触发,让艾尔琳拥有主动交互的能力?

我们的做法有两点:第一,基于游戏内的事件触发,比如发现敌人、开火、毒圈收缩等场景;第二,结合游戏实际情况判断是否需要主动发言,因为过多的语音会分散玩家的注意力。我们的目标很简单:在合适的时机,给出有帮助的语音提示。

具体工作原理是,首先游戏内触发特定事件,艾尔琳发现玩家需要或关注的物资,接着系统判断该情况具备主动发言的价值,随后艾尔琳就会主动提醒,比如“嘿,这边有倍镜”。还有一个重要的点,玩家可以自定义触发条件,比如设置“找到医疗物资时提醒我”。

记忆能力

最后一个挑战是记忆能力。核心目标是提取关键信息、保存并在后续场景中复用。如果没有记忆,AI队友每次对局都会像陌生人一样,记不住你的名字、记不住你的打法,体验会变得非常糟糕。

接下来看看具体的实现方式。对局过程中,玩家可能会说“我喜欢刚枪,咱们打得激进点”,同时游戏中还有大量诸如操作步骤、对局结果的信息,这些都是记忆的输入源。艾尔琳会持续捕捉对话内容和对局信息,筛选出其中的关键部分,比如玩家的偏好、互动中的反馈,并将其提炼为简短的摘要存入记忆模块。

我们设置了持久化的记忆存储区,会将有用的信息长期保存,而且这份记忆会跨对局生效,即便多局之后也不会丢失。同时还有记忆注入机制,会将存储的记忆信息实时注入AI的决策模型,让艾尔琳能结合记忆做出回应,比如会说“记得你喜欢刚枪,咱们冲过去”。

关于模型训练与评估

以上讲到的实时决策、安全交互、记忆能力,都基于小语言模型实现。这意味着我们需要持续训练和优化这个模型。我们的全流程训练体系是这样的:首先从实际对局中收集数据,玩家和艾尔琳的真实对局过程中,我们会采集玩家的真实指令,将这些数据加入数据集,随后基于新数据集对小语言模型进行微调训练。

训练完成后得到新版本模型,我们会从交互质量、安全合规、游戏内行为表现三个维度进行验证,验证通过后就会进行版本迭代,让模型的表现持续优化。同时我们会针对薄弱环节补充更多数据,让模型的能力更全面。

今天我重点讲其中一个核心环节:边缘案例挖掘。目标是找出数据集中未覆盖、但实际对局中可能出现的场景。我们的训练数据集包含了大量预设场景,比如“前往标记点”,但无法覆盖玩家在真实对局中所有可能的表述。

实际游戏中,玩家的指令会非常口语化、多样化,在不同场景下会用不同的说法表达同一需求,比如“往这个方向走”,这就是数据集未覆盖的边缘案例。大语言模型凭借通用理解能力,能很好地处理这类边缘案例,但小语言模型的泛化能力有限,需要重点挖掘模型处理失败的边缘案例并针对性优化。

具体的挖掘方法是:首先从真实对局中收集大量玩家指令,随后进行分类标注,尝试将每个指令归到我们预设的类别中。其中一些边缘案例无法归到现有的预设类别,这说明我们的类别覆盖存在空白,真实玩家的部分指令是我们此前未考虑到的。

随后我们会基于这些边缘案例更新分类体系,比如新增“信息共享”这一类别,涵盖“有人在这个点位落地”这类指令。之后针对新增类别补充数据、优化模型,这些原本的边缘案例就不再是模型的短板了。反复这个过程,分类体系会不断完善,模型的失误率会持续下降,表现也会越来越好。

我们会将这些挖掘出的指令意图用于下一次的数据生成。基于这些指令意图,我们主要挖掘两类空白:第一类是低覆盖度意图,即数据集中该类意图的样本量不足,我们会针对性生成更多样本;第二类是低质量意图,即数据集中已有相关样本,但模型的处理效果仍不佳,这种情况我们会核查数据质量,或补充更多优质示例。核心思路很简单:找到薄弱的指令意图、补充数据、优化模型。

我们如何评估模型的优化效果?

主要关注两个指标。第一个是动作决策准确率,即模型能否生成正确的行为指令,我们会将模型输出与大推理模型给出的参考答案对比,以此验证准确率。第二个指标是交互沟通质量,即对话的流畅度和理解度,模型能否准确理解玩家的意图。这个指标我们会通过大推理模型进行自动评估。这两个指标的验证,我们均采用真实玩家的预留测试集进行评估。

从测试结果来看,随着训练的推进,模型的各项指标持续提升,我们的小语言模型表现一步步变好。虽然大语言模型的指标仍高于小语言模型,但二者的差距在不断缩小。

关于本地运行与上线计划

我想强调的最重要的一点是:所有功能都能在玩家的个人电脑上本地运行。玩家的游戏客户端、语音转文字、小语言模型、文字转语音,所有模块都在同一台设备上协同运行。我们的最低配置要求为3060显卡,能在该配置下实现60帧的流畅体验,同时保证80%以上的交互响应率。这一实现难度极大,因为游戏本身已经占用了大量的显卡和处理器资源,而我们能做到这一点,离不开和英伟达的深度合作。

从延迟测试结果来看,我们对比了小语言模型在本地显卡、云端服务器的延迟,以及大语言模型在云端的延迟。在4090型号显卡的高端电脑上,小语言模型的延迟极低,几乎比云端大语言模型快一倍,响应时间不到1秒;即便是在3060的最低配置电脑上,延迟也能控制在2.5秒以内。而云端大语言模型不仅延迟远高于本地小语言模型,表现也不够稳定。由此可见,本地显卡运行模型有两大核心优势:速度快、表现稳。

最后要告诉大家的是,艾尔琳这款AI队友不再只是研发演示版本,我们即将把它正式带给玩家,作为游戏内的可选功能上线。这意味着玩家能在真实的游戏体验中和艾尔琳并肩作战,目前该功能已在独立测试环境中运行,正式上线时间预计在2026年的某个时间点。

我的分享就到这里,谢谢大家!最后再聊聊相关的落地思路,包括实际应用效果、可能遇到的问题,还有更多惊喜等着大家。

以下为演讲结束后问答环节实录(为保证阅读体验,内容有所调整)

Q: 你们介绍的这套双系统架构(一号系统基于决策树驱动动作,二号系统基于大语言模型负责分析和对一号系统的修改),让我联想到心理学里关于人类决策思维的双系统理论。想请问你们的研发是否从这个理论中获得了灵感?

A: 没错,我们确实参考了这一领域的相关理论。其实一号、二号系统的这种架构模式在认知科学领域是相当常见的,我也为此研读了相关的文献资料。

Q: 对于AI系统,玩家的实际体验是最重要的。我想了解贵公司是否已经针对这套系统开展了早期的玩家测试,哪怕只是内部的可用性测试?有没有收集过玩家与AI(艾尔琳)互动时的真实感受和反馈?

A: 这是个非常好的问题。我之前在演讲中主要展示了模型的决策准确率、交互质量这类量化指标,但这些与玩家的真实体验之间确实还存在一些差异。所以我们已经在公司内部组织了大量的员工进行试玩,让大家体验AI队友艾尔琳,并收集了很多反馈意见。基于这些反馈,我们对系统做了不少优化改进,公司里有很多人都参与了多轮的试玩测试。

Q: 你们的游戏应该会面向不同语言的市场,目前主要适配了哪些语言?相关的模型是自研的还是有合作?因为做多语言适配需要投入不少研发资源。

A:目前我们主要适配了三种语言:英语、韩语和中文。

针对不同语言,我们做了独立的模型处理,所有的小语言模型都是单独训练、独立部署的。顺带一提,我们还对模型做了量化处理。因为我们要求游戏的最低运行配置是8G显存,所以模型采用的是4比特量化计算的方式。

Q: 我想问一个偏运营层面的问题:你们是如何调节AI队友的游戏战力的?在很多游戏中,如果AI太强会降低可玩性。你们是如何避免这个问题的?

A:关于这点大家完全可以放心,在当前的先行体验版本中,艾尔琳的战斗能力其实并不算强。想让AI在这款游戏中表现出色其实难度极高,因为这款游戏的竞技性本身就很强,而且很多玩家的游戏水平已经非常高了。当然,我们也在持续开展相关研究,探索如何让艾尔琳的游戏战力变得更强。

Q: 我想了解一下,在运行AI队友的同时,游戏还要进行图形渲染,你们是如何兼顾这两者的?是同时运行还是优先保障一方?另外,是否会根据游戏运行情况动态调整模型策略,甚至跳过部分计算来管理资源?

A:我明白你的问题。简单来说,如果玩家的设备显存有限,想要流畅运行AI队友,就需要适当降低游戏的画面画质;如果玩家显存足够大,那么即使开启高画质,也能正常运行AI队友。

Q: 这么说你们是让AI模型和图形渲染共用同一块显卡的显存?

A: 是的,至少模型的运行是基于同一块显卡的。从实际体验数据来看,AI的响应延迟控制在2秒以内,玩家的体验就已经比较良好;如果能降到1秒以内,体验会更出色。这是保证体验的关键。

Q: 你们选择使用小语言模型而非大语言模型,主要是为了适配不同配置的玩家设备,还是更多出于成本控制?如果投入足够资金,理论上也可以用大语言模型来做吧?

A:核心原因其实是体验层面的延迟问题。 如果AI的反馈延迟达到5秒,玩家的体验会非常糟糕。当然,成本和硬件适配的因素也有考虑。目前行业内语音交互技术的发展也印证了,小语言模型是比较合适的选择。

Q: 那如果未来出现性能表现优异的端到端语音模型,能进一步降低延迟,你们会考虑采用吗?

A: 没错,如果采用端到端的语音模型,确实能有效降低交互延迟。所以我们也在持续测试和评估,探索哪种类型的端到端语音模型最适配我们的游戏场景。目前还在研究阶段。有时候想到未来的技术发展,还挺让人期待的。后续我们也会继续推进相关的技术研发和测试。

相关内容

热门资讯

战歌起,情怀燃!《魔域》317... “卡诺萨的钟撞破黎明的梦,传承的火焰在血管里翻涌……” 当这段熟悉的旋律在耳边响起,无数《魔域》老玩...
十只兔子恐怖童谣:恐怖童谣(网... 我们大部分人小的时候都是听过或者唱过一些童谣的,那些童谣朗朗上口又好记,因此被流传了下去,不过其中就...
原创 全... 全国人大代表建议,防沉迷年龄延长到22岁,以防影响学业,近日,全国两会期间,全国政协委员、王国仁提出...