近日,谷歌DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)在社交平台X上的最新互动引发外界猜测,谷歌最新视频生成模型Veo 3或被应用于游戏领域。
面对用户“何时能玩上Veo 3生成的游戏?”的调侃,哈萨比斯以“目前不会”的模糊回应,进一步激发了技术圈对谷歌AI战略的联想。尽管谷歌官方发言人向TechCrunch澄清“暂无具体计划可披露”,但行业分析认为,这家科技巨头构建“可交互世界模型”的技术路径已显露端倪。
从技术路径分化的角度看,世界模型与视频生成模型存在本质差异。
所谓世界模型(World Models),是指通过模拟现实环境动态,使AI代理能预测并响应物理规则(如重力、碰撞),典型案例包括DeepMind去年发布的Genie 2,其可生成无限可交互的虚拟世界;
而视频生成模型,主要以逼真度为核心,专注于合成视觉序列(如Veo 3),但缺乏对环境交互的深度理解。
尽管Veo 3在公开预览中已展现“模拟现实物理规律”的能力(如生成符合运动学原理的动画),但其本质仍属“被动输出”工具,适用于游戏过场动画或叙事原型开发,而非实时交互场景。若要突破至“可玩世界”层级,需将模型升级为具备预测性、可控性的主动模拟器——这与谷歌将多模态大模型Gemini 2.5 Pro改造为“类脑世界模型”的战略方向高度契合。
从行业发展来看,这种基于世界模型展开的从实验室到元宇宙的生态之争,谷歌并非唯一布局者。
在学术界,AI科学家李飞飞创立的World Labs已实现“单图生成3D游戏场景”,探索空间智能的落地。
另外,一些科技巨头,包括微软、OpenAI(Sora模型)、Runway、Pika等企业正加速视频生成技术迭代。其中,谷歌的差异化优势在于其将世界模型与Gemini生态整合的潜力。
整体来看,游戏或成AI技术验证场游戏行业对实时渲染、物理模拟的高要求,使其成为检验世界模型能力的理想场景。若谷歌选择入局,其混合技术路径(融合视频生成与世界模拟)或将重构数字内容生产范式。考虑到谷歌在算力资源、开发者生态上的积累,这一赛道竞争格局值得持续关注。
可以想象,随着AI从“生成内容”向“模拟现实”演进,技术落地的边界正被重新定义。无论是游戏、影视还是工业仿真,掌握世界模型构建能力的企业,将在下一代数字交互革命中占据先机。