英国AI新创公司Wayve揭露了GAIA-1生成式模型的最新进展,在今年6月的时候,Wayve建立了将生成式模型用於自动驾驶的慨念性验证,而在这几个月,Wayve持续扩展GAIA-1,使其拥有90亿个参数,能够生成逼真的驾驶场景影片,呈现自动驾驶在各种情境的反应,并且更好的预测未来事件。
GAIA-1是一个可以利用不同类型输入资料,包括影片、文字和动作,创建逼真驾驶场景影片的世界模型(World Model)。GAIA-1可学习环境以及未来动态表示,向自动驾驶模型提供一个结构化的环境理解,协助驾驶模型做出明智的决策。
官方提到,预测未来事件是自动驾驶系统一个基本且关键的能力,对未来的准确预测,可以让自动驾驶车辆预先知道即将发生的事件,并且规画其相对应的动作,增加上路时的安全性和效率。因此将世界模型整合到驾驶模型中,有助於自动驾驶系统更好地理解人类决策,并具备应对真实世界各种情境的能力。
GAIA-1可对自动驾驶车辆的行为和场景特徵进行细致的控制,且由於GAIA-1多模态的性质,能够从多种提示模式和组合中生成影片。首先,GAIA-1会先运用专门的编码器,将影片或文字等各种形式的输入,编码成一个共享的表示形式,进而在模型中实现统一的时序对齐和上下文理解,这种编码方法,让模型能够更好地整合和理解不同类型的输入。
而GAIA-1的核心也就是世界模型,是一个自回归Transformer,能够预测序列中下一组图像token,世界模型不只考虑过去的图像token,还参照文字和动作token的上下文资讯,运用这个方法所生成的图像token,不仅会在视觉上连贯,而且也和预期的文字和动作指引保持一致。
接着,影片解码器这个阶段被启动,主要功能是将这些图像token转换回像素空间,影片解码器作为一个影片扩散模型,其强大之处在於可保证生成的影片,具语义意义、视觉准确且时间序一致性。GAIA-1的世界模型经过64个Nvidia A100 GPU上长达15天的训练,包含了高达65亿个参数,而影片解码器则在32个Nvidia A100 GPU上训练15天,总共拥有26亿个参数。
经过数个月的发展,GAIA-1从原本的10亿参数,成长到超过90亿参数的模型,整个训练资料集涵盖2019年到2023年间,在英国伦敦所收集的4,700小时专用驾驶资料。参数规模的扩展,使得GAIA-1能力大幅提升,无论是影片生成、事件预测能力都更好,也更能理解基於文本和动作的控制。
GAIA-1的主要价值,便是在自动驾驶中引入生成式世界模型的概念,透过整合影片、文本和动作输入,展示多模态学习在创建多样化驾驶情境的潜力,而且透过整合世界模型与驾驶模型,使驾驶模型能够更好地理解自己的决策,并且泛化至真实世界的情境中,进而提升自驾车系统的能力。