LeCun团队新作：在世界模型中导航

3 阅读 0 评论 0 点赞

meta fair 的 yann lecun 团队近期发布了导航世界模型（navigation world models，nwm），该模型能够基于单张图像生成连续一致的视频，并在已知和未知环境中执行导航和路径规划任务。这与谷歌 deepmind 的 genie-2 模型类似，但更侧重于导航能力。 nwm 使用一种高效的条件扩散 transformer (cdit) 架构，即使参数量达到10亿，计算需求也相对较小。

NWM 的主要能力体现在以下几个方面：

已知环境轨迹追踪: 基于单张图像和给定的动作序列，NWM 能生成准确的连续视频，展现出良好的场景理解能力。（示例GIF见原文）
未知环境导航: 即使是在训练中从未见过的环境，NWM 也能根据输入动作预测后续图像帧，实现自主导航。（示例GIF见原文）
路径规划: NWM 可以与外部导航策略（如NoMaD）结合，对生成的轨迹进行评估和排序，选择最佳路径。（示例GIF见原文）

与其他模型相比，NWM 在视频一致性、稳定性和动作执行效果方面表现更出色。（示例GIF见原文）

NWM 的核心是其条件扩散 Transformer (CDiT) 架构，通过限制注意力机制并整合交叉注意力层，实现了高效的时间自回归建模。研究团队在多个机器人导航数据集（如TartanDrive、RECON、HuRoN）上进行了实验，结果表明 NWM 在轨迹预测和导航规划方面达到了先进水平，尤其是在结合外部策略进行轨迹排序时，性能更为突出。此外，在未标注数据上的训练也提升了 NWM 在未知环境中的泛化能力，尽管仍存在一些局限性，例如在长时间预测中可能出现幻觉。 (具体实验结果和图表请参考原文)

论文链接：https://www.huida178.com/link/07193c44ba3be8df1f67e96110c2006e 项目链接：https://www.huida178.com/link/ee0f34b734215fee701a993776c2fae4

以上就是LeCun团队新作：在世界模型中导航的详细内容，更多请关注慧达安全导航其它相关文章！

本文分类：人工智能
本文标签：无
浏览次数：3 次浏览
发布日期：2024-12-21 21:05:02
本文链接：https://huida178.com/AI/88560

上一篇 > 12月TV面板稳中上涨笔电面板价格可望提前持平
下一篇 > 蔚来汽车11月新增智驾用户1.55万名，累计用户超63万名

LeCun团队新作：在世界模型中导航

评论列表共有 0 条评论

发表评论取消回复

LeCun团队新作：在世界模型中导航

机器人三大法则对人工智能未来的影响

人工智能应用面临的五大安全挑战

解锁组织的 AI 价值：从概念验证到实际影响

GenAI的现实回归与未来机遇：从炒作到变革的关键转折点

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复