李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

13 阅读 0 评论 0 点赞

斯坦福大学研究团队提出全新多模态语言模型，实现逼真3d人体动作生成与理解。该模型突破性地整合了语音、文本和动作三种模态，能够根据语音和文本指令生成自然流畅的动作，并支持动作编辑。

研究人员指出，利用语言模型统一人类动作的言语和非言语表达至关重要，因为它能自然地与其他模态连接，并具备强大的语义推理和理解能力。该模型采用两阶段训练：首先进行预训练，对齐不同模态，然后进行下游任务训练，使其遵循各种指令。

该模型将动作分解为面部、手部、上半身和下半身等不同部位进行token化，再结合文本和语音token化策略，实现多模态输入的统一表示。预训练阶段包含组合动作对齐（空间和时间）和音频-文本对齐两种任务，以学习动作的时空先验和模态间关联。

实验结果表明，该模型在伴语手势生成等任务上超越现有SOTA模型，尤其在数据稀缺的情况下优势显著。它能够根据语音和文本指令生成协调一致的动作，并支持将“绕圈走”等动作替换为其他动作序列，保持动作的自然流畅。

此外，该模型还展现了出色的泛化能力和在动作情绪预测任务中的潜力。这项研究为李飞飞教授的“空间智能”研究目标做出了重要贡献。

论文标题：The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
论文地址：https://www.huida178.com/link/c5b3966bd2d4c690da368b3ecbece868
项目页面：https://www.huida178.com/link/f9ab9a0f7c56435e35dc4dadf0eb6945

以上就是李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪的详细内容，更多请关注慧达安全导航其它相关文章！

点赞(0)

本文分类：人工智能
本文标签：无
浏览次数：13 次浏览
发布日期：2024-12-21 21:10:00
本文链接：https://huida178.com/AI/89046

上一篇 > 美国考虑禁售TPLink路由器，外交部、商务部回应
下一篇 > 美光推出速率与能效领先的 60TB SSD

评论列表共有 0 条评论

暂无评论

发表评论取消回复

立即
投稿发表
评论返回
顶部