meta和加州大学圣地亚哥分校的研究者提出了一种名为coconut(连续思维链)的新型范式,提升大型语言模型(llm)的推理能力。该方法巧妙地修改了传统的思维链(cot)过程,不再依赖语言模型头和嵌入层将隐藏状态与语言token映射,而是直接使用最终的隐藏状态(连续思维)作为下一个token的输入嵌入。

这种改变使得推理摆脱了语言空间的限制,并允许通过梯度下降进行端到端优化,因为连续思维是完全可微的。研究采用多阶段训练策略,利用语言推理链指导训练过程,从而增强潜在推理能力。

Coconut 的推理机制高效且独特。与基于语言的推理不同,连续思维可以同时编码多个潜在的下一步,类似于广度优先搜索(BFS)。即使模型在初始阶段可能出错,它也能在连续思维中保留多种可能性,并逐步排除错误路径,最终找到正确答案。这一过程由隐含的价值函数引导,超越了传统的CoT方法。

实验结果表明,Coconut显著提升了LLM的推理能力。在数学推理(GSM8k)和逻辑推理(ProntoQA、ProsQA)任务中,Coconut及其变体在准确率和效率方面均优于基于语言的CoT方法,尤其在需要更强规划能力的逻辑推理任务中表现突出。 在社交媒体平台X上,这项研究也引发了广泛关注。

Coconut方法概述:

Coconut在语言模式和潜在模式之间切换:

  • 语言模式:模型如同标准语言模型,自回归生成下一个token。
  • 潜在模式:模型直接利用最后一个隐藏状态(连续思维)作为下一个输入嵌入。

特殊token 和 分别标记潜在思维模式的开始和结束。

训练过程:

研究采用多阶段训练策略,利用语言CoT数据监督连续思维的训练。初始阶段在常规CoT实例上训练,后续阶段逐步用连续思维替换CoT中的推理步骤。

推理过程:

类似于标准语言模型解码,但在潜在模式下,直接使用最后一个隐藏状态作为输入嵌入。模型可以通过训练二元分类器或设置固定长度来决定潜在模式和语言模式的切换。

实验结果与分析:

实验涵盖数学推理(GSM8k)和逻辑推理(ProntoQA, ProsQA)。Coconut在各个数据集上均取得了显著提升,尤其在ProsQA上超越了CoT方法。 实验还比较了不同版本的Coconut,包括无课程学习、无思维和思维替换版本,证明了多阶段课程学习策略的重要性以及连续思维的有效性。

通过分析Coconut的推理过程,研究者发现连续思维可以同时探索多个推理路径,类似于搜索树,并逐步收敛到正确答案。 这解释了其在规划密集型任务中的优势。

这项研究为LLM的推理能力提升提供了新的思路,也为未来的研究方向指明了道路。 更多细节请参考原文:https://www.huida178.com/link/73926ad475a40a4cb676b8d4516cd767

以上就是田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式的详细内容,更多请关注慧达安全导航其它相关文章!

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部