大幅提升小模型性能:hugging face开源deepmind技术,1b参数模型超越70b模型!
近期,业界对小模型的关注度空前高涨,许多“实用技巧”让小模型性能超越了更大规模的模型。这种趋势源于大模型训练成本的急剧增加,动辄数十亿美元的集群投入使得探索更经济高效的方案成为必然。
因此,“测试时计算扩展”(test-time compute scaling)应运而生。该方法并非依赖于扩大预训练规模,而是通过动态推理策略,让模型在复杂问题上“思考更久”。OpenAI的o1模型就是一个典型案例,其在困难的数学问题上,性能随着测试时计算量的增加而持续提升。
虽然o1的训练细节未公开,但DeepMind的研究表明,迭代自我改进或基于奖励模型的解决方案空间搜索等策略,能够实现测试时计算的最佳扩展。通过自适应地分配测试时计算资源,小模型可以与大型模型性能相当,甚至超越后者。尤其在内存受限、硬件资源不足的情况下,这种方法更具优势。然而,DeepMind的研究结果主要基于闭源模型,缺乏实现细节和代码公开。
DeepMind论文:https://www.huida178.com/link/d69aed2be954d4c17700d4a99d79e42a
Hugging Face积极跟进DeepMind的研究,并取得了显著成果。他们开源了相关技术,主要包括:
- 计算最优扩展 (compute-optimal scaling):通过复现DeepMind的技术,提升开放模型的数学能力。
- 多样性验证器树搜索 (DVTS):验证器引导树搜索技术的扩展,提升多样性,尤其在测试时计算预算较大时性能更佳。
- 搜索和学习:一个轻量级工具包,用于实现基于LLM的搜索策略,并利用vLLM加速。
实验结果令人振奋:在MATH-500基准测试中,给予足够“思考时间”,1B和3B参数的Llama Instruct模型,性能超越了8B和70B参数的模型。
Hugging Face联合创始人兼CEO Clem Delangue表示,仅在OpenAI o1发布十天后,他们就开源了其核心技术的复现版本,证明了通过延长模型“思考时间”,小模型也能战胜大型模型。
测试时计算扩展策略
主要策略包括:
- 自我改进:模型迭代改进自身输出,但需模型具备自我改进机制,适用性受限。
- 基于验证器的搜索:生成多个候选答案,用验证器选择最佳答案。验证器可以是硬编码启发式方法或学习型奖励模型。本文重点介绍学习型奖励模型,包括Best-of-N采样和树搜索等技术。
Hugging Face专注于基于搜索的方法,主要包括:
- Best-of-N:生成多个响应,用奖励模型评分,选择最高分的答案。
- 集束搜索:系统探索解决方案空间,通常与过程奖励模型(PRM)结合使用,优化问题解决的中间步骤。
- 多样性验证器树搜索 (DVTS):集束搜索的扩展,提升解决方案多样性和性能。
实验设置及结果
实验使用meta-llama/Llama-3.2-1B-Instruct模型,RLHFlow/Llama3.1-8B-PRM-Deepseek-Data作为PRM,以及MATH-500数据集。
结果显示,集束搜索在计算效率上显著优于Best-of-N和多数投票,性能与Llama 3.1 8B模型相当。DVTS则在较大计算预算下表现更佳,提升了简单/中等难度问题的性能。 计算最优扩展策略则在3B参数模型上取得了超越70B模型的惊人效果。
未来方向
未来研究方向包括:提升验证器性能,实现模型自我验证,将思维融入生成过程,利用搜索生成高质量训练数据,以及开发更多领域的PRM。
原文链接:https://www.huida178.com/link/9f7c4bb3946f029b56eebff3203cc5d5
以上就是3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源的详细内容,更多请关注慧达安全导航其它相关文章!
发表评论 取消回复