T-MAC 提供了一种实用的解决方案,它使得在通用 CPU 的边缘设备上部署大型语言模型变得更加高效,无需依赖 GPU。这些结果表明,T-MAC 使得大型模型即使在资源受限的设备上也能高效运行,从而推动了大型模型在更广泛场景中的应用。核心数仅为原始 Llama.cpp 1/4 1/6


LUT Tensor Core 推动了下一代硬件加速器原生支持混合精度矩阵乘法。T-MAC Ladder 都优化了现有 CPU GPU 架构对混合精度矩阵乘法的支持。尽管这些软件层面的创新显著提升了计算效率,但它们在效率上仍无法与硬件加速器相比,后者能够直接实现一个专门的查找表。研究者们认为,理想的方法是重新设计硬件加速器,让 CPUGPU 等能够原生支持混合精度矩阵乘法。然而,这一目标面临三大挑战:效率、灵活性和兼容性。

为了应对这些挑战,微软亚洲研究院的研究员们设计了 LUT Tensor Core,这是一种利用查找表直接执行混合精度矩阵乘法的 GPU Tensor Core 微架构。基于查找表的设计简化了乘法运算,提高了计算效率。此外,这种方法简化了对硬件的需求,只需用于表存储的寄存器和用于查找的多路选择器,无需乘法器和加法器。同时,LUT Tensor Core 通过比特串行设计实现了权重精度的灵活性,并利用表量化实现了激活精度的灵活性。

研究员们还扩展了 GPU 中现有的 MMA 指令集,加入了一组 LMMA 指令,并设计了一个类似于 cuBLAS 的软件堆栈,用于集成到现有的 DNN 框架中。此外,他们设计了一个编译器,用于在具有 LUT Tensor Core GPU 上进行端到端的执行计划。这些创新方法可以让 LUT Tensor Core 被无缝、快速地采用。

Llama BitNet 模型上的测试显示,LUT Tensor Core 可以提供高达 6.93 倍的推理速度,且只占传统 Tensor Core 面积的 38.7%。在几乎相同的模型精度下,这相当于 20.7 倍的计算密度和 19.1 倍的能效提升。随着人工智能大模型规模和复杂性的不断增长,LUT Tensor Core 有助于进一步释放低比特大语言模型的潜力,推动人工智能在新场景中的应用。

微软亚洲研究院首席研究员曹婷表示:“查找表方法引领了计算范式的转变。在大模型时代,得益于低比特量化技术,查找表方法将成为主流。相较于传统的浮点运算或矩阵乘法,查找表方法在计算上更轻便高效,而且在硬件层面上更易于扩展,能够实现更高的晶体管密度,在单位芯片面积上提供更大的吞吐量,从而推动硬件架构的革新。”

低比特量化技术不仅优化了大模型在端侧设备上的运行效率,还通过减少单个参数的“体积”,为模型参数的扩展提供了新的空间。这种参数扩展能力,使模型拥有了更强的灵活性和表达能力。微软亚洲研究院的 T-MACLadder LUT Tensor Core 等创新技术,为各种低比特量化大模型提供了高效能的运行方案,使得这些模型能够在各种设备上高效运行,并推动科研人员从低比特角度设计和优化大模型。其中部分技术已经在微软必应(Bing)搜索及其广告业务等搜索大模型中发挥作用。随着对内存和计算资源的降低,低比特大模型在机器人等具身智能系统上的部署也将成为可能,可以使这些设备更好地实现与环境的动态感知和实时交互。

目前,T-MAC Ladder 已经在 GitHub 上开源,欢迎相关研发人员测试应用,与微软亚洲研究院共同探索人工智能技术的更多可能。

点赞(67)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部