T-MAC 提供了一种实用的解决方案,它使得在通用 CPU 的边缘设备上部署大型语言模型变得更加高效,无需依赖 GPU。这些结果表明,T-MAC 使得大型模型即使在资源受限的设备上也能高效运行,从而推动了大型模型在更广泛场景中的应用。核心数仅为原始 Llama.cpp 的 1/4 至 1/6。
LUT Tensor Core 推动了下一代硬件加速器原生支持混合精度矩阵乘法。T-MAC 和 Ladder 都优化了现有 CPU 和 GPU 架构对混合精度矩阵乘法的支持。尽管这些软件层面的创新显著提升了计算效率,但它们在效率上仍无法与硬件加速器相比,后者能够直接实现一个专门的查找表。研究者们认为,理想的方法是重新设计硬件加速器,让 CPU、GPU 等能够原生支持混合精度矩阵乘法。然而,这一目标面临三大挑战:效率、灵活性和兼容性。
为了应对这些挑战,微软亚洲研究院的研究员们设计了 LUT Tensor Core,这是一种利用查找表直接执行混合精度矩阵乘法的 GPU Tensor Core 微架构。基于查找表的设计简化了乘法运算,提高了计算效率。此外,这种方法简化了对硬件的需求,只需用于表存储的寄存器和用于查找的多路选择器,无需乘法器和加法器。同时,LUT Tensor Core 通过比特串行设计实现了权重精度的灵活性,并利用表量化实现了激活精度的灵活性。
研究员们还扩展了 GPU 中现有的 MMA 指令集,加入了一组 LMMA 指令,并设计了一个类似于 cuBLAS 的软件堆栈,用于集成到现有的 DNN 框架中。此外,他们设计了一个编译器,用于在具有 LUT Tensor Core 的 GPU 上进行端到端的执行计划。这些创新方法可以让 LUT Tensor Core 被无缝、快速地采用。
在 Llama 和 BitNet 模型上的测试显示,LUT Tensor Core 可以提供高达 6.93 倍的推理速度,且只占传统 Tensor Core 面积的 38.7%。在几乎相同的模型精度下,这相当于 20.7 倍的计算密度和 19.1 倍的能效提升。随着人工智能大模型规模和复杂性的不断增长,LUT Tensor Core 有助于进一步释放低比特大语言模型的潜力,推动人工智能在新场景中的应用。
微软亚洲研究院首席研究员曹婷表示:“查找表方法引领了计算范式的转变。在大模型时代,得益于低比特量化技术,查找表方法将成为主流。相较于传统的浮点运算或矩阵乘法,查找表方法在计算上更轻便高效,而且在硬件层面上更易于扩展,能够实现更高的晶体管密度,在单位芯片面积上提供更大的吞吐量,从而推动硬件架构的革新。”
低比特量化技术不仅优化了大模型在端侧设备上的运行效率,还通过减少单个参数的“体积”,为模型参数的扩展提供了新的空间。这种参数扩展能力,使模型拥有了更强的灵活性和表达能力。微软亚洲研究院的 T-MAC、Ladder 和 LUT Tensor Core 等创新技术,为各种低比特量化大模型提供了高效能的运行方案,使得这些模型能够在各种设备上高效运行,并推动科研人员从低比特角度设计和优化大模型。其中部分技术已经在微软必应(Bing)搜索及其广告业务等搜索大模型中发挥作用。随着对内存和计算资源的降低,低比特大模型在机器人等具身智能系统上的部署也将成为可能,可以使这些设备更好地实现与环境的动态感知和实时交互。
目前,T-MAC 和 Ladder 已经在 GitHub 上开源,欢迎相关研发人员测试应用,与微软亚洲研究院共同探索人工智能技术的更多可能。
发表评论 取消回复