清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！-人工智能-PHP中文网

完全量化训练

其他有效的训练方法

学习步长量化（Learned Step Quantization）

Hadamard量化

梯度的结构稀疏性

位分割（Bit Splitting）和杠杆分数采样(Leverage Score Sampling)

收敛模型精度

消融实验

计算和内存效率

首页

科技周边

人工智能

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 03, 2023 pm 06:01 PM

ai 算法

将激活、权重和梯度量化为4位，有望加速神经网络训练。

然而，现有的4位训练方法需要自定义数字格式，而现代硬件不支持这种格式。

最近，清华朱军团队提出了一种使用INT4算法实现所有矩阵乘法的Transformer训练方法。

使用超低INT4精度进行训练，是非常具有挑战性的。为了实现这一目标，研究者仔细分析了Transformer中激活和梯度的具体结构，为它们提出专用的量化器。

对于前向传播，研究者确定了异常值的挑战，并提出了Hadamard量化器来抑制异常值。

对于后向传播，他们通过提出位分割，来利用梯度的结构稀疏性，并利用分数采样技术来准确量化梯度。

这种新的算法，在自然语言理解、机器翻译和图像分类等广泛任务上，都实现了具有竞争力的准确性。

原型线性算子运算速度比FP16同类算子快2.2倍，训练速度提高了35.1%。

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！图片

论文地址：https://arxiv.org/abs/2306.11987

代码地址：https://github.com/xijiu9/Train_Transformers_with_INT4

全新的INT 4训练算法

训练神经网络对计算的要求很高。使用低精度算术进行训练（完全量化训练/FQT）有望提高计算和内存效率。

FQT方法在原来的全精度计算图中添加了一些量化器和反量化器，并用消耗更小的低精度浮点运算，代替了消耗更高的浮点运算。

FQT的研究旨在降低训练数值精度，而不牺牲太多的收敛速度或精度。

所需的数值精度已从FP16降低到FP8、INT32 INT8和INT8 INT5。

FP8训练是在带有Transformer引擎的Nvidia H100 GPU中实现的，加速了大规模Transformer的训练。最近的训练数值精度，已经降到了4位。

然而，这些4位训练方法不能直接用于加速，因为它们需要自定义数字格式，而现代硬件不支持这些格式。

首先，前向传播中的不可微量化器，会使损失情况变得崎岖不平，基于梯度的优化器很容易陷入局部最优。

其次，梯度仅仅以低精度近似计算。这种不精确的梯度会减慢训练过程，甚至导致训练不稳定或发散。

而在这项工作中，研究者为Transformer提出了一种新颖的INT4训练算法。

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！图片

训练Transformer的所有高消耗的线性运算，都可以写在矩阵乘法（MM）的形式中。

这种MM形式，可以让我们设计更灵活的量化器，通过利用Transformer中激活、权重和梯度的特定结构，就可以更好地近似于FP32矩阵乘法。

随机数值线性代数 (RandNLA) 领域的进步，被这种量化器充分利用。

对于前向传播，研究者发现，激活中的异常值是精度下降的主要原因。

为了抑制异常值，他们提出了Hadamard量化器，它会对激活矩阵的变换版本进行量化。这种变换是块对角Hadamard矩阵，它将离群值中携带的信息传播到矩阵的邻近条目，从而缩小了离群值的数值范围。

对于后向传播，他们利用了激活梯度的结构稀疏性。研究者发现，一些token的梯度非常大。同时，其余大多数token的梯度非常均匀，甚至比较大梯度的量化残差更均匀。

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！图片

因此，与其计算所有梯度，不如节省计算较大梯度残差的计算资源。

为了利用这种稀疏性，研究者提出了位分割，将每个token的梯度分割为高4位和低4位。

然后，通过杠杆分数采样（leverage score sampling）来选择信息最丰富的梯度，这是RandNLA的一种重要采样技术。

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！图片

结合前向和后向传播的量化技术，研究者提出了一种使用INT4MM进行Transformer中所有线性运算的算法，并且评估了在各种任务上训练Transformer的算法，包括自然语言理解、问答、机器翻译和图像分类。

与现有的4位训练算法相比，他们的算法实现了有竞争力的或更高的精度。

此外，这种算法与GPU等当代硬件兼容，因为它不需要FP4或对数格式等自定义的数字格式。

这种原型量化 INT4 MM算子实现，速度比FP16MM基线快2.2倍，并且将训练速度提高了35.1%。

结论

研究人员提出了一种对硬件很友好的Transformer INT4的训练方法。

通过分析Transformer中MM的属性，研究人员提出了HQ和LSS方法来量化激活和梯度，同时保持准确性。

在几个重要任务上，我们的方法与现有的INT4方法表现相当，甚至更好。

研究人员的这些工作可能会扩展到除了Transformers之外的其他MM架构中，例如 MLP-Mixer、图神经网络和循环神经网络网络。

这是他们未来的研究方向。

更广泛的影响：研究人员的算法可以提高效率并减少训练神经网络的能源消耗，这有助于减少深度学习造成的碳排放。

但是，高效的训练算法还可能促进那些，对于人来安全存在隐患的大语言模型和恶意人工智能应用程序的开发。

比如，会被用于虚假内容生成的相关模型和应用。

限制：这项工作的主要限制是它只能加速具有较大规模的矩阵乘法（线性层）的大模型，但不能加速卷积层。

而且，所提出的方法还不能很好地适用于OPT-175B等超大模型。

据我们所知，即使是INT8训练对于这些超大型模型来说仍然是尚待解决的问题。

以上是清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1670

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

显示更多

Related knowledge

C 中的chrono库如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono库可以让你更加精确地控制时间和时间间隔，让我们来探讨一下这个库的魅力所在吧。C 的chrono库是标准库的一部分，它提供了一种现代化的方式来处理时间和时间间隔。对于那些曾经饱受time.h和ctime折磨的程序员来说，chrono无疑是一个福音。它不仅提高了代码的可读性和可维护性，还提供了更高的精度和灵活性。让我们从基础开始，chrono库主要包括以下几个关键组件：std::chrono::system_clock：表示系统时钟，用于获取当前时间。std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接内存访问技术，允许硬件设备直接与内存进行数据传输，不需要CPU干预。1)DMA操作高度依赖于硬件设备和驱动程序，实现方式因系统而异。2)直接访问内存可能带来安全风险，需确保代码的正确性和安全性。3)DMA可提高性能，但使用不当可能导致系统性能下降。通过实践和学习，可以掌握DMA的使用技巧，在高速数据传输和实时信号处理等场景中发挥其最大效能。

C 中的实时操作系统编程是什么？ Apr 28, 2025 pm 10:15 PM

C 在实时操作系统（RTOS）编程中表现出色，提供了高效的执行效率和精确的时间管理。1）C 通过直接操作硬件资源和高效的内存管理满足RTOS的需求。2）利用面向对象特性，C 可以设计灵活的任务调度系统。3）C 支持高效的中断处理，但需避免动态内存分配和异常处理以保证实时性。4）模板编程和内联函数有助于性能优化。5）实际应用中，C 可用于实现高效的日志系统。

给MySQL表添加和删除字段的操作步骤 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，删除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段时，需指定位置以优化查询性能和数据结构；删除字段前需确认操作不可逆；使用在线DDL、备份数据、测试环境和低负载时间段修改表结构是性能优化和最佳实践。

怎样在C 中测量线程性能？ Apr 28, 2025 pm 10:21 PM

在C 中测量线程性能可以使用标准库中的计时工具、性能分析工具和自定义计时器。1.使用库测量执行时间。2.使用gprof进行性能分析，步骤包括编译时添加-pg选项、运行程序生成gmon.out文件、生成性能报告。3.使用Valgrind的Callgrind模块进行更详细的分析，步骤包括运行程序生成callgrind.out文件、使用kcachegrind查看结果。4.自定义计时器可灵活测量特定代码段的执行时间。这些方法帮助全面了解线程性能，并优化代码。

数字虚拟币交易平台top10 安全可靠的十大数字货币交易所 Apr 30, 2025 pm 04:30 PM

数字虚拟币交易平台top10分别是：1. Binance，2. OKX，3. Coinbase，4. Kraken，5. Huobi Global，6. Bitfinex，7. KuCoin，8. Gemini，9. Bitstamp，10. Bittrex，这些平台均提供高安全性和多种交易选项，适用于不同用户需求。

量化交易所排行榜2025 数字货币量化交易APP前十名推荐 Apr 30, 2025 pm 07:24 PM

交易所内置量化工具包括：1. Binance（币安）：提供Binance Futures量化模块，低手续费，支持AI辅助交易。2. OKX（欧易）：支持多账户管理和智能订单路由，提供机构级风控。独立量化策略平台有：3. 3Commas：拖拽式策略生成器，适用于多平台对冲套利。4. Quadency：专业级算法策略库，支持自定义风险阈值。5. Pionex：内置16 预设策略，低交易手续费。垂直领域工具包括：6. Cryptohopper：云端量化平台，支持150 技术指标。7. Bitsgap：

deepseek官网是如何实现鼠标滚动事件穿透效果的？ Apr 30, 2025 pm 03:21 PM

如何实现鼠标滚动事件穿透效果？在我们浏览网页时，经常会遇到一些特别的交互设计。比如在deepseek官网上，�...

See all articles

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！

全新的INT 4训练算法

相关工作

完全量化训练

其他有效的训练方法

学习步长量化（Learned Step Quantization）

Hadamard量化

梯度的结构稀疏性

位分割（Bit Splitting）和杠杆分数采样(Leverage Score Sampling)

收敛模型精度

消融实验

计算和内存效率

结论

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题