一种用于自适应大模型结构分布的可位灵活压缩方法

专利检索2025-04-18  15


本发明涉及大模型压缩,特别涉及一种用于自适应大模型结构分布的可位灵活压缩方法。


背景技术:

1、由于大模型需要大量的存储空间和计算资源,因此通过量化来压缩模型、优化应用是至关重要的。也正因为大模型参数量过于庞大以及训练时间高成本的原因,在小模型上常用的手段:量化感知训练qat对大模型来说并不是最佳选择,因此,训练后量化ptq成为大模型量化的主要手段,只需通过一次推理的时间即可得到压缩后的模型,过程中无需对原始模型进行任何训练,因此需要优化大模型的ptq方法使其能够高效且高性能部署,提供适用于本混合精度量化方案的位灵活高效部署硬件电路。

2、在常用的ptq量化手段中,由于大模型结构的特殊性,存在一些会严重影响量化后性能的激活离群值。

3、现有的一些工作是直接保持这些维度的更高精度来规避这个问题,但却使得离群值的激活量化过程复杂化,并且获取离群值表征灵敏度的所需时间较长,也降低了大模型压缩的效率和精度。


技术实现思路

1、本技术提供一种用于自适应大模型结构分布的可位灵活压缩方法,以解决现有技术中手动调整层bit数的时间成本过大,且调整方式不灵活的问题。

2、所述压缩方法包括:

3、设定bit参数,所述bit参数包括平均bit数、bit数可选范围最小值和bit数可选范围最大值;

4、获取表征待压缩大模型的模型层灵敏度的向量集,包括,将所述待压缩大模型的模型梯度的l2范数的平方作为每一层hessian trace的近似,并将其作为所述模型层灵敏度的所述向量集;

5、根据所述向量集和所述bit参数对所述待压缩大模型的自适应层进行bit位搜索,得到适用于所述待压缩大模型中每一层的混合精度量化方案;

6、根据所述混合精度量化方案对所述待压缩大模型进行压缩。

7、优选的,所述获取表征待压缩大模型的模型层灵敏度的向量集的步骤包括:

8、将所述待压缩大模型的每一层参数调整为保留;

9、对完成参数保留操作的所述待压缩大模型进行推理,并依次逐层提取出每层的梯度和每层梯度向量的l2范数,得到所述模型层灵敏度的所述向量集。

10、优选的,所述将所述待压缩大模型的每一层参数调整为保留的步骤包括在所述待压缩大模型推理之前,将所述待压缩大模型中的逐层参数的requires_grad按照预设顺序置为true;

11、所述对完成参数保留操作的所述待压缩大模型进行推理,并依次逐层提取出每层的梯度和每层梯度向量的l2范数的步骤包括:

12、在所述待压缩大模型完成一次推理之后,逐层提取出每层的梯度,将所述梯度放置在cpu上;

13、在完成逐层提取梯度之后,计算每层梯度向量的l2范数,将所述l2范数放置在cpu上。

14、优选的,所述根据所述向量集和所述bit参数对所述待压缩大模型的自适应层进行bit位搜索的步骤包括:

15、利用所述bit参数对所述待压缩大模型进行预处理,所述预处理包括均匀量化处理、求差处理和平方处理,得到若干预处理数据;

16、根据所述模型层灵敏度的所述向量集和所述预处理数据进行计算,得到对应所述待压缩大模型每层的具体灵敏度;

17、设定目标函数,并为所述目标函数依次设定第一约束条件和第二约束条件;

18、根据所述待压缩大模型每层的具体灵敏度、所述目标函数、所述第一约束条件和所述第二约束条件计算得到所述适用于所述待压缩大模型中每一层的混合精度量化方案。

19、优选的,所述均匀量化处理的步骤包括:

20、利用所述bit数可选范围最大值对所述待压缩大模型进行一次均匀量化处理,得到所述待压缩大模型量化到所述bit数可选范围最大值后对应的每一层的第一weight参数,并记录所述第一weight参数。

21、优选的,所述求差处理的步骤包括:

22、在第一bit参数范围内进行遍历,并选取bit数,所述第一bit参数范围为bit数可选范围最小值和bit数可选范围最大值之间除去所述bit数可选范围最大值的区间范围;

23、利用bit数对所述待压缩大模型进行一次均匀量化处理,得到所述待压缩大模型量化到bit数后对应的每一层的第二weight参数,并记录所述第二weight参数;

24、将所述第二weight参数和所述第一weight参数进行求差处理,并记录分别利用bit数和所述bit数可选范围最大值量化所述待压缩大模型后产生的权重差异。

25、优选的,所述平方处理的步骤包括:

26、在所述第一bit参数范围进行若干次遍历,选取若干个bit数,并进行若干次均匀量化处理,得到若干个weight参数;

27、将所有weight参数和所述第一weight参数进行求差处理,并记录分别利用多个bit数和所述bit数可选范围最大值量化所述待压缩大模型后产生的目标权重差异;

28、根据所述目标权重差异计算其l2范数的平方,并记录量化至bit数时与量化至bit数可选范围最大值时的所述待压缩大模型权重差异的l2范数的平方。

29、优选的,所述设定目标函数的步骤包括利用所述目标函数使所述待压缩大模型的总层灵敏度最小;

30、所述目标函数为:

31、

32、其中,n表示为所述待压缩大模型总共有n层,biti表示为第i层选用的bit数,sensitivity_difference_between_{bit}i表示为当第i层选用了bit时的层灵敏度差异值。

33、优选的,所述设定所述第一约束条件的步骤包括根据所述平均bit数设定所述第一约束条件的公式;

34、所述第一约束条件的公式为:

35、

36、其中,paramsi表示为第i层的参数量;

37、所述设定所述第二约束条件的步骤包括根据bit参数范围对所述待压缩大模型中每一层的bit值的选取进行约束;所述bit参数范围为bit数可选范围最小值和bit数可选范围最大值之间的区间范围。

38、优选的,所述根据所述向量集和所述bit参数对所述待压缩大模型的自适应层进行bit位搜索的步骤还包括:

39、利用python中的glpk工具将所述目标函数、所述第一约束条件和所述第二约束条件按照特定的语法格式进行写入,并以此生成适用于所述待压缩大模型中每一层的混合精度量化方案。

40、由上述可知,本技术提供一种用于自适应大模型结构分布的可位灵活压缩方法,所述压缩方法包括设定bit参数,所述bit参数包括平均bit数、bit数可选范围最小值和bit数可选范围最大值;获取表征待压缩大模型的模型层灵敏度的向量集,包括,将所述待压缩大模型的模型梯度的l2范数的平方作为每一层hessian trace的近似,并将其作为所述模型层灵敏度的所述向量集;根据所述向量集和所述bit参数对所述待压缩大模型的自适应层进行bit位搜索,得到适用于所述待压缩大模型中每一层的混合精度量化方案;根据所述混合精度量化方案对所述待压缩大模型进行压缩。本技术通过上述压缩方法极大程度地节约了手动调整层bit数的时间成本,并且实现适用于该混合精度量化方案的硬件电路,可以支持权重与激活值的位灵活可控部署。


技术特征:

1.一种用于自适应大模型结构分布的可位灵活压缩方法,其特征在于,所述压缩方法包括:

2.根据权利要求1所述的一种用于自适应大模型结构分布的可位灵活压缩方法,其特征在于,所述获取表征待压缩大模型的模型层灵敏度的向量集的步骤包括:

3.根据权利要求2所述的一种用于自适应大模型结构分布的可位灵活压缩方法,其特征在于,所述将所述待压缩大模型的每一层参数调整为保留的步骤包括在所述待压缩大模型推理之前,将所述待压缩大模型中的逐层参数的requires_grad按照预设顺序置为true;

4.根据权利要求1所述的一种用于自适应大模型结构分布的可位灵活压缩方法,其特征在于,所述根据所述向量集和所述bit参数对所述待压缩大模型的自适应层进行bit位搜索的步骤包括:

5.根据权利要求4所述的一种用于自适应大模型结构分布的可位灵活压缩方法,其特征在于,所述均匀量化处理的步骤包括:

6.根据权利权利5所述的一种用于自适应大模型结构分布的可位灵活压缩方法,其特征在于,所述求差处理的步骤包括:

7.根据权利要求6所述的一种用于自适应大模型结构分布的可位灵活压缩方法,其特征在于,所述平方处理的步骤包括:

8.根据权利要求4所述的一种用于自适应大模型结构分布的可位灵活压缩方法,其特征在于,所述设定目标函数的步骤包括利用所述目标函数使所述待压缩大模型的总层灵敏度最小;

9.根据权利要求8所述的一种用于自适应大模型结构分布的可位灵活压缩方法,其特征在于,所述设定所述第一约束条件的步骤包括根据所述平均bit数设定所述第一约束条件的公式;

10.根据权利要求1所述的一种用于自适应大模型结构分布的可位灵活压缩方法,其特征在于,所述根据所述向量集和所述bit参数对所述待压缩大模型的自适应层进行bit位搜索的步骤还包括:


技术总结
本申请提供一种用于自适应大模型结构分布的可位灵活压缩方法,压缩方法包括设定bit参数;获取表征待压缩大模型的模型层灵敏度的向量集,包括,将待压缩大模型的模型梯度的L2范数的平方作为每一层Hessian Trace的近似,并将其作为模型层灵敏度的向量集;根据向量集和bit参数对待压缩大模型的自适应层进行bit位搜索,得到适用于待压缩大模型中每一层的混合精度量化方案;根据混合精度量化方案对待压缩大模型进行压缩。本申请通过上述压缩方法极大程度地节约了手动调整层bit数的时间成本,并且实现适用于该混合精度量化方案的硬件电路,可以支持权重与激活值的位灵活可控部署。

技术研发人员:杜源,黄雅凤,姜奥杰,杜力
受保护的技术使用者:南京大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1152629.html

最新回复(0)