大语言模型分布式推理方法及装置、介质

专利检索2024-11-12 6

本公开涉及人工智能，尤其涉及一种大语言模型分布式推理方法及装置、介质。

背景技术：

1、随着人工智能的飞速发展，大语言模型在各种自然语言处理任务如机器翻译、智能对话、文本生成、代码开发等方面表现出了强大的泛化表达能力。与此同时，大语言模型的参数量也从十亿突破到了千亿、万亿，单卡无法完成其推理任务，因此，如何得到高效的分布式推理方案逐渐成为研究热点。

2、推理常见的分布式并行策略有数据并行（data parallelism，dp）、张量并行（tensor parallelism，tp）、流水线并行（pipeline parallelism，pp）等。数据并行一般会将数据的批次（batch）切分，每个图形处理器单元（graphics processing unit，gpu）上保存同样的模型参数，对于批次小或者单卡无法容纳的模型，数据并行就不适用。张量并行会将模型中某些层或称算子例如注意力层（attention算子）、多层感知机（multi-layerperceptron，mlp）的权重进行切分，每个gpu上仅保留部分权重，每层都需要多卡通信；流水线并行需要将大模型的各个层切分成多个流水线阶段（stage），每个gpu上保存模型的部分层，通过每个阶段按顺序形成流水线推理，只需要不同阶段间的通信即可。

3、目前市面上现有的大模型分布式推理方案存在诸多问题。比如，缺少自动化设计，需要用户手动指定哪些gpu用于做tp、哪些gpu做dp、哪些gpu用于做pp，这种人为分配方法极易造成gpu计算资源的浪费。再比如，没有组合使用多种分布式推理方式，难以实现高效的推理。

4、因此，如何根据可用的硬件信息寻找最优的分布式组合策略显得尤为重要。

技术实现思路

1、有鉴于此，本公开提出了一种大语言模型分布式推理方法及装置、介质，能够根据计算图和可用gpu总数构建目标函数，并以最小化目标函数为目标进行优化得到推理性能最优的并行化方案，使得计算资源分配更加合理，以应对不同的任务需求和硬件条件，从而显著提高计算效率。

2、根据本公开的一方面，提供了一种大语言模型分布式推理方法，包括：根据大语言模型的计算图和图形处理器单元gpu的总数，构建用于确定并行化方案的目标函数，其中，所述gpu基于所述大语言模型的计算图执行推理任务，所述并行化方案用于将所述大语言模型执行所述推理任务所需的计算过程划分为多个流水线阶段，其中每个流水线阶段的计算由不同的gpu阵列执行；所述目标函数表示各流水线阶段的计算时长和流水线阶段之间的通信总时长，所述目标函数的自变量包括第一参数、第二参数、第三参数、第四参数，所述第一参数表示所述多个流水线阶段的流水线阶段数量，所述第二参数表示每个流水线阶段中gpu阵列包含的gpu数量，所述第三参数表示每个流水线阶段中gpu阵列的行数，所述第四参数表示每个流水线阶段中gpu阵列的列数；基于预设的约束条件并以最小化所述目标函数为目标确定出优化的并行化方案，所述优化的并行化方案指示所述流水线阶段数量、所述gpu阵列包含的gpu数量、所述行数和列数，所述约束条件包括所述自变量均为正整数；以及基于所述优化的并行化方案利用所述gpu执行所述大语言模型的推理任务。

3、这样，根据大语言模型的计算图和gpu总数构建出表示各流水线阶段的计算时长和流水线阶段之间的通信总时长的目标函数，并以自变量均为正整数为约束条件、以最小化目标函数为目标确定出优化的并行化方案，使得利用优化出的并行化方案中的流水线阶段数量、gpu阵列包含的gpu数量、行数和列数能够实现基于混合并行处理方式执行推理任务，可以充分利用gpu的并行计算能力，实现最优推理性能显著提高计算效率，使得计算资源分配更加合理，从而可以根据不同的任务需求和硬件条件进行优化，降低流水线之间的通信总时长，从而减少通信开销，进一步提高整体性能，并且设定多个参数为正整数的约束条件不仅使得更易得到优化的并行化方案，还有助于提高优化的并行化方案的可行性和实用性。

4、在一种可能的实现方式中，每个流水线阶段中的gpu阵列用于进行数据并行和/或张量并行处理。这样，利用优化出的并行化方案中的流水线阶段数量、gpu阵列包含的gpu数量、行数和列数能够基于流水线并行、数据并行和/或张量并行处理这种混合并行处理方式执行推理任务，实现最优推理性能，使得计算资源分配更加合理，显著提高计算效率，从而应对不同的任务需求和硬件条件。

5、在一种可能的实现方式中，所述计算图表示所述大语言模型执行所述推理任务的算子数量、各算子的参数量、各算子的执行顺序；所述构建用于确定并行化方案的目标函数包括：构建所述算子数量、各所述算子的执行顺序、所述gpu的总数，与所述流水线阶段数量和所述gpu阵列包含的gpu数量之间的关系，和/或，构建所述算子数量、各所述算子的参数量、各所述算子的执行顺序、所述gpu的总数，与所述流水线阶段数量和所述gpu阵列包含的gpu数量之间的关系。这样，通过综合考虑算子数量、各算子的参数量以及执行顺序，能够构建出各流水线阶段执行相同数量的算子的并行化方案和/或各流水线阶段执行的参数量趋于平衡的并行化方案，有助于充分利用gpu资源，避免资源浪费，提高计算效率，使得能够根据不同的任务需求、硬件条件和优化目标进行调整构建并行化方案的方式，从而实现最佳的性能表现。

6、在一种可能的实现方式中，构建所述算子数量、各所述算子的参数量、各所述算子的执行顺序、所述gpu的总数，与所述流水线阶段数量和所述gpu阵列包含的gpu数量之间的关系，包括：根据所述算子数量和各所述算子的参数量确定出所有算子的参数总量，以及，根据各算子的参数量和各算子从前至后的执行顺序确定出参数数组，所述参数数组包含按执行顺序排列的各算子的参数量；根据参数数组确定出前缀和数组，所述前缀和数组中的每一项是参数数组中对应的一项与之前各项之和，以及，根据所述参数总量和所述流水线阶段数量构建出第一划分阈值；利用所述第一划分阈值对所述前缀和数组进行划分，得到多个流水线阶段，各所述流水线阶段执行一个或多个算子；根据所述gpu的总数和所述多个流水线阶段的流水线阶段数量，确定所述gpu阵列包含的gpu数量。这样，通过综合考虑算子数量、各算子的参数量以及执行顺序，能够确保了每个流水线阶段处理的算子数量和复杂度与其所需的资源相匹配，从而避免了资源瓶颈和浪费，通过将大模型语言执行推理任务的计算过程划分为多个流水线阶段，每个流水线阶段可以独立执行一个或多个算子，这种并行化策略充分利用了gpu的并行计算能力，加快了计算速度。

7、在一种可能的实现方式中，每个流水线阶段中的gpu阵列用于执行一个或多个算子以进行所述数据并行和/或张量并行处理，所述算子包括线性运算单元和注意力运算单元，所述线性运算单元用于进行第一矩阵和第二矩阵的乘积运算，所述第一矩阵与第一维度、第二维度、第三维度相关，所述第二矩阵与所述第三维度、第四维度相关，所述注意力运算单元进行的注意力运算与所述第一维度、所述第二维度、所述第四维度相关，其中，所述第一维度表示所述推理任务的输入数据的批次数量，所述第二维度表示所述输入数据中的序列长度，所述第三维度表示输入通道的数量，第四维度表示输出通道的数量；所述构建用于确定并行化方案的目标函数包括：构建所述自变量与各所述流水线阶段的计算时长的关系，包括：根据所述gpu的总数、所述大语言模型的计算图和所述多个流水线阶段的流水线阶段数量确定出当前流水线阶段中线性运算单元和注意力运算单元各自的数量；至少根据所述第三参数、所述第四参数确定所述线性运算单元的运算用时，其中，所述线性运算单元的运算用时包括利用所述第三参数和所述第四参数对所述第一矩阵和/或所述第二矩阵相关的维度切分后进行乘积运算的运算用时，该运算用时包括乘法用时、数据传输用时、访存数据用时，以及，至少根据所述第三参数和所述第四参数确定所述注意力运算单元的运算用时，所述注意力运算单元的运算用时包括利用所述第三参数和所述第四参数对所述注意力运算的输入矩阵相关的维度进行切分后进行的注意力运算的运算用时；根据所述当前流水线阶段中线性运算单元的数量和所述线性运算单元的运算用时确定出所述当前流水线阶段中所有线性运算单元的运算用时，以及，根据所述当前流水线阶段中注意力运算单元的数量和所述注意力运算单元的运算用时确定出所述当前流水线阶段中所有注意力运算单元的运算用时；根据所述当前流水线阶段中所有线性运算单元的运算用时和所有注意力运算单元的运算用时确定出所述当前流水线阶段的计算时长。这样，将运算所涉及的矩阵先按照gpu阵列的行、列在运算相关的维度上进行切分，再基于切分后的矩阵进行运算，根据利用第三参数和第四参数切分第一矩阵和/或第二矩阵相关的维度后进行的乘积运算确定出线性运算单元的运算用时，并根据利用第三参数和第四参数切分注意力运算相关的维度后进行的注意力运算确定出注意力运算单元的运算用时，从而计算每个流水线阶段的计算时长，其中，运算用时考虑到矩阵乘法、数据传输、访存数据等多个方面，能够更准确地评估每个流水线阶段的性能，有助于发现潜在的性能瓶颈，并进行针对性的优化。

8、在一种可能的实现方式中，所述构建用于确定并行化方案的目标函数还包括：根据所述并行化方案和所述流水线阶段的结果矩阵的维度，利用测量或估算的方式确定出多个通信时长，所述通信时长表示相邻流水线阶段之间的通信用时；根据所述多个通信时长确定出所述流水线阶段之间的通信总时长。这样，通过测量或估算相邻流水线阶段之间的通信用时，可以更精确地了解大语言模型执行推理任务时整个处理过程中的通信开销，有助于更准确地评估整个系统的性能，并为进一步的优化提供依据，了解流水线阶段之间的通信总时长可以帮助设计者发现通信瓶颈，进而对并行化方案进行优化，例如，可以通过调整流水线的结构减少相邻算子之间不必要的通信或采用更高效的通信协议来降低通信开销。

9、在一种可能的实现方式中，利用所述第三参数和所述第四参数切分所述第一矩阵和/或所述第二矩阵相关的维度，包括以下任意一种方式：利用所述第三参数和所述第四参数切分所述第一矩阵相关的多个维度中的同一个维度；利用所述第三参数和所述第四参数切分所述第二矩阵相关的多个维度中的同一个维度；利用所述第三参数和所述第四参数分别切分所述第一矩阵相关的多个维度中的不同维度；利用所述第三参数和所述第四参数分别切分所述第二矩阵相关的多个维度中的不同维度；利用所述第三参数切分所述第一矩阵相关的多个维度中的其中一个维度，并利用所述第四参数切分所述第二矩阵相关的多个维度中的其中一个维度。这样，提供多种矩阵维度切分方式处理矩阵维度，有助于根据实际gpu计算资源情况灵活选择最合适的矩阵维度切分方式，适应不同的应用场景和硬件环境，通过最小化目标函数优化矩阵维度切分方式，能够得到推理耗时最短的矩阵切分方式，可以更加精确地控制计算过程，提高计算结果的准确性。

10、在一种可能的实现方式中，利用所述第三参数和所述第四参数切分所述注意力运算相关的维度，包括：利用所述第三参数和所述第四参数切分所述注意力运算相关的多个维度中的同一个维度；或者，利用所述第三参数和所述第四参数分别切分所述注意力运算相关的多个维度中的不同维度。这样，通过同时处理注意力运算相关的多个维度中的同一个维度，可以减少计算过程中的重复步骤，从而优化计算效率，这种处理方式充分利用了计算资源的并行性，加速了计算过程，通过利用第三参数和第四参数分别处理注意力运算相关的多个维度中的不同维度，可以更加精确地控制每个维度的计算过程，从而提高注意力运算的精度，可以根据具体的计算需求和硬件条件选择最合适的处理方式，以适应不同的应用场景，有助于在有限的硬件资源下获得更好的性能表现。

11、根据本公开的另一方面，提供了一种大语言模型分布式推理装置，包括：构建模块，所述构建模块被配置为根据大语言模型的计算图和图形处理器单元gpu的总数，构建用于确定并行化方案的目标函数，其中，所述gpu基于所述大语言模型的计算图执行推理任务，所述并行化方案用于将所述大语言模型执行所述推理任务所需的计算过程划分为多个流水线阶段，其中每个流水线阶段的计算由不同的gpu阵列执行；所述目标函数表示各流水线阶段的计算时长和流水线阶段之间的通信总时长，所述目标函数的自变量包括第一参数、第二参数、第三参数、第四参数，所述第一参数表示所述多个流水线阶段的流水线阶段数量，所述第二参数表示每个流水线阶段中gpu阵列包含的gpu数量，所述第三参数表示每个流水线阶段中gpu阵列的行数，所述第四参数表示每个流水线阶段中gpu阵列的列数；确定模块，所述确定模块基于预设的约束条件并以最小化所述目标函数为目标确定出优化的并行化方案，所述优化的并行化方案指示所述流水线阶段数量、所述gpu阵列包含的gpu数量、所述行数和列数，所述约束条件包括所述自变量均为正整数；执行模块，所述执行模块被配置为基于所述优化的并行化方案利用所述gpu执行所述大语言模型的推理任务。这样，通过构建模块根据大语言模型的计算图和gpu总数构建出表示各流水线阶段的计算时长和流水线阶段之间的通信总时长的目标函数，利用确定模块基于预设的约束条件并以最小化所述目标函数为目标确定出优化的并行化方案，使得执行模块基于优化出的并行化方案中的流水线阶段数量、gpu阵列包含的gpu数量、行数和列数执行所述大语言模型的推理任务，能够实现基于混合并行处理方式执行推理任务，可以充分利用gpu的并行计算能力，实现最优推理性能显著提高计算效率，使得计算资源分配更加合理，从而可以根据不同的任务需求和硬件条件进行优化，从而降低流水线之间的通信总时长，从而减少通信开销，进一步提高整体性能，并且设定多个参数为正整数的约束条件不仅使得更易得到优化的并行化方案，还有助于提高优化的并行化方案的可行性和实用性。

12、在一种可能的实现方式中，每个流水线阶段中的gpu阵列用于进行数据并行和/或张量并行处理。这样，利用优化出的并行化方案中的流水线阶段数量、gpu阵列包含的gpu数量、行数和列数能够基于流水线并行、数据和/或张量并行处理这种混合并行处理方式执行推理任务，实现最优推理性能，使得计算资源分配更加合理，显著提高计算效率，从而应对不同的任务需求和硬件条件。

13、在一种可能的实现方式中，所述计算图表示所述大语言模型执行所述推理任务的算子数量、各算子的参数量、各算子的执行顺序；所述构建用于确定并行化方案的目标函数包括：构建所述算子数量、各所述算子的执行顺序、所述gpu的总数，与所述流水线阶段数量和所述gpu阵列包含的gpu数量之间的关系，和/或，构建所述算子数量、各所述算子的参数量、各所述算子的执行顺序、所述gpu的总数，与所述流水线阶段数量和所述gpu阵列包含的gpu数量之间的关系。这样，通过综合考虑算子数量、各算子的参数量、各算子的参数量以及执行顺序，能够构建出各流水线阶段执行相同数量的算子的并行化方案和/或各流水线阶段执行的参数量趋于平衡的并行化方案，有助于充分利用gpu资源，避免资源浪费，提高计算效率，使得能够根据不同的任务需求、硬件条件和优化目标进行调整构建并行化方案的方式，从而实现最佳的性能表现。

14、在一种可能的实现方式中，构建所述算子数量、各所述算子的参数量、各所述算子的执行顺序、所述gpu的总数，与所述流水线阶段数量和所述gpu阵列包含的gpu数量之间的关系，包括：根据所述算子数量和各所述算子的参数量确定出所有算子的参数总量，以及，根据各算子的参数量和各算子从前至后的执行顺序确定出参数数组，所述参数数组包含按执行顺序排列的各算子的参数量；根据参数数组确定出前缀和数组，所述前缀和数组中的每一项是参数数组中对应的一项与之前各项之和，以及，根据所述参数总量和所述流水线阶段数量构建出第一划分阈值；利用所述第一划分阈值对所述前缀和数组进行划分，得到多个流水线阶段，各所述流水线阶段执行一个或多个算子；根据所述gpu的总数和所述多个流水线阶段的流水线阶段数量，确定所述gpu阵列包含的gpu数量。这样，通过综合考虑算子数量、各算子的参数量以及执行顺序，能够确保了每个流水线阶段处理的算子数量和复杂度与其所需的资源相匹配，从而避免了资源瓶颈和浪费，通过将大模型语言执行推理任务的计算过程划分为多个流水线阶段，每个流水线阶段可以独立执行一个或多个算子，这种并行化策略充分利用了gpu的并行计算能力，加快了计算速度。

15、在一种可能的实现方式中，每个流水线阶段中的gpu阵列用于执行一个或多个算子以进行所述数据并行和/或张量并行处理，所述算子包括线性运算单元和注意力运算单元，所述线性运算单元用于进行第一矩阵和第二矩阵的乘积运算，所述第一矩阵与第一维度、第二维度、第三维度相关，所述第二矩阵与所述第三维度、第四维度相关，所述注意力运算单元进行的注意力运算与所述第一维度、所述第二维度、所述第四维度相关，其中，所述第一维度表示所述推理任务的输入数据的批次数量，所述第二维度表示所述输入数据中的序列长度，所述第三维度表示输入通道的数量，第四维度表示输出通道的数量；所述构建用于确定并行化方案的目标函数包括：构建所述自变量与各所述流水线阶段的计算时长的关系，包括：根据所述gpu的总数、所述大语言模型的计算图和所述多个流水线阶段的流水线阶段数量确定出当前流水线阶段中线性运算单元和注意力运算单元各自的数量；至少根据所述第三参数、所述第四参数确定所述线性运算单元的运算用时，其中，所述线性运算单元的运算用时包括利用所述第三参数和所述第四参数对所述第一矩阵和/或所述第二矩阵相关的维度切分后进行乘积运算的运算用时，该运算用时包括乘法用时、数据传输用时、访存数据用时，以及，至少根据所述第三参数和所述第四参数确定所述注意力运算单元的运算用时，所述注意力运算单元的运算用时包括利用所述第三参数和所述第四参数对所述注意力运算的输入矩阵相关的维度进行切分后进行的注意力运算的运算用时；根据所述当前流水线阶段中线性运算单元的数量和所述线性运算单元的运算用时确定出所述当前流水线阶段中所有线性运算单元的运算用时，以及，根据所述当前流水线阶段中注意力运算单元的数量和所述注意力运算单元的运算用时确定出所述当前流水线阶段中所有注意力运算单元的运算用时；根据所述当前流水线阶段中所有线性运算单元的运算用时和所有注意力运算单元的运算用时确定出所述当前流水线阶段的计算时长。这样，将运算所涉及的矩阵先按照gpu阵列的行、列在运算相关的维度上进行切分，再基于切分后的矩阵进行运算，根据利用第三参数和第四参数切分第一矩阵和/或第二矩阵相关的维度后进行的乘积运算确定出线性运算单元的运算用时，并根据利用第三参数和第四参数切分注意力运算相关的维度后进行的注意力运算确定出注意力运算单元的运算用时，从而计算每个流水线阶段的计算时长，其中，运算用时考虑到矩阵乘法、数据传输、访存数据等多个方面，能够更准确地评估每个流水线阶段的性能，有助于发现潜在的性能瓶颈，并进行针对性的优化。

16、在一种可能的实现方式中，所述构建用于确定并行化方案的目标函数还包括：根据所述并行化方案和所述流水线阶段的结果矩阵的维度，利用测量或估算的方式确定出多个通信时长，所述通信时长表示相邻流水线阶段之间的通信用时；根据所述多个通信时长确定出所述流水线阶段之间的通信总时长。这样，通过测量或估算相邻流水线阶段之间的通信用时，可以更精确地了解大语言模型执行推理任务时整个处理过程中的通信开销，有助于更准确地评估整个系统的性能，并为进一步的优化提供依据，了解流水线阶段之间的通信总时长可以帮助设计者发现通信瓶颈，进而对并行化方案进行优化，例如，可以通过调整流水线的结构减少相邻算子之间不必要的通信或采用更高效的通信协议来降低通信开销。

17、在一种可能的实现方式中，利用所述第三参数和所述第四参数切分所述第一矩阵和/或所述第二矩阵相关的维度，包括以下任意一种方式：利用所述第三参数和所述第四参数切分所述第一矩阵相关的多个维度中的同一个维度；利用所述第三参数和所述第四参数切分所述第二矩阵相关的多个维度中的同一个维度；利用所述第三参数和所述第四参数分别切分所述第一矩阵相关的多个维度中的不同维度；利用所述第三参数和所述第四参数分别切分所述第二矩阵相关的多个维度中的不同维度；利用所述第三参数切分所述第一矩阵相关的多个维度中的其中一个维度，并利用所述第四参数切分所述第二矩阵相关的多个维度中的其中一个维度。这样，提供多种矩阵维度切分方式处理矩阵维度，有助于根据实际gpu计算资源情况灵活选择最合适的矩阵维度切分方式，适应不同的应用场景和硬件环境，通过最小化目标函数优化矩阵维度切分方式，能够得到推理耗时最短的矩阵切分方式，可以更加精确地控制计算过程，提高计算结果的准确性。

18、在一种可能的实现方式中，利用所述第三参数和所述第四参数切分所述注意力运算相关的维度，包括：利用所述第三参数和所述第四参数切分所述注意力运算相关的多个维度中的同一个维度；或者，利用所述第三参数和所述第四参数分别切分所述注意力运算相关的多个维度中的不同维度。这样，通过同时处理注意力运算相关的多个维度中的同一个维度，可以减少计算过程中的重复步骤，从而优化计算效率，这种处理方式充分利用了计算资源的并行性，加速了计算过程，通过利用第三参数和第四参数分别处理注意力运算相关的多个维度中的不同维度，可以更加精确地控制每个维度的计算过程，从而提高注意力运算的精度，可以根据具体的计算需求和硬件条件选择最合适的处理方式，以适应不同的应用场景，有助于在有限的硬件资源下获得更好的性能表现。

19、根据本公开的另一方面，提供了一种大语言模型分布式推理装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所处理器被配置为在执行所述存储器存储的指令时，实现上述大语言模型分布式推理方法。

20、根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述大语言模型分布式推理方法。

21、根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

技术特征：

1.一种大语言模型分布式推理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，每个流水线阶段中的gpu阵列用于进行数据并行和/或张量并行处理。

3.根据权利要求1所述的方法，其特征在于，所述计算图表示所述大语言模型执行所述推理任务的算子数量、各算子的参数量、各算子的执行顺序；所述构建用于确定并行化方案的目标函数包括：

4.根据权利要求3所述的方法，其特征在于，构建所述算子数量、各所述算子的参数量、各所述算子的执行顺序、所述gpu的总数，与所述流水线阶段数量和所述gpu阵列包含的gpu数量之间的关系，包括：

5.根据权利要求2所述的方法，其特征在于，每个流水线阶段中的gpu阵列用于执行一个或多个算子以进行所述数据并行和/或张量并行处理，所述算子包括线性运算单元和注意力运算单元，所述线性运算单元用于进行第一矩阵和第二矩阵的乘积运算，所述第一矩阵与第一维度、第二维度、第三维度相关，所述第二矩阵与所述第三维度、第四维度相关，所述注意力运算单元进行的注意力运算与所述第一维度、所述第二维度、所述第四维度相关，其中，所述第一维度表示所述推理任务的输入数据的批次数量，所述第二维度表示所述输入数据中的序列长度，所述第三维度表示输入通道的数量，第四维度表示输出通道的数量；

6.根据权利要求5所述的方法，其特征在于，所述构建用于确定并行化方案的目标函数还包括：

7.根据权利要求5或6所述的方法，其特征在于，利用所述第三参数和所述第四参数切分所述第一矩阵和/或所述第二矩阵相关的维度，包括以下任意一种方式：

8.根据权利要求5或6所述的方法，其特征在于，利用所述第三参数和所述第四参数切分所述注意力运算相关的维度，包括：

9.一种大语言模型分布式推理装置，其特征在于，包括：

10.一种大语言模型分布式推理装置，其特征在于，包括：

11.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。

技术总结
本公开涉及人工智能技术领域，尤其涉及一种大语言模型分布式推理方法及装置、介质，方法包括根据大语言模型的计算图和图形处理器单元GPU的总数构建用于确定并行化方案的目标函数，目标函数表示各流水线阶段的计算时长和流水线阶段之间的通信总时长；基于预设的约束条件并以最小化目标函数为目标确定出优化的并行化方案，优化的并行化方案指示流水线阶段数量、GPU阵列包含的GPU数量、行数和列数；基于优化的并行化方案利用GPU执行大语言模型的推理任务。本公开实施例能够根据计算图和可用GPU总数构建目标函数，并以最小化目标函数为目标进行优化得到推理性能最优的并行化方案，使得计算资源分配更加合理。

技术研发人员：汪玉,洪可
受保护的技术使用者：清华大学
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1145884.html

专利

最新回复(0)