智算中心网络架构的仿真寻优方法、装置、设备及介质

专利检索2026-06-16  7


本发明涉及电数字数据处理,特别涉及一种智算中心网络架构的仿真寻优方法、装置、设备及介质。


背景技术:

1、近年来,随着chat gpt(chat generative pre-trained transformer,聊天生成预训练转换器)等大语言模型的快速发展,智算中心成为了承载大模型训练的关键算力基础设施。智算中心是以gpu(graphic processing unit,图形处理器)、ai(artificialintelligence,人工智能)加速卡等智能算力为核心、集约化建设的新型数据中心,为人工智能应用提供所需的算力服务、数据服务和网络服务。智算中心网络为大规模智能算力提供高速互联,其架构、协议等参数对ai应用(如大模型训练、推理)性能具有重要影响,当前,谷歌和亚马逊等公司正在构建包含数万台服务器的智算中心,亟需一套从计算到网络进行一体化仿真的技术与装置,支持大规模智算中心网络的仿真,以通过仿真寻找最优的智算中心网络架构。

2、相关技术中,如最先进的仿真器omnet++(objective modular network testbedin c++,基于c++语言的模块化网络模拟框架),被广泛应用于网络领域的建模、仿真和分析工作中,被认为是一种非常强大的工具。其在8台机器上仿真一个大规模数据中心网络(data center networks,简称dcns)需要超过9天的时间。

3、然而,面对规模达到数万台服务器的智算中心,现有网络仿真器的仿真性能已无法满足需求,由于现有仿真器不具备可扩展性,无法高效支持大规模智算中心网络的仿真。


技术实现思路

1、本发明提供一种智算中心网络架构的仿真寻优方法,以解决现有网络仿真器不具备可扩展性,无法支持大规模智算中心网络的仿真的问题,从而提升仿真大规模智算中心网络的效率和准确性。

2、为达到上述目的,本发明第一方面实施例提出一种智算中心网络架构的仿真寻优方法,包括以下步骤:

3、获取待训练大语言模型的训练配置信息;

4、基于所述训练配置信息和预设的离散事件仿真策略,利用预设仿真器对所述待训练大语言模型进行训练仿真,得到仿真结果,其中,所述预设仿真器利用预设ecs(entitycomponent system,实体组件系统)框架得到;

5、根据所述仿真结果调整智算中心网络架构,并得到最优的智算中心网络架构。

6、根据本发明的一个实施例,在基于所述训练配置信息和所述预设的离散事件仿真策略,利用所述预设仿真器对所述待训练大语言模型进行训练仿真之前,还包括:

7、分别对目标大语言模型的训练过程中的流量生成过程、集合通信过程、流量发送过程、拥塞控制过程、流量转发过程和流量控制过程进行建模和仿真,得到流量建模模块、集合通信仿真模块、传输协议仿真模块和底层网络仿真模块;

8、基于所述预设ecs框架,组合所述流量建模模块、所述集合通信仿真模块、所述传输协议仿真模块和所述底层网络仿真模块,得到预设仿真器。

9、根据本发明的一个实施例,所述对目标大语言模型的训练过程中的流量生成过程进行建模和仿真,包括:

10、获取所述目标大语言模型的训练过程的流量数据,基于所述流量数据生成训练集;

11、构建初始深度学习生成式模型,基于预设损失函数和预设优化算法,利用所述训练集对所述初始深度学习生成式模型进行训练,得到最终深度学习生成式模型;

12、获取所述目标大语言模型的网络结构信息、参数规模和通信模式,将所述网络结构信息、所述参数规模和所述通信模式输入至所述最终深度学习生成式模型,输出得到预测流量模式,其中,所述预测流量模式包括流量的大小和间隔。

13、根据本发明的一个实施例,所述对目标大语言模型的训练过程中的集合通信过程进行建模和仿真,包括:

14、将集合通信过程分解为至少一个通信事件,基于所述至少一个通信事件建立离散通信事件模型;

15、利用预设的事件驱动策略,根据第一预设触发条件触发所述至少一个通信事件执行相应的通信操作。

16、根据本发明的一个实施例,所述对目标大语言模型的训练过程中的流量发送过程和拥塞控制过程进行建模和仿真,包括:

17、利用所述预设ecs框架构建第一网络节点实体和第一通信组件,其中,每个第一网络节点实体包括至少一个第一通信组件;

18、基于所述预设的事件驱动策略,将每个网络传输操作定义为相应的至少一个传输事件,并基于预设的事件调度器,对所述至少一个传输事件的执行顺序和时序关系进行管理;

19、根据所述第一网络节点实体和所述第一通信组件,判断所述至少一个传输事件的触发条件是否满足第二预设触发条件,并在所述至少一个传输事件的触发条件满足所述第二预设触发条件时,触发所述至少一个传输事件执行相应的传输操作。

20、根据本发明的一个实施例,所述对目标大语言模型的训练过程中的流量转发过程和流量控制过程进行建模和仿真,包括:

21、利用所述预设ecs框架构建第二网络节点实体和第二通信组件,其中,每个第二网络节点实体包括至少一个第二通信组件;

22、基于所述预设的事件驱动策略,将每个网络传输操作定义为相应的至少一个传输事件,并基于预设的事件调度器,对所述至少一个传输事件的执行顺序和时序关系进行管理;

23、根据所述第二网络节点实体和所述第二通信组件,判断所述至少一个传输事件的触发条件是否满足第三预设触发条件,并在所述至少一个传输事件的触发条件满足所述第三预设触发条件时,触发所述至少一个传输事件执行相应的传输操作。

24、根据本发明实施例提出的智算中心网络架构的仿真寻优方法,通过获取待训练大语言模型的训练配置信息,可以基于训练配置信息和预设的离散事件仿真策略,利用预设仿真器对待训练大语言模型进行训练仿真,从而得到仿真结果,其中,预设仿真器利用预设ecs框架得到,并根据仿真结果调整智算中心网络架构,以得到最优的智算中心网络架构。由此,通过采用实体组件系统框架设计智算中心网络仿真器,能够实现大语言模型训练的完整仿真过程,以寻找最优的智算中心网络架构,解决了现有网络仿真器不具备可扩展性,无法支持大规模智算中心网络的仿真的问题,从而提升仿真大规模智算中心网络的效率和准确性。

25、为达到上述目的,本发明第二方面实施例提出一种智算中心网络架构的仿真寻优装置,包括:

26、获取模块,用于获取待训练大语言模型的训练配置信息;

27、训练模块,用于基于所述训练配置信息和预设的离散事件仿真策略,利用预设仿真器对所述待训练大语言模型进行训练仿真,得到仿真结果,其中,所述预设仿真器利用预设实体组件系统ecs框架得到;

28、处理模块,用于根据所述仿真结果调整智算中心网络架构,并得到最优的智算中心网络架构。

29、根据本发明的一个实施例,在基于所述训练配置信息和所述预设的离散事件仿真策略,利用所述预设仿真器对所述待训练大语言模型进行训练仿真之前,所述训练模块,还包括:

30、建模仿真单元,用于分别对目标大语言模型的训练过程中的流量生成过程、集合通信过程、流量发送过程、拥塞控制过程、流量转发过程和流量控制过程进行建模和仿真,得到流量建模模块、集合通信仿真模块、传输协议仿真模块和底层网络仿真模块;

31、组合单元,用于基于所述预设ecs框架,组合所述流量建模模块、所述集合通信仿真模块、所述传输协议仿真模块和所述底层网络仿真模块,得到预设仿真器。

32、根据本发明的一个实施例,所述建模仿真单元,具体用于:

33、获取所述目标大语言模型的训练过程的流量数据,基于所述流量数据生成训练集;

34、构建初始深度学习生成式模型,基于预设损失函数和预设优化算法,利用所述训练集对所述初始深度学习生成式模型进行训练,得到最终深度学习生成式模型;

35、获取所述目标大语言模型的网络结构信息、参数规模和通信模式,将所述网络结构信息、所述参数规模和所述通信模式输入至所述最终深度学习生成式模型,输出得到预测流量模式,其中,所述预测流量模式包括流量的大小和间隔。

36、根据本发明的一个实施例,所述建模仿真单元,具体用于:

37、将集合通信过程分解为至少一个通信事件,基于所述至少一个通信事件建立离散通信事件模型;

38、利用预设的事件驱动策略,根据第一预设触发条件触发所述至少一个通信事件执行相应的通信操作。

39、根据本发明的一个实施例,所述建模仿真单元,具体用于:

40、利用所述预设ecs框架构建第一网络节点实体和第一通信组件,其中,每个第一网络节点实体包括至少一个第一通信组件;

41、基于所述预设的事件驱动策略,将每个网络传输操作定义为相应的至少一个传输事件,并基于预设的事件调度器,对所述至少一个传输事件的执行顺序和时序关系进行管理;

42、根据所述第一网络节点实体和所述第一通信组件,判断所述至少一个传输事件的触发条件是否满足第二预设触发条件,并在所述至少一个传输事件的触发条件满足所述第二预设触发条件时,触发所述至少一个传输事件执行相应的传输操作。

43、根据本发明的一个实施例,所述建模仿真单元,具体用于:

44、利用所述预设ecs框架构建第二网络节点实体和第二通信组件,其中,每个第二网络节点实体包括至少一个第二通信组件;

45、基于所述预设的事件驱动策略,将每个网络传输操作定义为相应的至少一个传输事件,并基于预设的事件调度器,对所述至少一个传输事件的执行顺序和时序关系进行管理;

46、根据所述第二网络节点实体和所述第二通信组件,判断所述至少一个传输事件的触发条件是否满足第三预设触发条件,并在所述至少一个传输事件的触发条件满足所述第三预设触发条件时,触发所述至少一个传输事件执行相应的传输操作。

47、根据本发明实施例提出的智算中心网络架构的仿真寻优装置,通过获取待训练大语言模型的训练配置信息,可以基于训练配置信息和预设的离散事件仿真策略,利用预设仿真器对待训练大语言模型进行训练仿真,从而得到仿真结果,其中,预设仿真器利用预设ecs框架得到,并根据仿真结果调整智算中心网络架构,以得到最优的智算中心网络架构。由此,通过采用实体组件系统框架设计智算中心网络仿真器,能够实现大语言模型训练的完整仿真过程,以寻找最优的智算中心网络架构,解决了现有网络仿真器不具备可扩展性,无法支持大规模智算中心网络的仿真的问题,从而提升仿真大规模智算中心网络的效率和准确性。

48、为达到上述目的,本发明第三方面实施例提出一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的智算中心网络架构的仿真寻优方法。

49、为达到上述目的,本发明第四方面实施例提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的智算中心网络架构的仿真寻优方法。

50、为达到上述目的,本发明第五方面实施例提出一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,以用于实现如上述实施例所述的智算中心网络架构的仿真寻优方法。

51、本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。


技术特征:

1.一种智算中心网络架构的仿真寻优方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的智算中心网络架构的仿真寻优方法,其特征在于,在基于所述训练配置信息和所述预设的离散事件仿真策略,利用所述预设仿真器对所述待训练大语言模型进行训练仿真之前,还包括:

3.根据权利要求2所述的智算中心网络架构的仿真寻优方法,其特征在于,所述对目标大语言模型的训练过程中的流量生成过程进行建模和仿真,包括:

4.根据权利要求3所述的智算中心网络架构的仿真寻优方法,其特征在于,所述对目标大语言模型的训练过程中的集合通信过程进行建模和仿真,包括:

5.根据权利要求4所述的智算中心网络架构的仿真寻优方法,其特征在于,所述对目标大语言模型的训练过程中的流量发送过程和拥塞控制过程进行建模和仿真,包括:

6.根据权利要求5所述的智算中心网络架构的仿真寻优方法,其特征在于,所述对目标大语言模型的训练过程中的流量转发过程和流量控制过程进行建模和仿真,包括:

7.一种智算中心网络架构的仿真寻优装置,其特征在于,包括:

8.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-6任一项所述的智算中心网络架构的仿真寻优方法。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-6任一项所述的智算中心网络架构的仿真寻优方法。

10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时,用于实现如权利要求1-6任一项所述的智算中心网络架构的仿真寻优方法。


技术总结
本发明涉及电数字数据处理技术领域,特别涉及一种智算中心网络架构的仿真寻优方法、装置、设备及介质。方法包括:获取待训练大语言模型的训练配置信息;基于训练配置信息和预设的离散事件仿真策略,利用预设仿真器对待训练大语言模型进行训练仿真,得到仿真结果,其中,预设仿真器利用预设ECS框架得到;根据仿真结果调整智算中心网络架构,并得到最优的智算中心网络架构。由此,通过采用实体组件系统框架设计智算中心网络仿真器,能够实现大语言模型训练的完整仿真过程,以寻找最优的智算中心网络架构,解决了现有网络仿真器不具备可扩展性,无法支持大规模智算中心网络的仿真的问题,从而提升仿真大规模智算中心网络的效率和准确性。

技术研发人员:李丹,高凯辉,汪锡峥,谢洪涛
受保护的技术使用者:清华大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1163968.html

最新回复(0)