应答信息生成方法、系统、装置、设备、介质及程序产品与流程

专利检索2025-02-14  30


本发明涉及人工智能问答,特别是涉及应答信息生成方法、系统、装置、设备、介质及程序产品。


背景技术:

1、人工智能问答技术是人工智能技术的一个蓬勃发展的分支,其应用涵盖了翻译、文章生成、摘要生成、信息搜索、图像生成、图像解析、代码生成等多个技术领域。

2、大语言模型(large language model,llm)是人工智能问答技术常采用的模型,在解决人工智能问答问题时进行推理计算产生的计算量也很大,不仅对设备性能产生巨大压力,其所生成应答信息的效率也并不乐观,解决人工智能问答技术生成应答信息的设备压力和生成效率问题,是本领域技术人员需要解决的技术问题。


技术实现思路

1、本发明的目的是提供应答信息生成方法、系统、装置、设备、介质及程序产品,用于在保证人工智能问答技术中应答信息生成精度的同时解决应答信息生成效率的问题。

2、为解决上述技术问题,本发明提供一种应答信息生成方法,包括:

3、接收输入的问题信息,所述问题信息包括提示词;

4、利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,并在每次推理计算中进入所述局部过滤注意力层时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,并保存本次推理计算中所述卷积层的所述结尾输入张量;

5、利用各次推理计算生成的标记拼接所述提示词,得到对所述问题信息的应答信息;

6、输出所述应答信息;

7、其中,在第一次推理计算中,获取的所述结尾输入张量为初始化为0的张量,所述卷积层的输入张量对应所述提示词的全部标记;在第二次及此后的推理计算中,所述结尾输入张量为上一次推理计算保存的所述结尾输入张量,所述卷积层的输入张量对应上一次推理计算生成的标记。

8、一方面,当所述语言模型为动态图语言模型时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,包括:

9、获取所述结尾输入张量拼接至第一个所述卷积层的输入张量之前得到所述第一拼接输入张量,将所述第一拼接输入张量输入第一个所述卷积层;

10、保存本次推理计算中所述卷积层的所述结尾输入张量,包括:

11、保存所述第一拼接输入张量中最后两个输入张量作为本次推理计算中保存的所述结尾输入张量。

12、另一方面,当所述语言模型为静态图语言模型时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,包括:

13、获取所述结尾输入张量中的第一结尾输入张量拼接至第一个所述卷积层的输入张量之前得到第二拼接输入张量,将所述第二拼接输入张量输入第一个所述卷积层,得到第一卷积计算结果;

14、获取所述结尾输入张量中的第二结尾输入张量拼接至所述第一卷积计算结果之前得到第三拼接输入张量,将所述第三拼接输入张量输入第二个所述卷积层;

15、保存本次推理计算中所述卷积层的所述结尾输入张量,包括:

16、保存本次推理计算中所述第二拼接输入张量的最后一个输入张量和所述第三拼接输入张量的最后一个输入张量作为本次推理计算中保存的所述结尾输入张量。

17、另一方面,获取结尾输入张量,包括:

18、获取第一索引信息;

19、自所述第一索引信息中读取与所述局部过滤注意力层对应的第一存储地址;

20、自所述第一存储地址读取所述结尾输入张量。

21、另一方面,保存本次推理计算中所述卷积层的所述结尾输入张量,包括:

22、获取第一索引信息;

23、自所述第一索引信息中读取与所述局部过滤注意力层对应的第一存储地址;

24、将本次推理计算中所述卷积层的所述结尾输入张量存入所述第一存储地址。

25、另一方面,当所述语言模型为动态图语言模型时,利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,并在每次推理计算中进入所述局部过滤注意力层时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,并保存本次推理计算中所述卷积层的所述结尾输入张量,包括:

26、在第一次推理计算中,将所述提示词全部输入所述语言模型,在进入所述局部过滤注意力层时,获取初始化为0的所述第一拼接输入张量拼接至第一个所述卷积层的输入张量之前得到所述第一拼接输入张量,将所述第一拼接输入张量输入第一个所述卷积层得到第一卷积计算结果,将所述第一卷积计算结果输入第二个所述卷积层得到第二卷积计算结果,利用所述第二卷积计算结果进行前向传播计算以得到本次推理计算生成的标记,并保存本次推理计算中所述第一拼接输入张量中最后两个输入张量作为本次保存的所述结尾输入张量;

27、在第二次及此后的推理计算中,将上一次推理计算生成的标记输入所述语言模型,在进入所述局部过滤注意力层时,获取上一次推理计算保存的所述结尾输入张量拼接至第一个所述卷积层的输入张量之前得到所述第一拼接输入张量,将所述第一拼接输入张量输入第一个所述卷积层得到所述第一卷积计算结果,将所述第一卷积计算结果输入第二个所述卷积层得到所述第二卷积计算结果,利用所述第二卷积计算结果进行前向传播计算得到本次推理计算生成的标记,并保存本次推理计算中所述第一拼接输入张量中最后两个输入张量作为本次推理计算中保存的所述结尾输入张量。

28、另一方面,当所述语言模型为静态图语言模型时,利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,并在每次推理计算中进入所述局部过滤注意力层时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,并保存本次推理计算中所述卷积层的所述结尾输入张量,包括:

29、在第一次推理计算中,将所述提示词全部输入所述语言模型,在进入所述局部过滤注意力层时,获取初始化为0的第一结尾输入张量拼接至第一个所述卷积层的输入张量之前得到第二拼接输入张量,将所述第二拼接输入张量输入第一个所述卷积层得到第一卷积计算结果,获取初始化为0的第二结尾输入张量拼接至所述第一卷积计算结果之前得到第三拼接输入张量,将所述第三拼接输入张量输入第二个所述卷积层得到第二卷积计算结果,利用所述第二卷积计算结果进行前向传播计算得到本次推理计算生成的标记,并保存本次推理计算中所述第二拼接输入张量的最后一个输入张量作为本次推理计算中的所述第一结尾输入张量,保存本次推理计算中所述第三拼接输入张量的最后一个输入张量作为本次推理计算中的所述第二结尾输入张量;

30、在第二次及此后的推理计算中,将上一次推理计算生成的标记输入所述语言模型,在进入所述局部过滤注意力层时,获取上一次推理计算保存的所述第一结尾输入张量拼接至第一个所述卷积层的输入张量之前得到所述第二拼接输入张量,将所述第二拼接输入张量输入第一个所述卷积层得到所述第一卷积计算结果,获取上一次推理计算保存的所述第二结尾输入张量拼接至所述第一卷积计算结果之前得到所述第三拼接输入张量,将所述第三拼接输入张量输入第二个所述卷积层得到所述第二卷积计算结果,利用所述第二卷积计算结果进行前向传播计算得到本次推理计算生成的标记,并保存本次推理计算中所述第二拼接输入张量的最后一个输入张量作为本次推理计算中的所述第一结尾输入张量,保存本次推理计算中所述第三拼接输入张量的最后一个输入张量作为本次推理计算中的所述第二结尾输入张量。

31、另一方面,在每次推理计算中进入所述语言模型的全局注意力层时,获取历史推理计算得到的键值矩阵,根据所述键值矩阵计算得到键值向量,而后将所述键值向量拼接至所述全局注意力层的输入张量之前得到第四拼接输入张量,将所述第四拼接输入张量输入所述全局注意力层以进行前向传播计算。

32、另一方面,在每次推理计算中进入所述语言模型的全局注意力层时,采用缓存的键值进行前向传播计算。

33、另一方面,采用缓存的键值进行前向传播计算,包括:

34、获取键值向量拼接结果,将所述键值向量拼接结果拼接至所述全局注意力层的输入张量之前得到第五拼接输入张量,将所述第五拼接输入张量输入所述全局注意力层以进行前向传播计算,并将本次推理计算中所述全局注意力层的键值向量更新至所述键值向量拼接结果;

35、其中,在第一次推理计算中,所述键值向量拼接结果为初始化为0的向量,所述全局注意力层的输入张量对应所述提示词的全部标记;在第二次及此后的推理计算中,所述键值向量拼接结果此前各次推理计算对应的键值向量拼接的结果,所述全局注意力层的输入张量对应上一次推理计算生成的标记。

36、另一方面,获取键值向量拼接结果,包括:

37、获取第二索引信息;

38、自所述第二索引信息中读取与所述全局注意力层对应的第二存储地址;

39、自所述第二存储地址读取所述键值向量拼接结果。

40、另一方面,将本次推理计算中所述全局注意力层的键值向量更新至所述键值向量拼接结果,包括:

41、获取第二索引信息;

42、自所述第二索引信息中读取与所述全局注意力层对应的第二存储地址;

43、将本次推理计算中所述全局注意力层的键值向量拼接至所述第二存储地址存储的所述键值向量拼接结果,以实现所述第二存储地址处所述键值向量拼接结果的更新。

44、另一方面,应用于分布式模型推理系统。

45、另一方面,利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,包括:

46、所述分布式模型推理系统采用模型并行计算方式执行推理计算;

47、其中,所述分布式模型推理系统中执行模型并行计算的计算节点均部署有所述局部过滤注意力层。

48、另一方面,利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,包括:

49、所述分布式模型推理系统中的计算节点利用所述语言模型分别基于所述提示词进行预设次数的推理计算;

50、利用各次推理计算生成的标记拼接所述提示词,得到对所述问题信息的应答信息,包括:

51、汇总各所述计算节点在各次推理计算中生成的标记与所述提示词的拼接结果,得到所述应答信息。

52、另一方面,汇总各所述计算节点在各次推理计算中生成的标记与所述提示词的拼接结果,得到所述应答信息,包括:

53、将各所述拼接结果与所述问题信息关联的词库中的词库向量计算相似度,得到各所述拼接结果的相似度计算结果;

54、将相似度计算结果最大的第一数量所述拼接结果拼接得到所述应答信息。

55、另一方面,所述问题信息包括多个提示词;

56、利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,包括:

57、所述分布式模型推理系统中的计算节点利用所述语言模型基于对应的所述提示词进行预设次数的推理计算;

58、利用各次推理计算生成的标记拼接所述提示词,得到对所述问题信息的应答信息,包括:

59、汇总各所述计算节点在各次推理计算中生成的标记与对应的所述提示词的拼接结果,得到所述应答信息。

60、另一方面,汇总各所述计算节点在各次推理计算中生成的标记与对应的所述提示词的拼接结果,得到所述应答信息,包括:

61、将各所述拼接结果与所述问题信息关联的词库中的词库向量计算相似度,得到各所述拼接结果的相似度计算结果;

62、将相似度计算结果最大的第二数量所述拼接结果拼接得到所述应答信息。

63、为解决上述技术问题,本发明还提供一种应答信息生成系统,包括多个计算节点;

64、其中,各所述计算节点均部署有设有局部过滤注意力层的语言模型;所述计算节点用于根据输入的问题信息中包括的提示词进行预设次数的推理计算,并在每次推理计算中进入所述局部过滤注意力层时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,并保存本次推理计算中所述卷积层的所述结尾输入张量;

65、各所述计算节点的各次推理计算生成的标记拼接所述提示词为对所述问题信息的应答信息;

66、其中,在第一次推理计算中,获取的所述结尾输入张量为初始化为0的张量,所述卷积层的输入张量对应所述提示词的全部标记;在第二次及此后的推理计算中,所述结尾输入张量为上一次推理计算保存的所述结尾输入张量,所述卷积层的输入张量对应上一次推理计算生成的标记。

67、为解决上述技术问题,本发明还提供一种应答信息生成装置,包括:

68、接收单元,用于接收输入的问题信息,所述问题信息包括提示词;

69、计算单元,用于利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,并在每次推理计算中进入所述局部过滤注意力层时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,并保存本次推理计算中所述卷积层的所述结尾输入张量;

70、生成单元,用于利用各次推理计算生成的标记拼接所述提示词,得到对所述问题信息的应答信息;

71、输出单元,用于输出所述应答信息;

72、其中,在第一次推理计算中,获取的所述结尾输入张量为初始化为0的张量,所述卷积层的输入张量对应所述提示词的全部标记;在第二次及此后的推理计算中,所述结尾输入张量为上一次推理计算保存的所述结尾输入张量,所述卷积层的输入张量对应上一次推理计算生成的标记。

73、为解决上述技术问题,本发明还提供一种应答信息生成设备,包括:

74、存储器,用于存储计算机程序;

75、处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述应答信息生成方法的步骤。

76、为解决上述技术问题,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述应答信息生成方法的步骤。

77、为解决上述技术问题,本发明还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述任意一项所述应答信息生成方法的步骤。

78、本发明所提供的应答信息生成方法,有益效果在于通过在根据输入的问题信息获取提示词输入语言模型进行推理计算的过程中,在第一次推理计算中,在进入局部过滤注意力层时,获取的结尾输入张量为初始化为0的张量拼接至卷积层的输入张量之前得到第一拼接输入张量再输入卷积层,并保存本次推理计算中卷积层的结尾输入张量;在第二次及此后的推理计算中则获取上一次推理计算保存的结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量再输入卷积层,并保存本次推理计算中卷积层的结尾输入张量,由此在利用局部过滤注意力层增强模型的自然语言表达能力的基础上,根据局部过滤注意力层增强模型的输入需求使得从每次推理计算只需输入上一次推理计算生成的标记即可,可以有效减少计算量,提升模型推理效率,进而提高了应答信息生成的效率,同时减少了对计算设备的存储资源和计算资源的需求,降低了计算设备完成人工智能问答任务的压力。

79、本发明还提供一种应答信息生成系统、装置、设备、计算机可读存储介质及计算机程序产品,具有上述有益效果,在此不再赘述。


技术特征:

1.一种应答信息生成方法,其特征在于,包括:

2.根据权利要求1所述的应答信息生成方法,其特征在于,当所述语言模型为动态图语言模型时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,包括:

3.根据权利要求1所述的应答信息生成方法,其特征在于,当所述语言模型为静态图语言模型时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,包括:

4.根据权利要求1所述的应答信息生成方法,其特征在于,获取结尾输入张量,包括:

5.根据权利要求1所述的应答信息生成方法,其特征在于,保存本次推理计算中所述卷积层的所述结尾输入张量,包括:

6.根据权利要求1所述的应答信息生成方法,其特征在于,当所述语言模型为动态图语言模型时,利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,并在每次推理计算中进入所述局部过滤注意力层时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,并保存本次推理计算中所述卷积层的所述结尾输入张量,包括:

7.根据权利要求1所述的应答信息生成方法,其特征在于,当所述语言模型为静态图语言模型时,利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,并在每次推理计算中进入所述局部过滤注意力层时,获取结尾输入张量拼接至卷积层的输入张量之前得到第一拼接输入张量,将所述第一拼接输入张量输入所述卷积层,并保存本次推理计算中所述卷积层的所述结尾输入张量,包括:

8.根据权利要求1所述的应答信息生成方法,其特征在于,在每次推理计算中进入所述语言模型的全局注意力层时,获取历史推理计算得到的键值矩阵,根据所述键值矩阵计算得到键值向量,而后将所述键值向量拼接至所述全局注意力层的输入张量之前得到第四拼接输入张量,将所述第四拼接输入张量输入所述全局注意力层以进行前向传播计算。

9.根据权利要求1所述的应答信息生成方法,其特征在于,在每次推理计算中进入所述语言模型的全局注意力层时,采用缓存的键值进行前向传播计算。

10.根据权利要求9所述的应答信息生成方法,其特征在于,采用缓存的键值进行前向传播计算,包括:

11.根据权利要求10所述的应答信息生成方法,其特征在于,获取键值向量拼接结果,包括:

12.根据权利要求10所述的应答信息生成方法,其特征在于,将本次推理计算中所述全局注意力层的键值向量更新至所述键值向量拼接结果,包括:

13.根据权利要求1所述的应答信息生成方法,其特征在于,应用于分布式模型推理系统。

14.根据权利要求13所述的应答信息生成方法,其特征在于,利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,包括:

15.根据权利要求13所述的应答信息生成方法,其特征在于,利用设有局部过滤注意力层的语言模型对所述提示词进行预设次数的推理计算,包括:

16.根据权利要求15所述的应答信息生成方法,其特征在于,汇总各所述计算节点在各次推理计算中生成的标记与所述提示词的拼接结果,得到所述应答信息,包括:

17.根据权利要求13所述的应答信息生成方法,其特征在于,所述问题信息包括多个提示词;

18.根据权利要求17所述的应答信息生成方法,其特征在于,汇总各所述计算节点在各次推理计算中生成的标记与对应的所述提示词的拼接结果,得到所述应答信息,包括:

19.一种应答信息生成系统,其特征在于,包括多个计算节点;

20.一种应答信息生成装置,其特征在于,包括:

21.一种应答信息生成设备,其特征在于,包括:

22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至18任意一项所述应答信息生成方法的步骤。

23.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现如权利要求1至18任意一项所述应答信息生成方法的步骤。


技术总结
本发明涉及人工智能问答技术领域,具体公开了应答信息生成方法、系统、装置、设备、介质及程序产品,在通过根据输入的问题信息获取提示词输入语言模型进行推理计算的过程中,在利用局部过滤注意力层增强模型的自然语言表达能力的基础上,在每次推理计算中进入局部过滤注意力层时,获取上一次推理计算保存的结尾输入张量拼接至卷积层的输入张量之前,并保存本次推理计算卷积层的结尾输入张量,使得从每次推理计算只需输入上一次推理计算生成的标记即可,可以有效减少计算量,提升模型推理效率,进而提高了应答信息生成的效率,同时减少了对计算设备的存储资源和计算资源的需求,降低了计算设备完成人工智能问答任务的压力。

技术研发人员:赵旭东,王申领,罗建刚,毛峻雄,吴韶华
受保护的技术使用者:浪潮电子信息产业股份有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1150026.html

最新回复(0)