经由程序简化的训练数据增强的制作方法

专利检索2026-05-10 1

背景技术：

1、本公开涉及增强一个或多个人工智能(“ai”)模型的训练数据，更具体地涉及通过简化源代码样本来增强一个或多个ai模型训练数据集。

2、ai模型被用于各种源代码理解任务，诸如：缺陷检测、代码概括、代码完成、漏洞修复、功能和变量命名、代码推荐、软件开发工作流等。然而，训练用于源代码理解任务的ai模型可能面临各种可靠性问题，包括：数据复制偏差、标记质量、低鲁棒性和/或概括、模型过度拟合(例如，由于数据集大小限制)、类别不平衡(例如，由于属于不同类别的样本计数之间的失配)等。例如，ai模型的性能质量可能受该模型是否学习源代码的任务相关方面的影响。

3、例如，经传统训练的ai模型可使用给定任务的非代表性信号，来学习缺陷源代码样本与健康源代码样本之间的分隔符，诸如代码样本之间的未预期的相关性。由此，ai模型被训练成学习数据集细微差别，这在应用于理论上下文之外的设置时可能导致性能失败。

技术实现思路

1、以下给出了概述以提供对本发明的一个或多个实施例的基本理解。本概述不旨在标识关键或重要元素，或描绘特定实施例的任何范围或权利要求的任何范围。其唯一目的是以简化形式呈现概念，作为稍后呈现的更详细描述的序言。在本文描述的一个或多个实施例中，描述了可以生成用于训练一个或多个人工智能模型的一个或多个增强训练数据集的系统、计算机实现的方法、装置和/或计算机程序产品。

2、根据一个实施例，提供了一种系统。该系统可以包括可以存储计算机可执行组件的存储器。该系统还可以包括处理器，该处理器可操作地耦合到存储器，并且可以执行存储在存储器中的计算机可执行组件。计算机可执行组件可包括训练增强组件，它通过从训练数据集内所包括的源代码样本中提取简化源代码样本来生成用于训练人工智能模型的增强训练数据集。这种系统的优点可以是生成用于训练人工智能模型的附加训练样本。

3、在一些示例中，该系统还可包括可验证简化源代码样本的正确性的验证组件。此外，该系统可包括可经由任务特定的标记方案来标记经简化的源代码样本的标记器组件。这种系统的优点可以是对新生成的训练样本实现质量控制。

4、根据另一实施例，提供了一种系统。该系统可以包括可以存储计算机可执行组件的存储器。该系统还可以包括处理器，该处理器可操作地耦合到存储器，并且可以执行存储在存储器中的计算机可执行组件。计算机可执行组件可包括模型训练组件，该模型训练组件可在增强训练数据集上训练人工智能模型，该增强训练数据集包括来自训练数据集的源代码样本的简化源代码样本。

5、在一些示例中，该系统可包括简化组件，该简化组件可执行简化算法以通过缩减源代码样本来生成简化源代码样本。这种系统的优点可以是生成具有包括较少噪声数据的潜力的新训练样本。

6、根据实施例，提供了一种计算机实现的方法。该计算机实现的方法可包括由操作地耦合到处理器的系统生成增强训练数据集，以便通过从训练数据集内所包括的源代码样本中提取简化源代码样本来训练人工智能模型。这种计算机实现的方法的优点可以是通过使人工智能模型能够关注于训练样本的任务相关方面来提高该模型的性能。

7、在一些示例中，计算机实现的方法可包括由系统经由源代码样本的一系列迭代缩减从源代码样本生成多个简化源代码样本。简化源代码样本可以来自多个简化源代码样本。这种计算机实现的方法的优点可以是从单个父源代码样本生成多个简化的源代码样本。

8、根据另一实施例，提供了一种计算机实现的方法。该计算机实现的方法可包括由操作地耦合到处理器的系统在增强训练数据集上训练人工智能模型，该增强训练数据集包括来自训练数据集的源代码样本的简化源代码样本。

9、在一些示例中，计算机实现的方法可包括由系统验证简化源代码样本的正确性。此外，计算机实现的方法可包括由系统经由基于任务的标记方案来标记简化源代码样本。此外，该计算机实现的方法可包括在验证和标记之后由该系统将该简化源代码样本添加到该训练数据集。这种计算机实现的方法的优点可以是在包括原始源代码样本和简化源代码样本两者的增强训练数据集上训练人工智能系统。

10、根据一个实施例，提供了一种用于训练人工智能模型的计算机程序产品。计算机程序产品可以包括具有程序指令的计算机可读存储介质。程序指令可由处理器执行以使处理器通过从包括在训练数据集内的源代码样本提取简化源代码样本来生成用于训练人工智能模型的增强训练数据集。这种计算机程序产品的优点可以是在训练人工智能模型期间减少过度拟合和/或类别不平衡。

11、在一些示例中，程序指令还可使处理器通过处理器经由源代码样本的一系列迭代缩减从源代码样本生成多个简化源代码样本。简化源代码样本可以来自多个简化源代码样本。此外，该一系列迭代缩减的迭代可生成新的简化源代码样本，该新的简化源代码样本可比由该一系列迭代缩减生成的先前的简化源代码样本更简单。此外，程序指令可以使处理器通过处理器使用delta调试算法来执行一系列迭代缩减。这种计算机程序产品的优点可以是通过更有效的源代码词元缩减方案来更可缩放地生成简化的源代码样本。

技术特征：

1.一种系统，包括：

2.根据权利要求1所述的系统，还包括：

3.根据权利要求1所述的系统，还包括：

4.根据权利要求3所述的系统，还包括：

5.根据权利要求4所述的系统，还包括：

6.一种系统，包括：

7.根据权利要求6所述的系统，还包括：

8.如权利要求7所述的系统，其中，所述简化组件经由一系列迭代缩减从所述源代码样本生成多个简化源代码样本。

9.根据权利要求6所述的系统，还包括：

10.一种计算机实现的方法，包括：

11.根据权利要求10所述的计算机实现的方法，还包括：

12.根据权利要求11所述的计算机实现的方法，还包括：

13.如权利要求11所述的计算机实现的方法，其中，所述一系列迭代缩减的迭代生成比由所述一系列迭代缩减生成的先前的简化源代码样本更简单的新的简化源代码样本。

14.根据权利要求10所述的计算机实现的方法，还包括：

15.根据权利要求14所述的计算机实现的方法，还包括：

16.一种计算机实现的方法，包括：

17.根据权利要求16所述的计算机实现的方法，还包括：

18.根据权利要求16所述的计算机实现的方法，还包括：

19.根据权利要求16所述的计算机实现的方法，还包括：

20.一种用于训练人工智能模型的计算机程序产品，所述计算机程序产品包括具有程序指令的计算机可读存储介质，所述程序指令能够由处理器执行以使所述处理器：

21.根据权利要求20所述的计算机程序产品，其中所述程序指令进一步使所述处理器：

22.如权利要求21所述的计算机程序产品，其中，所述一系列迭代缩减的迭代生成比由所述一系列迭代缩减生成的先前的简化源代码样本更简单的新的简化源代码样本。

23.根据权利要求22所述的计算机程序产品，其中所述程序指令使所述处理器：

24.根据权利要求20所述的计算机程序产品，其中所述程序指令进一步使所述处理器：

25.根据权利要求23所述的计算机程序产品，其中所述程序指令进一步使所述处理器：

技术总结
提供了关于增强用于训练一个或多个AI模型的一个或多个训练数据集的技术。例如，本文描述的一个或多个实施例可以包括一种系统，该系统可以包括可以存储计算机可执行组件的存储器。该系统还可以包括处理器，该处理器可操作地耦合到存储器，并且可以执行存储在存储器中的计算机可执行组件。计算机可执行组件可包括训练增强组件，该训练增强组件可通过从训练数据集内所包括的源代码样本中提取简化源代码样本来生成用于训练人工智能模型的增强训练数据集。

技术研发人员：S·苏内贾,庄宇凡,郑云辉,A·莫拉里,J·拉雷多
受保护的技术使用者：国际商业机器公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1162985.html

专利

最新回复(0)