一种多模态模型优化检索训练方法及存储介质与流程

专利检索2025-08-05 33

本发明涉及多模态识别，特别涉及一种多模态模型优化检索训练方法及存储介质。

背景技术：

1、多模态模型是一类可以同时处理和整合多种（至少两种）感知数据的ai架构模型，所述感知数据如文本、图像、音频或电处理信号等。其常见形式包括但不限于clip模型、vilbert模型、lxmert模型、vl-bert模型和uniter模型等。

2、这类模型可以打通物理世界和数字世界的障壁，用最基础的感知世界能力直接生成操作，实现与物理世界最自然的交互。随着计算机技术的不断进步和应用场景的扩大，多模态模型的需求也在不断增加。同时随着人工智能的不断发展，越来越多且不同种类的多模态模型被应用于人机交互等领域。

3、例如在虚拟现实（vr）和增强现实（ar）应用领域中所使用的情绪多模态模型（例如ao-bert模型，一个基于transformer编码器结构和多模态掩码语言的多模态模型），这种类型的模型可以基于用户情绪信息的反馈，创建更加真实和沉浸式的用户体验。通过实时捕捉用户的情绪反应，模型系统可以动态调整虚拟环境或增强现实元素，以更好地适应用户的情绪状态和需求。同样的，这类情绪多模态模型也可以应用于车辆导航、智慧医疗、大数据、智能家居等领域。

4、现有的多模态模型已经取得了一定的成果，但在执行训练多模态、大规模数据训练集时，传统多模态模型的样本选择（检索）方法往往面临着一些问题：

5、（1）在传统的多模态模型训练下，存在很多相似数据的重复训练，往往难以有效地检索到对模型更有用的样本；

6、（2）传统的主动学习样本选择方法往往面临着低效的数据扫描和数据位置调整问题；

7、即所要解决的技术问题为：在面对大规模数据训练集时，如何制定多模态模型优化检索训练方法，解决位置调整问题和重复训练问题。

8、为此，本发明提出一种多模态模型优化检索训练方法及存储介质。

技术实现思路

1、有鉴于此，本发明实施例希望提供一种多模态模型优化检索训练方法及存储介质；本发明的技术方案是这样实现的：

2、第一方面，一种多模态模型优化检索训练方法：

3、（一）概述：

4、本发明旨在制定多模态模型优化检索训练方法，解决位置调整问题和重复训练问题。本发明在传统dbscan算法（density-based spatial clustering of applicationswith noise，基于密度的聚类算法）的基础上，为多模态模型的特性进行了进一步的扩展及修改，使之利用了dbscan算法的优势的前提下，进一步能够适应多模态模型训练集的时空特性。期间还通过对训练集的信息量及其贡献度进行度量，通过过滤掉价值较低且容易重复训练的样本，最终实现多模态模型对训练集进行智能化检索及优化训练，即相较于原始训练集信息而言，能够更快地进行样本选择和位置调整操作。

5、（二）明确预期达到的技术效果：

6、首先对于给定训练多模态数据集d：

7、；

8、其中，是第i个输入样本x及其对应的标签y，n是i的最大值。

9、样本为音频数据、文本数据或视频数据；即：练集中包括n个样本，其中任意一样本代表一训练数据（数据点），对于该多模态数据集d，引入如下解决目标问题：

10、2.1位置调整问题：

11、对于给定的样本选择方法m(d)，其中m(·)是调整函数，用于选择样本并调整数据位置；该项的目标是最小化样本选择和最小化数据位置调整的时间复杂度；定义优化目标为最小化复杂度（min）:

12、；

13、其中time(m(d))表示样本选择方法m(d)的时间复杂度；因此该项需要明确一个高效的样本选择策略以降低时间复杂度，并保持样本选择的准确性。

14、2.2重复训练问题：

15、引入一个信息量度量函数来衡量样本的信息量，以及一个模型的贡献度度量函数来衡量样本对模型的贡献度；定义优化目标为最大化信息量（优先级）和贡献度（max）：

16、；

17、因此，需要制定一个和所需的且准确的样本衡量策略。

18、（三）技术方案：

19、3.1 步骤s1，样本选择策略：

20、本技术方案选择dbscan算法作为样本选择策略，传统的dbscan算法将簇定义为密度相连的点的最大集合，能够把具有足够的区域划分为簇，并可在噪声的中发现任意形状的。

21、但基于上述2.1的内容，因传统dbscan算法并没有直接考虑时域和空域的特性，所以需要对其进行一些修改或扩展，以便更好地适应具有时域和空域特性的数据（样本）。

22、3.1.1 步骤s100，定义时空邻域：

23、对于时空数据，比如连续的视频帧或音频信号，那么可以利用这种时域连续性来减少需要处理的样本数量。

24、定义一个时空邻域（包括空间邻域和时间邻域），即一个时空距离度量；该邻域同时考虑空间接近度和时间接近度，分别代表样本的时域特性和空域特性。它是空间距离和时间距离的加权和。使用这个时空距离度量来确定每个样本（数据点）的ε-邻域。

25、2.1.1.1 步骤s1000，对空间距离和时间距离执行结合：

26、对于任意两个数据点p和q，它们在空间中的坐标分别为和；

27、在三维空间中，对于视频帧可以是二维的(x, y)，在时间上的坐标分别为和。定义时空距离度量如下：

28、；

29、其中，是点p和q之间的空间距离，可以使用欧几里得距离来计算：

30、；

31、对于二维空间（例如视频帧），则简化为：

32、；

33、其中，是点p和q之间的时间距离，使用时间差拟定：

34、；

35、其中，α是一个权重因子，用于平衡空间距离和时间距离的重要性。如果时间连续性非常重要，α可以设置得相对较大；如果空间接近度更重要，α可以设置得相对较小。

36、2.1.1.1 步骤s1001，捕捉并确定邻域范围：

37、一旦定义了时空距离度量，就可以使用这个度量来确定每个样本（数据点）的ε-邻域。对于给定的数据点p和距离阈值ε，点q属于p的ε-邻域当且仅当（iff）：

38、；

39、这样定义的时空邻域能够同时考虑数据点在空间和时间上的接近度，从而更准确地捕捉时空数据的特性。

40、其中，ε-邻域是dbscan算法中的核心概念，它定义了一个以给定样本为中心、半径为ε的超球体范围。如果一个样本点在另一个样本点的ε-邻域内，那么这两个样本点被认为是相互“密度可达”的（即dbscan算法的“density-reachable”概念）。通过“密度可达”，dbscan算法能够识别出具有足够密度的区域，并将它们划分为不同的聚类。

41、使用定义的时空邻域来确定每个样本的邻域范围。这样可以只考虑与当前样本在时空上相近的样本，而不是整个数据集。对于每个样本，选择密度最高的样本或距离其他样本最近的样本作为代表。通过这种方式可以减少需要处理的样本数量，从而降低样本选择的时间复杂度。

42、3.1.2 步骤s101，执行多度量dbscan算法：

43、本方案提出的扩展dbscan算法以支持多个距离度量，因此被称为多度量dbscan算法。对于每个样本（的数据点）需要同时考虑其空间邻域和时间邻域，并要求点在两个度量下都满足密度要求才能被视为核心点。因此需要额外的参数来平衡空间和时间度量的重要性，并且需要相应的算法来处理多个度量的组合。

44、3.1.2.1 步骤s1010，组合距离函数：

45、该函数分别结合空间邻域和时间邻域的空间距离和时间距离，并使用权重来调整它们的影响。当目前已经明确了空间距离度量和时间距离度量后，可以定义组合距离度量如下：

46、；

47、其中，和分别是空间距离和时间距离的权重，它们之和为1；是空间距离度量，代表所述空间距离；是时间距离度量，代表所述时间距离。

48、3.1.2.2 步骤s1011，聚类分析：

49、得到组合距离度量后，利用多度量dbscan算法对数据集进行聚类并生成若干组簇。通过同时考虑空间和时间度量，可以得到更加紧凑和有意义的聚类结果。在聚类后，可以选择每个簇的中心点或代表性样本作为训练数据。这样可以进一步减少需要训练的样本数量，并保持样本的多样性。其具体的包括步骤s10110~s10113。

50、步骤s10110，聚类：首先使用多度量dbscan算法对数据集进行聚类。在这个过程中，算法会基于组合距离度量来确定哪些样本属于同一个簇。多度量dbscan算法会同时考虑空间距离和时间距离，并要求点在两个度量下都满足密度要求才能被视为核心点；其判断是否满足“密度要求”的具体的步骤包括：

51、p1、选择两个距离度量和，分别代表空间距离和时间距离，以及两个相应的邻域半径和，以及最小点数minpts。

52、p2、对于数据集中的任意两点p和q，计算它们的组合距离。

53、p3、确定邻域：对于数据集中的每个点p，找到其邻域内的所有点。

54、p4、标记核心点：如果点p的邻域内至少包含minpts个点，则标记p为核心点。

55、p5、扩展簇：从任意一个未访问过的核心点开始，创建一个新的簇。然后，递归地查找该核心点的邻域内的所有点，并将它们加入到同一个簇中。如果邻域内的点也是核心点，则继续递归地扩展该簇。

56、p6、重复p5：直到所有的核心点都被访问过，并且它们的簇被完全确定。

57、p7、处理噪声点：将不属于任何簇的点标记为噪声点。

58、步骤s10111，确定中心点：对于每个形成的簇，可以选择中心点ck作为代表性样本。计算簇内所有点的平均值以得到中心点ck，在空间和时间维度上可选为加权平均：

59、；

60、其中，表示第k个簇（的点集），是簇中的点数，是簇中的点。如果数据点在空间和时间上都有维度，这个平均是对每个维度分别计算的。

61、步骤s10112（可选步骤），选择代表性样本：除了中心点，还可以选择其他方法来确定代表性样本。其中可选择离中心点最近的点，或者根据密度评估标准来选择最具代表性的点。

62、步骤s10113（如不执行上述步骤s10112，该步骤视为s10112），优化训练集：一旦确定了每个簇的代表性样本，就可以使用这些样本来构成减少后的训练集。设有原始训练集：

63、；

64、其中n是样本x（数据点）的总数。经过多度量dbscan聚类后可得到k个簇，记作：

65、；

66、对于每个簇，选择了一个代表性样本r；那么，优化训练集可以由这些代表性样本构成，也可以包括这些代表性样本：

67、；

68、这里，优化训练集包含了每个簇的代表性样本，因此它的大小是k，远小于原始数据集的大小n。

69、选择代表性样本的方法可以选择簇的中心点作为代表性样本。如果定义中心点为簇内所有点的均值（在空间和时间维度上是加权平均），则对于第k个簇的那个中心点不同可以计算为：

70、；

71、其中，表示簇中的点数。

72、通过聚类可以将大量的数据点缩减为每个簇的代表性样本，从而显著减少训练集的大小。即将每个簇的代表性样本组合起来，构成减少后的训练集。这个训练集的大小通常远小于原始数据集的大小，因为它只包含了每个簇的代表性样本，而不是所有的数据点。

73、一旦得到了优化训练集，就可以将其用于后续的机器学习模型训练，以提高计算效率并可能保持一定的样本多样性。

74、3.1.3 步骤s102，分层聚类：

75、独立地对样本的数据的空间维度和时间维度进行聚类，对所有样本的ε-邻域进行判断，并确定其是否为核心点；对所有的核心点执行递归。其具体的包括s1020~s1022三个子步骤。

76、3.1.3.1 步骤s1020，时空聚类：

77、先使用dbscan算法分别对数据点的空间坐标和时间坐标进行聚类：

78、1）空间聚类：对于空间聚类，dbscan算法将基于数据点之间的空间距离来确定簇。读取优化训练集中的每个样本的空间向量，表示数据点在空间中的坐标。其步骤包括：

79、s10200、dbscan算法需要两个参数：邻域半径和最小点数minpts：

80、对于每个样本，找到其ε-邻域内的所有点，即满足空间距离的所有数据点。

81、s10201、如果一个样本的ε-邻域内至少包含minpts个点，则将该样本（即数据点）标记为核心点。

82、s10202、从任意一个核心点开始，递归地找到其密度可达的所有点，形成一个簇。

83、s10203、重复s10202，直到所有的核心点都被访问过，并且它们的簇被完全确定。

84、其中，空间距离度量可以使用欧几里得距离公式计算：

85、；

86、其中，和分别是数据点和在第d个空间维度上的坐标，d是空间维度的总数。

87、2）时间聚类：对于时间聚类，dbscan算法将基于数据点之间的时间距离来确定簇。同样地，给定优化训练集，但此时应当关注每个样本的时间属性。时间距离度量是时间差度量。

88、dbscan算法在时间聚类上的步骤与空间聚类相似，但使用的距离度量和参数不同。具体地：

89、s10204、对于每个样本，找到其ε-邻域内的所有点，即满足时间距离的所有数据点。

90、s10205、如果一个样本的ε-邻域内至少包含minpts个点，则将该样本（即数据点）标记为核心点。

91、s10206、从任意一个核心点开始，递归地找到其密度可达的所有点，形成一个簇。

92、s10207、重复s10206，直到所有的核心点都被访问过，并且它们的簇被完全确定。

93、其中，时间距离度量可以根据具体的时间表示形式来计算。如果时间是一维的数值表示（如时间戳），则时间距离可以是两个时间点之间的绝对值差：

94、；

95、其中，和分别是数据点和的时间属性。

96、3.1.3.2 步骤s1021，合并策略：

97、定义合并策略，将这些独立的聚类结果（簇）合并成一个粗时空聚类层次结构。该策略考虑空间聚类和时间聚类之间的相似性或一致性。其中，给定如下两个方案：

98、1）基于共享数据点的数量：对于每个空间簇和每个时间簇，计算它们之间共享的数据点数量；如果共享的数据点数量超过阈值t1，则将这两个簇合并为一个粗粒度时空簇。

99、2）基于簇中心之间的距离：

100、对于每个空间簇和每个时间簇，计算它们之间的距离；如果这个距离小于阈值t2，则将这两个簇合并为一个粗粒度时空簇。中心点可以是簇内所有数据点的均值或其他统计量。

101、3.1.3.3 步骤s1022，构建细时空聚类层次结构：

102、p1、簇内细粒度聚类：在每个粗粒度簇内部，再次应用多度量dbscan算法进行细粒度的聚类。这一步可以根据重复多次（即不断地返回步骤s1021，需要拟定一最大循环次数），以逐步细化簇的结构。

103、p2、得到细化的时空聚类层次结构：通过合并策略（如基于共享数据点的数量或簇中心之间的距离），将不同层次的聚类结果再次执行合并，得到一个细化时空聚类的层次结构。这个结构可以表示为一个树状图（dendrogram），以便于可视化和理解。

104、3.1.4 步骤s103，特征工程：

105、计算每个样本的数据点与其邻近点在时间和空间上的统计量（包括均值、方差和协方差），并将这些统计量作为新的特征构建成（新）特征集。即得到一个扩展的特征集。其具体的包括s1030~s1032共计三个子步骤。

106、3.1.4.1 步骤s1030，定义邻近点：

107、对于每个数据点，首先需要定义其邻近点的集合。邻近点集合表示为，其中包含所有与数据点在空间和时间上足够接近的数据点。

108、3.1.4.2 步骤s1031，计算统计量：

109、对于每个原始（样本点）的数据点和其邻近点集合，计算以下统计量：

110、1）空间均值：计算邻近点在空间维度上的均值向量。

111、；

112、其中是数据点的空间坐标向量，是邻近点集合的大小。

113、2）时间均值：计算邻近点在时间维度上的均值。

114、；

115、其中是数据点的时间坐标。

116、3）空间方差：衡量邻近点在空间上的分散程度。

117、；

118、其中表示集合的向量的欧几里得范数。

119、4）时间方差：衡量邻近点在时间上的分散程度。

120、；

121、5）协方差（可选）：如果空间和时间维度之间存在相关性，可以计算它们的协方差。

122、；

123、这里，和分别是空间和时间坐标经过中心化（即减去各自的均值）后的值，和分别是中心化后的空间和时间均值，它们实际上都是0。

124、3.1.4.3 步骤s1032，构建新特征集：

125、将以上计算得到的统计量（均值、方差、协方差）作为新的特征，与原始数据点的特征一起构成扩展的特征集。这个新的特征集将作为dbscan算法的输入。

126、将原始（样本点）数据点的特征向量化：

127、；

128、其中n是原始特征的数量。基于上述的统计量（空间均值、时间均值、空间方差、时间方差以及可能的协方差）。

129、是特征函数，将数据点映射到特征空间中的不同维度。

130、现在将这些统计量添加到原始特征向量的末尾，从而形成一个扩展特征向量：

131、；

132、如果原始特征和统计量的尺度差异很大（例如，一些特征的取值范围在0到1之间，而另一些特征的取值范围在1000到10000之间），那么在将它们合并之前进行特征缩放（如标准化或归一化）是有益的。这有助于确保所有特征在聚类算法中具有相似的影响力。

133、最终将得到一个扩展的特征集，其中每个样本（的数据点）都由一个扩展特征向量表示。这个扩展的特征集可以直接用作dbscan算法的输入进行再次的优化，或是直接用于多模态模型的训练。

134、这样做的好处是：用特征工程技术提取数据的时空特性，并将其编码为新的特征。这些特征可以捕捉到数据在时域和空域上的重要信息，同时降低数据的维度。所谓的“扩展的特征集”就可以视为一个“降维后的数据集”，该降维后的数据集可以更快地进行样本选择和位置调整操作（因为需要处理的特征数量减少了）。

135、3.2 步骤s2，信息量度量策略：

136、本步骤选择执行lof算法（local outlier factor，lof）作为信息量度量函数来衡量样本的最大化信息量；通过计算样本的局部离群因子来实现的。lof算法的核心思想是，离群点（或异常点）处的密度应该较其邻域内其他点的密度小。因此，算法通过比较每个点与其邻域点的密度来判断该点是否为异常点。

137、3.2.1 步骤s200，定义邻域：

138、对于给定的样本和一个半径ε（本步骤中可以看作一种阈值），样本的ε-邻域定义为所有与距离小于或等于ε的样本点的集合。

139、本方案之所以不选用传统lof算法的“k-距离邻域”，而选用“ε-邻域”，是为了与前文的dbscan算法建立起相辅相成的联系。因为dbscan算法给定的ε-邻域提供了一个额外的参数（即半径ε），使得算法能够更灵活地适应不同密度的数据集。通过调整ε的大小，可以控制邻域的范围，从而捕捉到不同尺度的局部异常。

140、同时在某些情况下，数据集的密度可能会发生变化，使用固定的k-距离邻域可能无法很好地适应这种变化。而ε-邻域允许算法在不同密度的区域中使用不同大小的邻域，从而更好地捕捉到局部的异常模式。

141、3.2.2 步骤s201，计算局部可达密度（local reachability density）：

142、对于样本和其ε-邻域内的任一点o，可达距离定义为点o到的距离与ε之间的最大值，即：

143、；

144、样本的局部可达密度定义为的ε-邻域内所有点与的可达距离的倒数之和的倒数，即：

145、；

146、如果为空，则需要为定义一个无穷大来处理这种情况。

147、3.2.3 步骤s202，计算局部离群因子：

148、样本的局部离群因子是通过比较其ε-邻域内点的局部可达密度与样本的局部可达密度来计算的。

149、具体地，它是样本的ε-邻域内所有点的平均局部可达密度与样本的局部可达密度之比的均值，即：

150、；

151、其中，表示的ε-邻域内点的数量。

152、3.2.3 步骤s203，解释lof得分作为信息量度量：

153、lof得分大于1表示样本比其ε-邻域内的邻居更稀疏，可能是离群点；接近1表示样本与其ε-邻域内的邻居具有相似的密度；小于1则表示样本比其ε-邻域内的邻居更密集。将lof得分视为样本的信息量度量。一个高的lof得分意味着样本相对于其ε-邻域内的邻居来说是异常的，因此它携带了更多的信息。在这种情况下，最大化信息量就等同于寻找具有最高lof得分的样本；因此，可以以此为凭据并对样本进行分配，构成减少后的训练集。

154、3.3 步骤s3，贡献度度量策略：

155、本方案将贡献度度量策略选择为基于距离的加权（distance-based weighting）作为贡献度度量函数；即设样本点对模型的贡献度与其到模型中心的距离成反比。换句话说，距离模型中心较近的样本点对模型的贡献度较大，而距离较远的样本点贡献度较小。

156、3.3.1 步骤s300，确定模型中心或参考点：

157、传统基于距离的加权的方法是确定一个模型中心或参考点，但对于本方案来说，每个样本的ε-邻域中心就是参考点本身。因此不需要额外计算一个模型中心或参考点。即减少了计算难度，也与前文的dbscan算法建立了联系。

158、3.3.2 步骤s301，计算距离：

159、对于每个样本，计算它到其他所有样本的距离，即哪些点落在的ε-邻域内。对于任意两个样本点和o，如果它们之间的距离，则称之为“o落在的ε-邻域内”。

160、3.3.3 步骤s302，计算贡献度：

161、定义一个基于ε-邻域内样本点数量的贡献度函数，计算所有样本的贡献度。其中有如下两种选择方案：

162、1）方案一：对于每个样本，其贡献度函数（的输出）与其ε-邻域内的样本点数量成正比：

163、；

164、其中，表示样本的ε-邻域内的样本点集合，|·|表示集合中元素的数量。

165、2）方案二：与方案一不同的是，本方案希望贡献度与距离的倒数相关，因此可以进一步考虑距离加权的变体：

166、；

167、其中δ是一个小正数（例如0.001），用来避免除以零的情况。

168、3.3.4 步骤s303，标准化（可选）：

169、如果希望对贡献度进行标准化处理，以便所有样本点的贡献度之和为1，则：

170、；

171、其中，x表示所有样本点的集合。是标准化后的贡献度函数。

172、3.3.5 步骤s304，应用：

173、根据计算出的贡献度或标准化后的贡献度，可以确定哪些样本对模型最重要或优先级。在模型训练过程中，可以根据这些贡献度为样本分配不同的权重，从而优化影响模型的学习偏向。例如在分类器的训练中，可以为贡献度较高的样本点赋予更高的误分类成本，以此构成减少后的训练集。

174、3.4 步骤s4，构成经优化后的训练集：

175、在上述s1~s3执行完毕后将构成一减少样本的训练集；通过使用该训练集对多模态模型执行训练。

176、第二方面，一种存储介质：所述存储介质内存储有用于执行如上述所述的多模态模型优化检索训练方法的程序指令。

177、与现有技术相比，本发明的有益效果是：

178、一、扩展dbscan算法作为样本选择策略：在多模态模型优化检索中，本发明使用扩展形式的dbscan算法可以帮助选择出具有代表性的样本点，这些点通常位于数据分布的核心区域，能够较好地反映数据的整体结构。通过剔除噪声点和边界点，可以减少模型训练过程中的干扰，提高模型的鲁棒性和泛化能力。同时扩展dbscan算法不仅增强了传统的聚类效果，还能够更准确地处理动态数据、识别异常和边界，以及进行时间序列分析和事件检测。这些特性使得扩展dbscan算法在多种复杂的数据处理和分析任务中都具有广泛的应用前景。

179、二、时域及空域特性聚类：传统的dbscan算法虽然能够在空间数据中找到任意形状的聚类，但本发明提出的扩展dbscan算法通过进一步的考虑空域特性，能够更精确地识别空间中的密集区域和噪声点，从而得到更准确的聚类结果。通过分析空域特性，扩展的dbscan算法能够更清晰地定义聚类的边界，这有助于更准确地理解数据的空间分布。同时在时变数据集中，数据的分布和特性可能随时间发生变化。扩展的dbscan算法能够识别并适应这种变化，从而更准确地捕捉数据的动态特性。对于时间序列数据，扩展的dbscan算法可以帮助识别出时间序列中的重复模式、异常事件或周期性行为。且在监控或传感器网络等应用中，能够识别时域中的特定事件（如突发活动、周期性行为的变化）对于及时响应和决策至关重要。扩展的dbscan算法通过识别时域特性，能够更有效地检测这些事件。

180、三、lof算法作为信息量度量策略：本发明评估了每个样本点所携带的信息量或异常程度。通过给予信息量较大（即lof得分较高）的样本点更高的关注度，可以在训练过程中强调这些点对模型的重要性，从而提高模型对异常或稀有情况的识别能力。

181、四、基于距离的加权作为贡献度度量函数并作为贡献度度量策略：在多模态模型优化检索中，本发明使用基于距离的加权作为贡献度度量函数可以量化每个样本点对模型的贡献程度。通过将距离较近、相似度较高的样本点赋予更高的权重，可以在模型训练过程中加强对这些点的学习，从而提高模型对相似实例的检索性能。

技术特征：

1.一种多模态模型优化检索训练方法，包括一多模态模型及其训练集，该训练集中包括n个样本，其中任意一样本代表一个音频、文本或视频训练数据，其特征在于：对所述多模态模型的训练执行如下优化检索步骤：

2.根据权利要求1所述的多模态模型优化检索训练方法，其特征在于：在所述s1中，包括：

3.根据权利要求2所述的多模态模型优化检索训练方法，其特征在于：在所述s100中，包括：

4.根据权利要求2所述的多模态模型优化检索训练方法，其特征在于：在所述s101中，包括：

5.根据权利要求4所述的多模态模型优化检索训练方法，其特征在于：在所述s1011中，包括：

6.根据权利要求2所述的多模态模型优化检索训练方法，其特征在于：在所述s102中，包括：

7.根据权利要求2、3、4或6所述的多模态模型优化检索训练方法，其特征在于：在所述s103中，所述统计量包括空间均值、时间均值、空间方差和时间方差，与原始数据点的特征一起构成扩展的特征集；将原始数据的特征向量化：

8.根据权利要求2、4或6所述的多模态模型优化检索训练方法，其特征在于：在所述s2中，包括：

9.根据权利要求2、3、4或6所述的多模态模型优化检索训练方法，其特征在于：在所述s3中，包括：

10.一种存储介质，其特征在于：所述存储介质内存储有用于执行如权利要求1~9任意一项所述的多模态模型优化检索训练方法的程序指令。

技术总结
本发明公开了一种多模态模型优化检索训练方法及存储介质；本发明涉及多模态识别技术领域；对于任意两个数据点P和Q，它们在空间中的坐标分别为和；在三维空间中，对于视频帧可以是二维的(x,y)，在时间上的坐标分别为和。定义时空距离度量如下：；本发明提出的扩展DBSCAN算法通过考虑空域特性，能够更精确地识别空间中的密集区域和噪声点，从而得到更准确的聚类结果。通过分析空域特性，扩展的DBSCAN算法能够更清晰地定义聚类的边界。

技术研发人员：许翔,厉向东,邹宁
受保护的技术使用者：杭州深度思考人工智能有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1157433.html

专利

最新回复(0)