工业时序数据的定价方法与流程

专利检索2022-05-10 52

1.本发明涉及数据定价技术领域，具体而言，涉及一种工业时序数据的定价方法。

背景技术：

2.合理的数据定价是促进数据交易、确保数据自由有序流通和充分共享，还原数据商品价值的根本保证。数据定价机制是全世界都亟待解决的关键问题，在全世界各国的实践中，均未形成成熟、广泛认可的数据定价机制。数据的价格主要受数据规模、类别、质量、实时性等因素影响，目前数据交易平台通常采用定价模式，有固定定价、实时定价、协议定价和拍卖定价四种，都很难准确地量化数据资产的真正价值，无法使得数据提供者和数据购买者都对交易数据集的价值做出一个合理且双方均认可的评估结果。而工业互联网作为新的基础设施，目标在于构建关于连接、弹性配置和高效供给的生产环境，其核心在于促进数据的充分共享，因此需要专门针对工业数据的定价方案。
3.已有的数据定价方法主要基于数据质量、信息熵、查询市场、博弈论、机器学习等理论，其中，后四种方法目前的应用场景还很狭窄，且研究本身偏理论，实际应用较少。而基于数据质量的方法主要针对传统关系型数据结构，缺乏针对工业时序数据质量的特殊设计，例如时序数据噪声和无价值工况较多，实际价值的相对集中等特性。

技术实现要素：

4.本发明的目的包括提供了一种工业时序数据的定价方法，其能够将评估方式完全量化，所有计算参数均为根据对数据进行分析可以唯一确定，避免了人工参与的主观影响，确保了评估结果的一致性和相对客观性。
5.本发明的实施例可以这样实现：
6.第一方面，本发明提供一种工业时序数据的定价方法，工业时序数据的定价方法包括：
7.获取工业时序数据的数据总量评定值s、数据质量评定值q、数据通用性评定值g、数据关联集成水平评定值i以及当前交易平台中的单位大小数据均价r；
8.根据数据总量评定值s、数据质量评定值q、数据通用性评定值g、数据关联集成水平评定值i以及当前交易平台中的单位大小数据均价r，确定工业时序数据的数据参考价格p。
9.在可选的实施方式中，工业时序数据的数据参考价格p的计算公式为：
10.p＝s*q*g*i*r。
11.在可选的实施方式中，数据总量评定值s的确定步骤包括：
12.获取工业时序数据的原始数据；
13.对原始数据进行解压缩或格式转换，获得数据的实际大小值；
14.根据数据的实际大小值，确定数据总量评定值s。
15.在可选的实施方式中，数据质量评定值q的确定步骤包括：
16.获取工业时序数据的价值密度和异常概率；
17.根据价值密度和异常概率，确定单个序列数据的质量；
18.根据单个序列数据的质量，确定总体数据质量；
19.根据总体数据质量，确定数据质量评定值q。
20.在可选的实施方式中，数据质量评定值q的计算公式为：
[0021][0022]
其中，n为交易数据中的时间序列总数，length
i
为时间序列i的长度，即时间戳数，d
(i，j)
为时间序列i的第j个数据的价值密度，p
(i，j)
为时间序列i的第j个数据的异常概率。
[0023]
在可选的实施方式中，价值密度d
k
的计算公式为：
[0024][0025]
其中，v
k
为对应时间序列中第k个数据的值，w为移动平均窗口大小参数，th为对应序列的最大波动阈值参数。
[0026]
在可选的实施方式中，异常概率p
k
的计算公式为：
[0027][0028]
其中，isnull为空值判断，若对应点位有时间戳但无数值则取值为1，反之为0；p
v
为在假设整个时间序列数据为正态分布的情况下，标准差小于对应测量值的概率密度函数曲线下面积占比；p
ma
为基于移动平均法获得的正态分布模型，在模型下标准差小于对应测量值的概率密度函数曲线下面积占比；p
stl
为基于stl数据拆解法，对每个时间序列进行趋势项、周期项和余项的分解，假定余项为正态分布，在模型下标准差小于对应测量值的概率密度函数曲线下面积占比。
[0029]
在可选的实施方式中，数据通用性评定值g的确定步骤包括：
[0030]
获取工业时序数据的设备特征参数的欧拉距离；
[0031]
根据欧拉距离，确定单个序列的通用性；
[0032]
根据单个序列的通用性，确定总体的通用性；
[0033]
根据总体的通用性，确定数据通用性评定值g。
[0034]
在可选的实施方式中，若交易数据无任何明确的组织结构，无法通过任意主键实现对所有序列的关联查询，则数据通用性评定值g为0.5；
[0035]
若存在一个唯一主键能够实现对所有序列的关联查询，则数据通用性评定值g为1；
[0036]
若数据有完善的组织结构定义，能够通过多个关键字、从不同维度对所有序列进行分类查询、筛选和关联，则数据通用性评定值g为2。
[0037]
在可选的实施方式中，数据关联集成水平评定值i的确定步骤包括：
[0038]
获取工业时序数据的索引情况、组织结构情况和分类查询、筛选、关联情况；
[0039]
根据索引情况、组织结构情况和分类查询、筛选、关联情况，确定数据关联集成水平评定值i。
[0040]
本发明实施例提供的工业时序数据的定价方法的有益效果包括：
[0041]
1、评估方式完全量化，所有计算参数均为根据对数据进行分析可以唯一确定，避免了人工参与的主观影响，确保了评估结果的一致性和相对客观性；
[0042]
2、引入了通用性评价和数据关联集成评价指标，确保只有推广性、参考性强，且组织合理、方便查询的数据能够获得更高的价值评估；
[0043]
3、引入市场均价系数，使得所有评估结果能够根据当前市场实际状态进行实时调整，从而在更长的时间范围和更复杂的经济环境下，确保价值评估的客观性和有效性。
附图说明
[0044]
为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
[0045]
图1为本发明实施例提供的工业时序数据的定价方法的流程图；
[0046]
图2为数据总量评定值s的确定流程图；
[0047]
图3为数据质量评定值q的确定流程图；
[0048]
图4为数据通用性评定值g的确定流程图；
[0049]
图5为数据关联集成水平评定值i的确定流程图。
具体实施方式
[0050]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0051]
因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0052]
应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
[0053]
需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。
[0054]
工业数据又可分为时间序列数据(也称为：工业时序数据)、结构化数据、非结构化数据。其中，时间序列数据是工业数据中增量最大的一个，包括生产过程中的人机料法环等各因素的物联网检测数据，数据海量持续产生，具有时序性，稀疏性，高聚合等特点，与传统信息管理系统的数据类型区别较大，因此需要设计不同的时间序列数据定价机制。
[0055]
请参考图1，本实施例提供了一种工业时序数据的定价方法，充分考虑数据交易供需双方对数据各项质量要素的不同需求和可见度，为数据价值提出一个更加客观、合理的参考值。
[0056]
工业时序数据的定价方法提供一个工业时序数据的定价计算公式，并对其各参数的计算方式进行明确设计，确保该方法的可操作性、合理性及有效性。
[0057]
为了对工业时序数据进行合理定价，需要综合考虑其数据总量、数据质量、数据通用性、关联集成水平等因素，其总体计算公式为：
[0058]
p＝s*q*g*i*r
[0059]
其中，p为数据参考价格，s为数据总量评定值，q为数据质量评定值，g为数据通用性评定值，i为数据关联集成水平评定值，r为当前交易平台中的单位大小数据均价。
[0060]
因此，请参阅图1，本实施例提供的工业时序数据的定价方法包括以下步骤：
[0061]
s1：获取工业时序数据的数据总量评定值s、数据质量评定值q、数据通用性评定值g、数据关联集成水平评定值i以及当前交易平台中的单位大小数据均价r。
[0062]
s2：根据数据总量评定值s、数据质量评定值q、数据通用性评定值g、数据关联集成水平评定值i以及当前交易平台中的单位大小数据均价r，确定工业时序数据的数据参考价格p。
[0063]
其中，数据参考价格p的计算公式为：p＝s*q*g*i*r。
[0064]
计算公式中各参数的评定测算在数据交易过程的中立第三方平台中独立完成，各参数测试的具体方式见下文。
[0065]
数据总量评定值s为交易数据以纯文本形式存储的大小。以此方式计量，可避免由于采用不同的压缩机制导致的存储大小差异。如果数据量较大不便于进行全量数据的格式转换，可对数据集进行抽样后转换，通过计算出其文本格式下的存储大小以及原始压缩大小所对应的压缩比，从而实现对全量数据转换后大小较为准确的估算。
[0066]
具体的，请参阅图2，数据总量评定值s的具体确定步骤包括：
[0067]
s11：获取工业时序数据的原始数据。
[0068]
s12：对原始数据进行解压缩或格式转换，获得数据的实际大小值。
[0069]
s13：根据数据的实际大小值，确定数据总量评定值s。
[0070]
这样，通过衡量原始数据的实际大小值，能够避免因为不同压缩技术导致的价格差异。
[0071]
数据质量评定值q用于对交易数据质量的评估。考虑到工业时序数据的特征，本方法设计了一套基于数据异常概率函数的质量评估方法，其计算公式为：
[0072][0073]
其中，n为交易数据中的时间序列总数，length
i
为时间序列i的长度，即时间戳数，d
(i，j)
为时间序列i的第j个数据的价值密度，p
(i，j)
为时间序列i的第j个数据的异常概率。
[0074]
其中，价值密度d
(i，j)
是针对工业设备在不同工作状态下，按照固定频率采集时序数据可能导致的价值密度差异较大的特征而设计。工业设备存在大量的无负载、稳态工况，这些工况下的很多传感器采集值通常变化幅度很小或不变。与此相对的，在其它一些非稳
态工况下，数据变化幅度大，通常是更容易出现故障或异常的工况，也是产品质量、设备健康、工艺优化等环节重点关心的数据，这些点位上的数据质量优劣对整体数据的价值更高。
[0075]
价值密度d
k
可通过以下公式进行计算：
[0076][0077]
其中，v
k
为对应时间序列中第k个数据的值，w为移动平均窗口大小参数，th为对应序列的最大波动阈值参数。价值密度d
k
的取值范围为[0，1]，超过1的计算结果均被记为1。
[0078]
异常概率p
(i，j)
是对对应时间序列点位数据是异常数据的概率表达。在数据异常值判断的过程中，通常需要根据数据特征选用不同的异常值判定方法。为了确保对数据异常概率判定的一致性，本方法设计了一种综合考虑多种异常值识别方法进行平均处理的方法，异常概率p
k
具体公式如下：
[0079][0080]
其中，isnull为空值判断，若对应点位有时间戳但无数值则取值为1，反之为0；p
v
为在假设整个时间序列数据为正态分布的情况下，标准差小于对应测量值的概率密度函数曲线下面积占比；p
ma
为基于移动平均法获得的正态分布模型，在模型下标准差小于对应测量值的概率密度函数曲线下面积占比；p
stl
为基于stl数据拆解法，对每个时间序列进行趋势项、周期项和余项的分解，假定余项为正态分布，在模型下标准差小于对应测量值的概率密度函数曲线下面积占比。异常概率p
k
的取值范围为[0，1]，超过1的计算结果均被记为1。
[0081]
具体的，请参阅图3，数据质量评定值q的具体确定步骤包括：
[0082]
s21：获取工业时序数据的价值密度和异常概率。
[0083]
s22：根据价值密度和异常概率，确定单个序列数据的质量。
[0084]
s23：根据单个序列数据的质量，确定总体数据质量。
[0085]
s24：根据总体数据质量，确定数据质量评定值q。
[0086]
这样，通过对工业时序数据的变化趋势进行分析，为时间序列数据的重要性进行评估，确保更关键的工况数据的高质量获得更高的价值认定。而且，通过采用对异常概率进行考量，确保对数据价值的判定相对客观。
[0087]
数据通用性评定值g是用于衡量交易数据的通用性，采取对每一条时间序列分别打分后求平均值的方法进行量化。对于每一条时间序列，其通用性评分取值范围为(0，2]，数值越小代表通用性越差。具体计算方式可直接采用设备特征参数的欧拉距离，对其进行标准化后取得。
[0088]
具体的，请参阅图4，数据通用性评定值g的具体确定步骤包括：
[0089]
s31：获取工业时序数据的设备特征参数的欧拉距离。
[0090]
s32：根据欧拉距离，确定单个序列的通用性。
[0091]
s33：根据单个序列的通用性，确定总体的通用性。
[0092]
s34：根据总体的通用性，确定数据通用性评定值g。
[0093]
数据关联集成水平评定值i是对交易数据的数据组织结构、索引、完整性等方面的评估。如果交易数据无任何明确的组织结构，无法通过任意主键实现对所有序列的关联查询，则该项得分为0.5；如果存在一个唯一主键能够实现对所有序列的关联查询，例如通过唯一统一的设备标识号能够实现对所有序列的关联查询，则该项得分为1；如果数据有完善的组织结构定义，能够通过多个关键字、从不同维度对所有序列进行分类查询、筛选和关联，则该项得分为2。
[0094]
具体的，请参阅图5，数据关联集成水平评定值i的具体确定步骤包括：
[0095]
s41：获取工业时序数据的索引情况、组织结构情况和分类查询、筛选、关联情况。
[0096]
s42：根据索引情况、组织结构情况和分类查询、筛选、关联情况，确定数据关联集成水平评定值i。
[0097]
当前交易平台中的单位大小数据均价r是根据数据交易平台中的市场状况实时提供的一个动态参数，反应了当前数据交易市场的宏观供需状况。
[0098]
这样，最终价格计算基于当前市场单位均价，能够确保计算结果符合当前市场总体供需情况。
[0099]
实例1
[0100]
假设待评估交易数据只涉及一个三相电机设备，包含7个时间序列：电压：ua，ub，uc、电流：aa，ab，ac、温度：t。
[0101]
根据总体计算公式p＝s*q*g*i*r，分别计算各个参数。
[0102]
数据总量评定值s：直接对待评估数据进行解压缩及格式转换，形成文本格式存储，每个时间序列通过一个文件进行存储，其基本结构为“timestamp，value”，即每一行为一个二元组，前面为时间戳，后面为测量值。整个交易数据的总大小为1.24gb。
[0103]
数据质量评定值q根据其计算公式，先计算各点价值密度d
(i，j)
，以计算温度序列的第100个点位的价值密度为例，选择窗口大小为40，最大波动阈值参数为2，则价值密度d
(i，j)
的计算如下：
[0104][0105]
接下来计算各点异常概率p
(i，j)
，同样以温度第100个点位为例：
[0106][0107]
数据通用性评定值g：电机为通用性设备，假设购买方使用了与供给方相同供应商的三相电机设备，其核心参数也完全相同，则该项欧拉距离计算为0，标准化后所有时间序列的通用性评定值均为2，故数据通用性评定值g为2。
[0108]
数据关联集成水平评定值i：交易数据有完善的组织结构定义，数据结构与设备bom结构对应，能够通过包括时间戳、设备代码、责任人、所属部门等多个关键字、从不同维度对所有序列进行分类查询、筛选和关联，故数据关联集成水平评定值i为2。
[0109]
当前交易平台中的单位大小数据均价r：假设目前平台数据交易均价为5万元/gb。
[0110]
则上述实例中，数据总价计算为：
[0111]
p＝s*q*g*i*r＝1.24*0.879*2*2*5＝21.799(万元)
[0112]
本实施例提供的工业时序数据的定价方法包括以下有益效果：
[0113]
1、评估方式完全量化，所有计算参数均为根据对数据进行分析可以唯一确定，避免了人工参与的主观影响，确保了评估结果的一致性和相对客观性；
[0114]
2、评估方式充分考虑工业时序数据的特征和应用场景，设计了一套基于时间序列数据变化趋势的价值评估算法，确保最重要的关键设备信息的数据质量得到更高的评分权重；
[0115]
3、引入了通用性评价和数据关联集成评价指标，确保只有推广性、参考性强，且组织合理、方便查询的数据能够获得更高的价值评估；
[0116]
4、引入市场均价系数，使得所有评估结果能够根据当前市场实际状态进行实时调整，从而在更长的时间范围和更复杂的经济环境下，确保价值评估的客观性和有效性。
[0117]
以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

转载请注明原文地址:https://win.8miu.com/read-50413.html

专利

最新回复(0)