基于深度确定性策略梯度算法的风电功率预测方法及系统

专利检索2024-10-15 51

1.本发明属于风电功率预测技术领域，具体涉及一种基于深度确定性策略梯度算法的风电功率预测方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.在全球变暖和能源危机的背景下，风力发电以其清洁无污染的特点成为当下不可或缺的能源形式之一，世界范围内风力发电装机容量不断增加。然而由于自然界风速具有较强的随机性和波动性，致使风电功率时而发生剧烈的变化，给传统电网的安全经济可靠运行带来了较大的挑战，也是阻碍风力发电进一步发展的一大原因。准确的风电功率预测可以降低调度员在参与备用容量设定、机组组合安排、市场交易决策所面临的风险。风电功率预测方法及系统已成为电力系统必备模块，对于保证电力系统安全可靠性，并提升其运行经济性具有重要意义。
4.风电功率预测模型大致可分为三大类，主要包括物理模型、统计模型和组合模型。其中物理模型以数值天气预报（nwp）数据为基础，考虑风电场周围粗糙度和地形特征，获取风机高度处的风速和风向，然后利用风速功率曲线转换为风电功率预测值。然而物理模型预测精度依赖于复杂的气象学原理以及详细的风电场地形，在实际的预测中往往无法准确获取这些信息。统计模型适用于具有充足历史观测数据的风电场，包括传统的持续性模型、自回归分析及其衍生模型、高斯过程、马尔科夫模型等。同时近年来发展迅猛的人工智能学习模型，包括支持向量机、各类神经网络模型、深度学习模型、随机森林等树学习模型，在本质上也属于统计模型。
5.然而各类预测算法均具有局限性，单一预测模型不可能在所有的场景下均具有最优预测性能。基于该事实，组合预测模型被提出以期实现各子模型的优势融合，进而提升风电功率预测精度。组合预测模型的构建可大致分为两步，首先是子模型的选取，合理的子模型选取有助于构建更优异的组合模型，需要各子模型在“成员等同性”以及离散度上满足一定的要求，其次是子模型权重的优化，基于历史预测功率数据集和对应的历史量测功率数据集，以误差最小为优化目标，借助相关优化算法，如粒子群优化算法、充电搜索算法、鲁棒优化算法等对各子模型的组合权重赋值。
6.组合预测已经证实是提升风电功率预测精度的一种行之有效的方法，目前针对各子模型所设置的权重大多是固定的形式。然而固定权重仅仅从数据集全局出发考虑各子模型的整体表现，忽视了各子模型预测表现随着外界预测环境变化而改变的局部行为，限制了组合权重的灵活性，损失了一部分预测精度。目前已有的变权组合预测如自适应指数组合、方差倒数法，仅仅从权重的时序变化规律出发，定量评估各子模型在最近一段时间的预测表现，转换为下一预测时刻的各子模型的权重。然而事实上，外界预测环境，包括但并不限于风速的波动变化过程，对各子模型的预测精度也息息相关，上述现有的变权组合模型
不能有效地提取这部分信息，难以准确判断各子模型预测表现变化趋势合理改变权重。

技术实现要素：

7.本发明为了解决上述问题，提出了一种基于深度确定性策略梯度算法的风电功率预测方法及系统，本发明利用多重不同预测方法构建组合预测的预测子模型，然后采用深度确定性策略梯度算法，利用算法中的智能体通过与外部预测环境交互不断试错以最大化折扣收益，最终智能体具备感知外部预测环境的能力，可以实现合理动态分配组合模型中各个预测子模型权重的能力，最终实现准确预测。
8.根据一些实施例，本发明采用如下技术方案：一种基于深度确定性策略梯度算法的风电功率预测方法，包括以下步骤：获取风电功率预测的相关数据；将获取的数据分别输入到训练好的多个不同的预测子模型中，获取相应预测子模型的风电功率预测值；构建组合模型，所述组合模型为各个预测子模型的组合，且每种预测子模型分配有各自的权重；利用深度确定性策略梯度算法从待预测时刻的预测环境中感知当前状态，根据当前状态确定策略，得到带有探索噪声的权重，并赋值至组合模型，并根据反馈的奖励情况迭代优化所述策略；直至所述深度确定性策略梯度算法收敛，依据收敛后的当前策略确定最终权重值，赋值给组合模型，得到最终的风电功率预测值。
9.作为可选择的实施方式，所述风电功率预测的相关数据包括历史风电功率序列、待预测时刻风速和风向预测数据。
10.作为可选择的实施方式，所述各个预测子模型的选择依据talagrand分布和离散度综合选取，预测模型的talagrand分布越平均，预测值的标准差越大，离散度越大，越适合作为预测子模型。
11.作为可选择的实施方式，所述预测子模型包括支持向量机回归模型、人工神经网络模型和极端梯度增强树模型。
12.作为可选择的实施方式，所述深度确定性策略梯度算法包括两个组件：环境和智能体，所述环境为外界预测环境下各预测子模型的组合机制；所述智能体用于从外界环境感知状态并确定各预测子模型权重到环境中，并从环境中获取相应的奖励。
13.作为可选择的实施方式，所述深度确定性策略梯度算法包含三个基本元素：状态、动作和奖励；所述状态为反映外部环境信息的指标，包括气象预测的波动变化信息和最近若干时刻的预测子模型的预测表现信息；所述动作为确定的权重值；所述奖励包括基于排名赋予的固定奖励，以及在组合模型排名第一的情形下，基于组合模型预测绝对误差和最优预测子模型的预测绝对误差比值设置的额外奖励。
14.作为可选择的实施方式，根据反馈的奖励情况迭代优化所述策略的具体过程包括：各预测子模型按动作指示的权重加权后生成风电功率预测，环境根据奖励函数计算奖励返还至智能体，智能体根据奖励不断完善策略，形成稳定的动作选择策略。
15.作为可选择的实施方式，直至所述深度确定性策略梯度算法收敛的具体过程为：所述智能体以获取奖励最大化为目标合理分配当前环境下各预测子模型的权重，保证算法收敛的同时，实现理论上的最优权重分配。
16.一种基于深度确定性策略梯度算法的风电功率预测系统，包括：数据获取模块，被配置为获取风电功率预测的相关数据；预测子模型预测模块，被配置为将获取的数据分别输入到训练好的多个不同的预测子模型中，获取相应预测子模型的风电功率预测值；组合模型构建模块，被配置为构建组合模型，所述组合模型为各个预测子模型的组合，且每种预测子模型分配有各自的权重；组合模型优化模块，被配置为利用深度确定性策略梯度算法从待预测时刻的预测环境中感知当前状态，根据当前状态确定策略，得到带有探索噪声的权重，并赋值至组合模型，并根据反馈的奖励情况迭代优化所述策略，直至所述深度确定性策略梯度算法收敛；功率预测模块，被配置为依据收敛后的当前策略确定最终权重值，赋值给组合模型，得到最终的风电功率预测值。
17.与现有技术相比，本发明的有益效果为：本发明提出了一种风电功率变权组合预测方法以提高风电功率预测精度。相比常规的固定权重组合风电功率预测方法，本发明方法能充分考虑各子模型随着外部预测环境变化的局部行为，进而动态调整组合模型的权重以更好地融合子模型的优势。包括子模型的历史n个时刻的表现以及气象因子的波动变化规律均可以考虑到子模型权重分配中。
18.本发明首次将深度确定性策略梯度算法引入到风电功率变权组合预测的应用中，深度确定性策略梯度算法融合的深度学习的非线性拟合优势以及强化学习的连续决策能力，相比传统的q学习算法，深度确定性策略梯度算法可以实现高维连续的状态空间和动作空间，切合动态权重分配的应用场景。
19.本发明在针对深度确定性策略算法在风电变权组合预测的应用，设计了一种奖励机制，该机制首先基于组合模型预测结果在各子模型中的排名设定固定的奖励，其次当组合预测结果排名最优时根据组合预测误差与最优子模型预测误差的比例设定额外的动态奖励，目的是促使模型收敛同时保证权重分配的最优性。
20.为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
21.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
22.图1为本发明实施例中基于深度确定性策略梯度算法的风电功率预测方法的流程示意图；图2为本发明实施例中深度确定性策略算法基本结构示意图；图3为本发明实施例中奖励第一部分的示意图；图4为本发明实施例中奖励第二部分的示意图；图5为本发明实施例中各子模型在不同预测尺度预测精度表现以及各子模型的“成员等同性”和离散度评价图一；图6为本发明实施例中各子模型在不同预测尺度预测精度表现以及各子模型的“成员等同性”和离散度评价图二；图7为本发明实施例中各子模型在不同预测尺度预测精度表现以及各子模型的“成员等同性”和离散度评价图三；图8为本发明实施例中各子模型在不同预测尺度预测精度表现以及各子模型的“成员等同性”和离散度评价图四；图9为本发明实施例中不同组合模型在不同预测尺度下的绝对误差箱型图；图10为本发明实施例中深度确定性策略算法不同奖励设置方式的奖励曲线图一；图11为本发明实施例中深度确定性策略算法不同奖励设置方式的奖励曲线图二；图12为本发明实施例中深度确定性策略算法不同奖励设置方式的奖励曲线图三；图13为本发明实施例中一次15分钟间隔的12小时超前预测子模型以及各组合模型预测曲线对比以及不同变权组合方法权重变化对比图一；图14为本发明实施例中一次15分钟间隔的12小时超前预测子模型以及各组合模型预测曲线对比以及不同变权组合方法权重变化对比图二；图15为本发明实施例中一次15分钟间隔的12小时超前预测子模型以及各组合模型预测曲线对比以及不同变权组合方法权重变化对比图三；图16为本发明实施例中一次15分钟间隔的12小时超前预测子模型以及各组合模型预测曲线对比以及不同变权组合方法权重变化对比图四。
具体实施方式
23.下面结合附图与实施例对本发明作进一步说明。
24.应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
25.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
26.在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
27.实施例一根据本发明的实施例，公开了一种基于深度确定性策略梯度算法的风电功率变权组合预测方法，参照图1，包括以下步骤：（1）获取历史风电功率序列和待预测时刻风速风向预测数据；（2）将所述数据分别输入到训练好的支持向量机回归模型、人工神经网络模型和极端梯度增强树模型中获取各子模型的风电功率预测值；（3）在探索学习过程中深度确定性策略梯度算法从预测环境中感知当前状态，根据当前策略输出带有探索噪声的权重动作至组合模型，算法根据返还的奖励情况不断更新优化更新策略；
（4）当深度确定性策略梯度算法收敛后可认为当前策略最优，在应用环节算法从预测环境感知状态，依据该策略输出动作权重至组合模型得到最终的风电功率预测值。
28.本实施例充分考虑了不同原理的风电预测模型的优缺点，考虑了各子模型预测变现随着外界环境变化而改变的局部行为，构建了风电功率变权组合预测模型。利用深度确定性策略梯度算法的非线性拟和以及连续决策能力，可以充分感知外界环境的变化做出最优的决策，通过优化设计奖励机制，使得算法成功收敛的同时保证权重分配的理论最优。采用该风电功率变权组合预测方法，更好的融合了各子模型的优势，进一步提升了风电功率预测精度，可以为电力系统安全经济调度提供更加可靠的信息。
29.具体地，本实施例的详细实现过程如下：首先是选取各子预测模型的输入变量。从时序自相关性上分析，由于短期时间内风速的波动变化具有一定的惯性，因此风电功率序列在短期尺度内也具有惯性，也即历史若干时刻的风电功率和待预测时刻的风电功率具有较强的自相关性。从互相关性上分析，风电功率和数值天气预报数据紧密相关，包括风速、风向、温度、相对湿度等。
30.为了衡量各因素对风电功率功率的影响程度，采用自相关系数和互相关系数定量分析各影响因素和风电功率之间的相关性。其中自相关系数计算公式如（1）所示：（1）式中，y
t
表示t时刻的风电功率数据，y
t
‑∆
t
表示t
‑∆
t时刻的风电功率数据，μy表示风电功率数据的均值，表示风电功率数据的方差。
31.互相关系数计算公式如（2）所示：（2）式中xi和yi分别表示气象变量和风电功率，μ
x
和μy分别为其均值和方差，n表示样本数量。
32.表1给出了多种因素与风电功率之间的相关性结果。其中根据自相关系数分析结果，可以看出t-1、t-2和t-3时刻的风电功率自相关系数均大于0.9，其中t代表当前时刻，因此这里选取了t-1、t-2和t-3时刻的风电功率作为预测输入变量的一部分。根据互相关系数分析结果，可以看出在气象变量中风速和风电功率的互相关系数最高，温度、湿度、风向与风电功率的互相关系数相对较低，考虑到风速风向的紧密关联，这里选取风速和风向为预测输入变量。
33.表1：风电功率自相关系数和气象变量互相关系数
然后构建风电功率预测子模型；组合预测结果的准确性取决于子模型的表现，合理选择子模型是构建高效组合模型的第一步。通常衡量子模型进行组合的好坏使用“成员等同性”和离散度评价。“成员等同性”表示任何一个子模型不应该总是优于另一个子模型（否则较差的子模型应该被淘汰），可以用talagrand分布来衡量，分布越平均，组合效果越好。离散度反应子模型组合的可靠性，通常用子模型的预测值的标准差量化，标准差越大，离散度越大，越利于组合。本发明采用支持向量机回归、人工神经网络和极端梯度增强树三种子模型进行组合，三种子模型不同超前时刻的预测精度以及超前12小时预测talagrand分布和离散度如图5所示，可以看出相对来说，三种子模型预测精度相近，talagrand分布相对平均，离散度在可接受范围。
34.talagrand分布和的计算公式如（3）所示：（3）式中，k表示子模型的个数，风电预测值所在的空间被k个子模型的预测值依次划分为k+1个区间，统计量测风电功率在各个区间的分布情况即talagrand分布。
35.离散度的计算公式如（4）所示：（4）式中，t表示当前时刻，h表示超前预测尺度，n表示样本数量，k表示子模型的个数，表示第k个子模型的预测值，表示k个子模型风电功率预测值的平均值。
36.本实施例利用同一测试集数据分别训练三个子预测模型。
37.1）支持向量机回归（svr）支持向量机是cortes和vapnik提出的一种适用于小样本数据的机器学习方法，可以用来解决线性和非线性的分类和回归问题。支持向量机在处理非线性数据上具有一定的优势，它的核心部分是引入核映射与结构风险。对于给定的训练样本集，svr构建了一个凸二次规划来唯一地找到全局最优解，优化目标函数分别如（5）所示，约束条件如（6）所示：
（5）（6）式中，和表示待优化变量，n表示样本数量，表示核函数，本发明中采用高斯核函数，c表示惩罚因子，
ɛ
表示拟合精度。预测阶段，对于新的输入变量x，风电功率预测值可表示如（7）所示：（7）式中，和表示优化后的变量，n表示样本数量，表示核函数，xi是输出变量样本，f(x)表示预测风电功率值。
38.2）人工神经网络（ann）人工神经网络基于神经元思想，神经元之间的以一定的权重连接，并采用激活函数处理非线性拟合的问题，对于每层的输出值可以表示为（8）所示：（8）式中，表示第k层的输出，表示第k层的权重矩阵，是第k层的偏置向量，表示该层的激活函数。在训练过程中，可以获取各层最优的权重矩阵和偏置向量。
39.3）极端梯度增强树（xgboost）xgboost是一种基于梯度增强决策树的改进模型。通过在目标函数中加入正则项以防止过拟合，使用泰勒公式将损失函数扩展为二阶，加快迭代速度。对于每个树t，优化目标函数如（9）所示：（9）式中，gj和hj分别是第j个树叶上所有样本的一阶偏导数和二阶偏导数的和，wj是第j个树叶的权重，λ和γ分别是正则项的惩罚因子，t是树叶的总个数。
40.本实施例利用深度确定性策略梯度算法实施风电功率组合预测。
41.深度确定性策略梯度算法是深度强化学习的一种，深度强化学习结合了深度学习
和强化学习的优点，可以考虑大量的输入并优化特定的目标。深度强化学习包括两个主要组件：环境和智能体，包含三个基本元素：状态、动作和奖励。智能体通过感知环境的状态，并采取行动影响环境，同时环境会将奖励返还给智能体，并且环境会根据一定的状态转移概率转换为新的环境状态。其说明图如图2所示。
42.通过连续的试错-探索机制，深度强化学习尝试依据更好的动作策略以最大化折扣奖励，折扣奖励表达形式如（10）所示：（10）式中，γ是折扣因子，其取值范围是[0,1]，折扣因子反应了对未来奖励的重视程度，ri是奖励函数。
[0043]
定义s
t
和为t时刻的状态和动作，定义μ为反映状态到动作映射关系的策略，定义为动作价值函数，用于定量评估当前策略的优越性，值越大说明策略越优异。根据贝尔曼方程，存在递归关系如（11）所示：（11）传统的强化学习算法，如q学习算法，通常采用状态动作二维表格迭代优化策略。但是，实际上面临的装填可能是高维连续的，表格型求解方法大受限制。因此深度强化学习引入深度学习算法拟合，使智能体可以解决高维连续状态的问题。
[0044]
深度确定性策略梯度算法（ddpg）是深度强化学习的一种，它采用策略迭代方式使智能体可以输出连续的状态空间。在该算法中，策略被视为价值函数的一个参数，通过梯度上升法不断优化策略。ddpg采用actor-critic框架，其中actor表示确定性的策略μ（s），critic表示动作价值函数，两者均采用深度学习网络进行拟合，网络参数分别是θ和ω，我们将这两个网络命名为在线网络。此外建立另外两个深度学习网络，网络参数分别是和，其参数获取方式如（11）和（12）所示：（11）（12）式中，τ被称为软更新系数。
[0045]
ddpg引入记忆缓存池用于打破样本数据的相关性，同时在学习过程中输出的动作添加噪声以提升模型的学习能力。在学习过程中，基于从经验池中随机抽取的n个样本，在线评价网络首先更新，其损失函数表示如（13）所示：
（13）式中，（14）然后，在线评价网络参数ω按照（15）所示的方式更新：（15）式中，α
ω
是评价网络的学习率，是损失函数关于网络参数ω的梯度。
[0046]
接着，在线策略网络按照式（11）所示的链式法则更新，其关于网络参数θ的损失梯度如下式（16）所示：（16）上式被证实是策略梯度，然后θ可以按照（17）所示方式更新：（17）式中，α
θ
表示策略网络的学习率。
[0047]
定义外界环境为外界预测环境下各子模型的组合机制，定义智能体的功能为从外界环境感知状态并输出子模型权重到环境中，并从环境中获取相应的奖励，以超前h步风电功率预测为例，智能体从环境中感知到的状态包括，历史数值天气预报数据，待预测时刻数值天气预报数据，历史子模型风电预测结果，待预测时刻子模型预测结果，历史气象量测值，历史风电功率量测值等。因此，定义环境状态如（18）所示：（18）式中，和s1分别表示预测和量测的气象变量，s2表示基于历史风电功率预测值和量测值的子模型最近表现指标。
[0048]
定义分别表示预测和量测风速和风向，则式（18）中的可表示为式（19），s1可表示为式（20）：（19）
（20）式中，和分别表示求均值和求方差的操作。这里使用均值和方差而不是直接使用原始量测值或者预测值，是为了尽可能提取更多有价值的信息，同时降低状态量的维度，减少冗余量。
[0049]
对于s2，子模型最近表现可以用最近m+1时刻的各子模型最优权重来衡量。定义和分别表示风电功率预测值和量测值，然后根据式（21）构建的优化问题可以获取前m+1时刻各子模型的优化权重，这里的目标函数是最大化风电组合预测值向量和风电量测值向量之间的夹角余弦值。
[0050]
（21）式中，是t-i时刻第j个子模型的风电功率预测值，表示t-i时刻风电功率量测值。矩阵构成元素为，表示待优化的权重。
[0051]
根据获得的历史最优权重，s2表达如式（22）所示：（22）式中，表示t-m时刻第k个子模型的最优权重，表示待预测时刻第k个子模型的风电功率预测值。
[0052]
在时刻t，智能体的动作是赋予子模型在t+h时刻的风电功率预测值权重，动作可表示为式（23）所示：
（23）奖励机制的设置对于ddpg模型非常重要，将关乎模型的收敛性和稳定性。在本发明中，奖励的大小反应了组合模型权重设置的好坏。首先，根据组合模型预测各子模型预测的绝对误差进行排名，排名值越小说明预测表现越好，排名为1时表示预测最好。然后根据组合模型预测表现排名进行奖励函数的设计，如式（24）-（26）所示：r=r1+r2（24）（25）（26）式中，r表示总奖励，r1是部分奖励，与组合预测模型的表现排名有关，r2是另一部分奖励跟组合预测模型的预测绝对误差和最优子模型的预测绝对误差的比值有关，是组合预测模型的排名，k表示子模型的个数，m是一个常量，是组合预测值的绝对误差，表示第k个子模型的预测绝对误差。使用双曲正切函数的变体去映射组合模型预测表现排名和奖励的关系。其中m控制当排名下降时奖励下降的速度，本发明采用了3个子模型，m设为1.75，r1的设置如图3所示。可以看出，如果组合模型表现最优，智能体则会获得最高奖励，如果组合模型的排名靠前，智能体也能得到一定的奖励。相反，如果组合模型表现最差智能体将会获得最低的奖励，如果排名靠后也会获得较低的奖励。奖励r1的设置是为了保证组合模型的表现优于子模型。
[0053]
奖励r2是奖励r1的补充，他激励智能体在组合模型排名第一时进一步改善权重分配策略。该奖励机制如图4所示，当组合预测排名第一时，其绝对误差是最小的，因此和对应的r2均在[0,1]范围内，同时，r2越大，组合预测的表现越好。
[0054]
本发明的奖励设置方法是根据组合模型的排名来设计的，而不是直接采用某些精度指标，这是考虑子模型对组合模型的支配性。有时，所有的子模型都不能很好地进行预测，因此组合模型可能不能得到准确的预测结果。但是，如果组合模型比所有子模型都好得多，代理仍然可以获得较高的奖励。这种奖励设置方法对提高模型的收敛性具有积极意义。
[0055]
本实施例采用了归一化平均绝对误差（nmae）和归一化均方根误差（nrmse）对该方法的性能进行了评价。表达式分别由式（27）和式（28）得到：
（27）（28）式中，n是样本数量，和分别是风电功率量测值和预测值，c是风电场装机容量。
[0056]
本实施例以某省某100 mw风电场为例验证方法的有效性，风电功率数据由scada系统提供，风电场测风塔提供风速和风向观测数据，nwp资料由中国气象局提供。数据集的时间跨度为2016年1月1日至2017年12月31日，时间分辨率为15分钟。整个数据集分为两个子集，使用2016年1月1日至2016年12月31日的数据对svr、ann和xgboost子模型进行训练，其余数据进行ddpg-awcm的学习过程，验证其提高风电功率预测数据的有效性。
[0057]
图5和图6分别用归一化平均绝对误差（nmae）和归一化均方根误差（nrmse）来评价子模型的精度。结果表明，各子模型预测精度随预测时间的增加而降低。此外，xgboost在预测尺度较短时表现较好，随着预测时间的增加，ann的优势逐渐凸显，总的来说子模型在不同预测尺度的准确性并没有表现出很大的差异。
[0058]
图7和图8分别用talagrand分布直方图和离散度评价子模型组合效果。从图7可以看出，12h超前预测的talagrand分布直方图在0.25左右。从图8可以看出，不同尺度子模型的预测的离散程度较低，但在可接受范围内。事实上，低离散度是组合预测所面临的普遍问题，本发明通过引入自适应权重，减轻了这一问题对组合模型的影响。
[0059]
为了证实本发明所提方法的有效性，选取三个对比模型，m1表示一种滑动变权方法，其待预测时刻的子模型权重分配方法是：首先计算历史3个时刻各子模型的nmae，分别对子模型进行排名，最优子模型、次优子模型、最差子模型，其对应的误差分别是最小nmae、第二小nmae、最大nmae，然后对于待预测时刻，最优子模型的权重为最大nmae与三个子模型mae和的比值，其余子模型依次类推。m2表示一种固定权重组合方法，使用粒子群优化算法在训练集上以组合预测nrmse最小为目标优化子模型权重。m3表示算数平均组合。m4表示本发明的组合方法。
[0060]
表2显示了本发明的组合模型和对比模型在不同的预测尺度的预测精度，粗体表示当前评价指标下，该预测尺度的最优组合模型。对于预测评价指标nmae，随着预测尺度的增加，各组合预测nmae不断增加，在同一预测尺度下，本发明所提组合模型均具有最低的nmae。同样的，随着预测尺度的增加，各组合预测模型的nrmse基本呈增加趋势，在所有展示的预测尺度中，除了4小时、9小时和11小时预测外，其余预测尺度本发明所提方法均具有最低的nrmse。以12h预测为例，本发明组合模型nrmse和nmae分别为16.86%和12.16%，相对于对比模型中表现最好的m1模型分别降低了3.66%和7.74%。
[0061]
图9依次分别给出了3小时预测、6小时预测、9小时预测、12小时预测对比模型和本发明模型的绝对误差箱型图，以展示绝对误差的分布情况。每个箱子的中间横线表示中位数，上下边界表示第25百分位点和第75百分位点，分别用q1和q3表示，拖尾表示位于q3+
1.5*（q3-q1）之外的误差。可以看出，在所有展示的预测尺度中，本发明提出的组合模型均具有最低的中位数和最窄的箱子，随着预测尺度的增长，本发明所提组模型表现出的优势越明显。
[0062]
表2 不同时间尺度下各个模型的预测误差对比图10、图11和图12表示的总奖励随着学习轮数增多的变化图，其中曲线表示20次重复测试的平均值，填色带代表20次重复测试的总奖励的分布范围。其中图10和图11中使用的奖励分别是r2和组合模型预测绝对误差的负数，可以看出奖励曲线并不收敛。图12中的奖励设置是依据组合模型预测表现排名，r与r1相比多了r2，以使智能体在排名第一的基础上获得更多的奖励从而更好优化权重。从图12中可以看出，在前200轮左右，经验存储池处于样本填充阶段，因此奖励的水平很低。一旦经验存储池充满了样本你，智能体开始学习过程。actor和critic网络参数开始更新，奖励迅速上升至25左右。从第250轮左右开始，奖励开始在20-30之间波动。整个过程显示模型快速地、成功地收敛。
[0063]
图13、图14、图15和图16对比了各子模型和组合模型的预测表现，曲线是连续的每隔15分钟的12小时预测风电曲线。其中图13对比了各子模型预测风电功率曲线和真实功率曲线，图14对比了各组合方法风电功率预测结果，图15是本发明组合方法在这段时期的权重赋值情况，图16是对比组合模型m1在这段时期的权重赋值情况，m2组合模型设置的固定权重分别为：支持向量机回归0.2648，人工神经网络0.555，极端梯度增强树0.1802，m3组合模型各子模型权重均为1/3。从真实风电功率曲线上看，这段时期出现了阵风，风电功率攀
升。可以看出当风电功率大幅增加，各子模型预测值均不能及时跟踪上真实风电功率，真实风电功率高于所有子模型预测功率。在此期间人工神经网络表现最好，因此理论上最优组合模型中ann的权重应设为1。从图15中可以看出，本发明方法可以及时感知环境变化在此期间赋予人工神经网络更多的权重。固定权重模型m2和m3不能感知环境变化及时改变权重，表现最差，m1只从权重的时序变化规律出发，可以有限地实现自适应权重，表现稍好，但仍不如本发明方法。本发明可以综合考虑气象波动和权重的时序变化规律出发，更好地更全面的实现权重自适应。
[0064]
实施例二：一种基于深度确定性策略梯度算法的风电功率预测系统，包括：数据获取模块，被配置为获取风电功率预测的相关数据；预测子模型预测模块，被配置为将获取的数据分别输入到训练好的多个不同的预测子模型中，获取相应预测子模型的风电功率预测值；组合模型构建模块，被配置为构建组合模型，所述组合模型为各个预测子模型的组合，且每种预测子模型分配有各自的权重；组合模型优化模块，被配置为利用深度确定性策略梯度算法从待预测时刻的预测环境中感知当前状态，根据当前状态确定策略，得到带有探索噪声的权重，并赋值至组合模型，并根据反馈的奖励情况迭代优化所述策略，直至所述深度确定性策略梯度算法收敛；功率预测模块，被配置为依据收敛后的当前策略确定最终权重值，赋值给组合模型，得到最终的风电功率预测值。
[0065]
所述系统的详细工作方法与实施例1提供的基于深度确定性策略梯度算法的风电功率预测方法相同，这里不再赘述。
[0066]
上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

技术特征：
1.一种基于深度确定性策略梯度算法的风电功率预测方法，其特征是，包括以下步骤：获取风电功率预测的相关数据；将获取的数据分别输入到训练好的多个不同的预测子模型中，获取相应预测子模型的风电功率预测值；构建组合模型，所述组合模型为各个预测子模型的组合，且每种预测子模型分配有各自的权重；利用深度确定性策略梯度算法从待预测时刻的预测环境中感知当前状态，根据当前状态确定策略，得到带有探索噪声的权重，并赋值至组合模型，并根据反馈的奖励情况迭代优化所述策略；直至所述深度确定性策略梯度算法收敛，依据收敛后的当前策略确定最终权重值，赋值给组合模型，得到最终的风电功率预测值。2.如权利要求1所述的一种基于深度确定性策略梯度算法的风电功率预测方法，其特征是，所述风电功率预测的相关数据包括历史风电功率序列、待预测时刻风速和风向预测数据。3.如权利要求1所述的一种基于深度确定性策略梯度算法的风电功率预测方法，其特征是，所述各个预测子模型的选择依据talagrand分布和离散度综合选取，预测模型的talagrand分布越平均，预测值的标准差越大，离散度越大，越适合作为预测子模型。4.如权利要求1或3所述的一种基于深度确定性策略梯度算法的风电功率预测方法，其特征是，所述预测子模型包括支持向量机回归模型、人工神经网络模型和极端梯度增强树模型。5.如权利要求1所述的一种基于深度确定性策略梯度算法的风电功率预测方法，其特征是，所述深度确定性策略梯度算法包括两个组件：环境和智能体，所述环境为外界预测环境下各预测子模型的组合机制；所述智能体用于从外界环境感知状态并确定各预测子模型权重到环境中，并从环境中获取相应的奖励。6.如权利要求1或5所述的一种基于深度确定性策略梯度算法的风电功率预测方法，其特征是，所述深度确定性策略梯度算法包含三个基本元素：状态、动作和奖励；所述状态为反映外部环境信息的指标，包括气象预测的波动变化信息和最近若干时刻的预测子模型的预测表现信息；所述动作为确定的权重值；所述奖励包括基于排名赋予的固定奖励，以及在组合模型排名第一的情形下，基于组合模型预测绝对误差和最优预测子模型的预测绝对误差比值设置的额外奖励。7.如权利要求1所述的一种基于深度确定性策略梯度算法的风电功率预测方法，其特征是，根据反馈的奖励情况迭代优化所述策略的具体过程包括：各预测子模型按动作指示的权重加权后生成风电功率预测，环境根据奖励函数计算奖励返还至智能体，智能体根据奖励不断完善策略，形成稳定的动作选择策略。8.如权利要求1所述的一种基于深度确定性策略梯度算法的风电功率预测方法，其特征是，直至所述深度确定性策略梯度算法收敛的具体过程为：所述智能体以获取奖励最大化为目标合理分配当前环境下各预测子模型的权重，保证算法收敛的同时，实现理论上的最优权重分配。
9.一种基于深度确定性策略梯度算法的风电功率预测系统，其特征是，包括：数据获取模块，被配置为获取风电功率预测的相关数据；预测子模型预测模块，被配置为将获取的数据分别输入到训练好的多个不同的预测子模型中，获取相应预测子模型的风电功率预测值；组合模型构建模块，被配置为构建组合模型，所述组合模型为各个预测子模型的组合，且每种预测子模型分配有各自的权重；组合模型优化模块，被配置为利用深度确定性策略梯度算法从待预测时刻的预测环境中感知当前状态，根据当前状态确定策略，得到带有探索噪声的权重，并赋值至组合模型，并根据反馈的奖励情况迭代优化所述策略，直至所述深度确定性策略梯度算法收敛；功率预测模块，被配置为依据收敛后的当前策略确定最终权重值，赋值给组合模型，得到最终的风电功率预测值。10.如权利要求9所述的基于深度确定性策略梯度算法的风电功率预测系统，其特征是，所述各个预测子模型的选择依据talagrand分布和离散度综合选取，预测模型的talagrand分布越平均，预测值的标准差越大，离散度越大，越适合作为预测子模型。

技术总结
本发明属于风电功率预测技术领域，提供了一种基于深度确定性策略梯度算法的风电功率预测方法及系统，本发明利用多重不同预测方法构建组合预测的子模型，然后采用深度确定性策略梯度算法，利用算法中的智能体通过与外部预测环境交互不断试错以最大化折扣收益，最终智能体具备感知外部预测环境的能力，可以实现合理动态分配组合模型中各个预测子模型权重的能力，实现准确预测。实现准确预测。实现准确预测。

技术研发人员：杨明李梦林于一潇李鹏
受保护的技术使用者：山东大学
技术研发日：2022.03.10
技术公布日：2022/4/15

转载请注明原文地址:https://win.8miu.com/read-1144738.html

专利

最新回复(0)