本发明属于油藏生产优化,具体涉及一种近期经验引导的油藏多类措施流场调控强化学习方法。
背景技术:
1、由于我国油藏具有强非均质性,在油藏开发过程中平面矛盾和层间矛盾突出。注入水通常会沿高渗通道快速突进到生产井中,导致低渗区域富集大量的剩余油难以采出,油藏各层之间剩余油驱替不均匀。因此亟需采取多类调控措施以提高剩余油动用程度,实现均衡驱替。
2、在实际生产过程中通常需要同时进行层位封堵和注采优化措施以缓解层间矛盾和平面矛盾。因此对特定层位进行封堵并同时调控各井的注采制度显得尤为重要。但现有的生产优化方法大多只对各井的注采制度进行调控,措施调控方式单一,且优化效率较低,难以实现层位和注采制度高效优化。因此如何实现油藏多类措施流场调控,并提高层位及注采制度优化效率是一项亟待解决的问题。
技术实现思路
1、为了解决现有生产优化方法仅聚焦于注采制度的调控,措施调控方式单一,难以实现层位封堵及注采制度高效联调的问题,本发明提出了一种近期经验引导的油藏多类措施流场调控强化学习方法。该方法针对层位封堵优化变量离散化和注采制度优化变量连续化的特点,构建了油藏离散和连续调控措施混合动作空间,基于混合动作空间构建油藏多类措施流场调控混合深度强化学习智能体模型,并利用智能体与流场调控数值模拟器交互产生大量的调控经验样本,进而生成油藏多类措施流场调控经验样本库,采用近期经验采样机制从样本库中采集近期调控经验以训练更新智能体,进而得到最优的油藏多类措施流场调控方案。
2、本发明的技术方案如下:
3、一种近期经验引导的油藏多类措施流场调控强化学习方法,包括如下步骤:
4、步骤1、确定需要优化的层位及注采优化变量;
5、步骤2、结合油藏多类措施中层位封堵离散优化变量和注采制度连续优化变量,构建油藏离散和连续调控措施混合动作空间;
6、步骤3、基于混合动作空间,构建油藏多类措施流场调控混合深度强化学习智能体模型;
7、步骤4、将智能体模型与流场调控数值模拟器持续交互,生成油藏多类措施流场调控经验样本库;
8、步骤5、结合近期经验采样机制从样本库中采集近期调控经验,训练更新智能体模型,输出最优的油藏多类措施流场调控方案。
9、进一步地,所述步骤1中,根据目标油藏确定各个调控时间步内需要调控注采制度的油水井以及需要封堵的层位数量,需要优化的层位及注采优化变量表示为:
10、 (1);
11、式中,是所有需要封堵的层位数量;是优化的注水井数;是优化的生产井数;是调控时间步数,每个调控时间步为一个优化周期;是第个时间步下第个需要封堵的层位;是第个时间步下第口优化的注水井的注水速率;是第个时间步下第口优化的生产井的生产速率。
12、进一步地,所述步骤2的具体过程如下:
13、步骤2.1、根据油藏多类措施中层位优化变量离散化的特点,构建层位离散动作空间:
14、 (2);
15、 (3);
16、 (4);
17、式中,表示层位离散动作空间,一个层位调控井对应一个子离散动作空间,因此中共包含个子离散动作空间;表示第个子离散动作空间;为层位编号;表示第个子离散动作空间对应的层位调控井所钻遇的油藏层数;表示第个时间步下的所有层位离散动作;为第个时间步下第个子离散动作空间对应的层位离散动作;为层位离散动作空间的维度;为第个子离散动作空间的维度;
18、步骤2.2、根据注采优化变量连续化的特点,构建注采连续动作空间:
19、 (5);
20、式中,表示第个时间步下的注采连续动作;为第个时间步下的第个注采制度调控井对应的第个注采连续动作;表示连续动作空间;
21、步骤2.3、根据构建的层位离散动作空间和注采连续动作空间,整合为油藏离散和连续调控措施混合动作空间:
22、 (6);
23、式中,表示油藏离散和连续调控措施混合动作空间;表示第个时间步下的油藏多类措施流场调控混合动作,包括各调控井的层位优化变量和注采连续优化变量。
24、进一步地,所述步骤3中,油藏多类措施流场调控混合深度强化学习智能体模型包括策略网络模型、动作价值网络模型、目标动作价值网络模型;
25、所述步骤3的具体过程为:
26、步骤3.1、基于油藏离散和连续调控措施混合动作空间,构建策略网络模型;策略网络模型包括卷积神经网络、离散动作全连接网络、连续动作全连接网络;其中,卷积神经网络负责处理油藏饱和度场和压力场输入状态;离散动作全连接网络输出层神经元个数为,负责决策层位优化变量;连续动作全连接网络输出层神经元个数为,包括用于构建高斯分布的个均值和个方差,连续动作全连接网络负责决策注采优化变量的;为连续动作空间的维度;
27、输入的油藏饱和度场和压力场数据首先通过卷积神经网络以提取油藏隐式状态特征,然后将提取的油藏隐式状态特征分别输入到离散动作全连接网络和连续动作全连接网络中,生成离散动作概率分布和连续动作的高斯分布,最后输出油藏多类措施流场调控混合动作;
28、步骤3.2、基于油藏状态和注采连续动作空间,构建动作价值网络模型和目标动作价值网络模型;
29、动作价值网络模型和目标动作价值网络模型结构相同,均包括负责处理油藏饱和度场和压力场输入状态的卷积神经网络和负责输出动作q值的全连接网络;对于动作价值网络模型和目标动作价值网络模型,输入的油藏饱和度场和压力场数据首先通过卷积神经网络以提取油藏隐式状态特征,然后将油藏隐式状态特征和连续动作同时输入到全连接网络中,分别得到动作q值和目标动作q值。
30、进一步地,所述步骤4的具体过程为:
31、步骤4.1、将第个时间步下的油藏模型的饱和度场和压力场数据作为油藏状态输入到策略网络模型中,得到层位离散动作概率分布和注采连续动作高斯分布,然后分别采样得到和,最后输出第个时间步下的油藏多类措施流场调控混合动作,其中层位离散动作概率分布和注采连续动作高斯分布分别通过下式计算得到:
32、 (7);
33、 (8);
34、 (9);
35、式中,为层位离散动作策略,为权重;为第个时间步下的油藏状态,油藏状态包括油藏模型的饱和度场和压力场数据;表示第个子离散动作空间的离散动作概率分布;表示离散动作全连接网络输出的第个值;为softmax函数;为注采连续动作策略;表示第个注采连续动作对应的高斯分布;
36、步骤4.2、调用流场调控数值模拟器计算当前时间步下的累产油和累产水以及累注水量,然后结合奖励函数评估的优劣,其中奖励函数表示为:
37、 (10);
38、式中,为第个时间步下的奖励;和分别表示油藏模型的生产井和注水井总数;表示原油价格,和分别表示产水处理成本和注水成本;、分别是第个时间步下第口生产井的日产油量、日产水量;是第个时间步下第口注水井的注水速率;是单个时间步长的时间间隔;
39、步骤4.3、获取油藏模型第时间步下的油藏状态,并将第个时间步下的油藏多类措施流场调控经验保存在油藏多类措施流场调控经验样本库中;
40、步骤4.4、重复步骤4.1-步骤4.3,收集油藏开发个调控时间步下的油藏多类措施流场调控经验。
41、进一步地,所述步骤5的具体过程如下:
42、步骤5.1、采用模拟退火机制动态调整近期经验样本重视程度,具体如下所示:
43、 (11);
44、式中,表示对近期经验样本的重视程度;为的初始值;和分别表示当前迭代次数和总迭代次数,随着迭代次数的增加,逐渐增加到1并最终退火为均匀采样;
45、步骤5.2、根据中油藏多类措施流场调控经验样本的数量,计算当前迭代轮次下每次更新时的近期经验样本采样范围,并在该采样范围内小批量采样,得到近期调控经验,其中近期经验样本采样范围的计算公式如下所示:
46、 (12);
47、式中,表示第次更新时近期经验采样范围;为每次采样范围的最小值;为第次更新时经验缓存区的大小;为每个迭代轮次下的更新次数;
48、步骤5.3、根据近期调控经验计算动作价值损失,并更新动作价值网络模型参数,具体如下所示:
49、 (13);
50、 (14);
51、 (15);
52、式中,表示动作价值损失,为权重;表示计算期望;表示动作价值网络模型输出;表示折扣因子;为目标动作价值,为权重;为第个时间步下的所有层位离散动作;表示转置操作;表示目标动作价值网络模型输出;为第个时间步下的注采连续动作;为混合动作的策略熵;和分别表示连续动作和离散动作的温度系数;
53、步骤5.4、根据近期调控经验计算混合动作策略损失,并更新策略网络模型参数,具体如下所示:
54、 (16);
55、 (17);
56、 (18);
57、式中,表示混合动作策略损失;表示离散动作策略损失;表示连续动作策略损失;为的策略;
58、步骤5.5、重复步骤4.1-步骤5.4,完成轮训练,得到训练后的智能体模型;
59、步骤5.6、将油藏各个时间步的饱和度场和压力场数据分别输入到训练后的智能体模型中,得到最优的油藏多类措施流场调控方案。
60、本发明所带来的有益技术效果:本发明针对现有生产优化方法仅聚焦于注采制度的调控,措施调控方式单一,难以实现层位封堵及注采制度高效联调的问题,提出一种近期经验引导的油藏多类措施流场调控强化学习方法。本发明所提出的方法通过构建油藏离散和连续调控措施混合动作空间可耦合层位封堵和注采制度优化变量,基于混合动作空间构建的油藏多类措施流场调控混合深度强化学习智能体模型,能够对层位封堵和注采制度进行精确的联合调控,同时引入模拟退火机制动态调整近期经验采样范围并从中采集近期经验样本,使智能体能够高效利用调控经验样本,迅速找到最优的调控策略,具有很好的推广应用价值。
1.一种近期经验引导的油藏多类措施流场调控强化学习方法,其特征在于,包括如下步骤:
2.根据权利要求1所述近期经验引导的油藏多类措施流场调控强化学习方法,其特征在于,所述步骤1中,根据目标油藏确定各个调控时间步内需要调控注采制度的油水井以及需要封堵的层位数量,需要优化的层位及注采优化变量表示为:
3.根据权利要求2所述近期经验引导的油藏多类措施流场调控强化学习方法,其特征在于,所述步骤2的具体过程如下:
4.根据权利要求3所述近期经验引导的油藏多类措施流场调控强化学习方法,其特征在于,所述步骤3中,油藏多类措施流场调控混合深度强化学习智能体模型包括策略网络模型、动作价值网络模型、目标动作价值网络模型;
5.根据权利要求4所述近期经验引导的油藏多类措施流场调控强化学习方法,其特征在于,所述步骤4的具体过程为:
6.根据权利要求5所述近期经验引导的油藏多类措施流场调控强化学习方法,其特征在于,所述步骤5的具体过程如下:
