MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

【应用】针对智能电网充电站最佳能量调度战略的多步多智能体强化学习

Multistep Multiagent Reinforcement Learning for Optimal Energy Schedule Strategy of Charging Stations in Smart Grid

做什么

提出了一种MARL办法，该办法结合了多智能体深度确定性战略梯度**（MADDPG）和LSTM**
运用多步奖赏函数替代实时奖赏->适度切断可进步效果
提出在线启发式调度(OHD)计划制定分配战略->考虑到车辆需求、间隔、充电站车辆束缚等
调度问题分解为两个子问题（动力购买、动力分配）

区别

现有的一些研讨只考虑了一个充电站的状况或忽略了多个充电站状况下电动轿车在能量分配过程中的志愿（如价格或与充电站的间隔）
本文一起考虑购买和分配战略
现有研讨存在维度诅咒问题，本文运用集中训练和涣散执行处理

具体工作

建模
- 向量 $M$ 表明电厂； $V$ 表明充电的轿车，共 $m$ 辆； $S$ 表明充电站，共 $n$ 个，充电站的最大电量为 $C_i$ 。
- 运行步骤
  
  1.电站购电，核算总电量 $G_{t,i}=剩下电量+购得电量$
  
  2.车辆充电请求：发送信息包括 1)轿车的当时位置 $l_i$ 2)需求电量 $d_i$ 3)最大充电功率 $PmaxiP^i_{max}$ 4)动身时刻 $tdeit^i_{de}$
  
  3.调度中心分配充电站信息给轿车，包括1)分配到哪个充电站 2)可获得的充电量
  
  4.车辆充电，核算 $新的剩下电量 = 总电量 - 售出电量 = 上一时刻步剩下电量 + 购得电量 - 售出电量$
- 两个目标：
  
  1.分配问题：1）最小化车站间隔 2）最大化充电量
  
  2.购电问题：1）最小化购电储电本钱 2）最大化售电收益
动力购买MMADDPG办法
- 环境
  - agent $N$ 代表电站
  - 状况空间 $X=\{t,P_t,D_t,e_t\}$ ，分别表明时刻步，猜测的车辆流量， $Dt={Dt1,Dt2,…,Dtn}D_t=\{D^1_t,D^2_t,…,D^n_t\}$ 表明不同电站可用充电桩数量，剩下电量
  - 调查空间 $O_i$ ：每个agent部分可调查， $oti={t,Pt,Dti,eti}o^i_t=\{t,P_t,D_t^i,e_t^i\}$
  - 动作空间 $A_i$ ：电站购电量 $ati=qt,jga^i_t=q^g_{t,j}$
  - 奖赏函数：
- 含有五个网络：**LSTM猜测车辆流量，产生 $P_t$ 作为环境的状况；**actor；critic；target actor；target critic
  - actor网络（ $_i$ ）中运用到高斯噪声作为exploration：
    
    其间=0.9995
    - 多步奖赏函数：考虑对未来的影响
      
      t时刻的奖赏会受到尔后k个时刻步内奖赏的影响，k是超参数
      
      数据会进行采样放到buffer中，batch表明为 $x_j,A_j,R_j^{(k)},x_{j+1})$
  - critic网络：输入状况行为 $x_j, A_j)$ ，输出 $Q_i(x_j, A_j)$ 是对累计折扣奖赏 $R_j^i$ 的估量（在试验中被设置为0.9）
  - target actor 与 target critic网络以一定的份额进行更新（软更新）（在试验中被设置为0.001）
动力分配OHD办法

此外，一旦车辆分配完结，将在数组I’中删除轿车i，防止被分到其他电站
- 建模
  - 轿车充电志愿
    
    其间表明衡量两部分在志愿中的重要程度的系数，第一部分为轿车充电的紧迫程度，第二部分为车辆与电站间隔。 $d_i$ 表明轿车的充电需求电量， $tdei−tt^i_{de}-t$ 表明车辆动身时刻与当时时刻的间隔， $pmaxip^i_{max}$ 表明最大充电功率
  - 束缚：1)可用充电桩的数量 2)充电站可分配的可用电量
电力购买与车辆分配联系
- 时刻顺序：时刻步t执行购买，t+1执行分配，如此往复。
- 空间联系：电站电力的购买与车辆分配的数量或者说是交通密度有关，而车辆分配也会参考电站的剩下电力

试验

点评指标：一切时刻一切agent奖赏总和、车站间隔总和、车辆充电量总和、满意度=充电总量/总间隔
MMADDPG与其他RL办法比照：DDPG、DQN、DDPG-PER
- 奖赏总和：单智能体强化学习的办法不适用于包括多个充电站的现实场景
- 车站间隔总和、车辆充电量总和、满意度：分配的间隔最近，虽然充电总和略低可是满意度高
OHD比照：1）随机计划 2）最大间隔计划 3）最大充电量计划
剖析k和超参数的影响
- k=3或4最好，k=1时便是MADDPG办法
- 在车辆少时的变化影响不大，车辆多时随着的增大满意度下降：轿车数量添加且对紧迫度的重视加大，有限的充电资源不能完全满意充电需求

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

【应用】针对智能电网充电站最佳能量调度战略的多步多智能体强化学习

做什么

区别

具体工作

建模

运行步骤

两个目标：

动力购买MMADDPG办法

环境

含有五个网络：LSTM猜测车辆流量，产生 $P_t$ 作为环境的状况；actor；critic；target actor；target critic

动力分配OHD办法

电力购买与车辆分配联系

试验

近期文章

近期评论

MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

【应用】针对智能电网充电站最佳能量调度战略的多步多智能体强化学习

做什么

区别

具体工作

建模

运行步骤

两个目标：

动力购买MMADDPG办法

环境

含有五个网络：**LSTM猜测车辆流量，产生PtP_tPt​作为环境的状况；**actor；critic；target actor；target critic

动力分配OHD办法

电力购买与车辆分配联系

试验

近期文章

近期评论

含有五个网络：LSTM猜测车辆流量，产生 $P_t$ 作为环境的状况；actor；critic；target actor；target critic