【应用】针对智能电网充电站最佳能量调度战略的多步多智能体强化学习

Multistep Multiagent Reinforcement Learning for Optimal Energy Schedule Strategy of Charging Stations in Smart Grid


做什么

  • 提出了一种MARL办法,该办法结合了多智能体深度确定性战略梯度**(MADDPG)和LSTM**
  • 运用多步奖赏函数替代实时奖赏->适度切断可进步效果
  • 提出在线启发式调度(OHD)计划制定分配战略->考虑到车辆需求、间隔、充电站车辆束缚等
  • 调度问题分解为两个子问题(动力购买、动力分配)

区别

  • 现有的一些研讨只考虑了一个充电站的状况或忽略了多个充电站状况下电动轿车在能量分配过程中的志愿(如价格或与充电站的间隔)

  • 本文一起考虑购买和分配战略

  • 现有研讨存在维度诅咒问题,本文运用集中训练和涣散执行处理


具体工作

  • 建模

    MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

    • 向量MM表明电厂;VV表明充电的轿车,共mm辆;SS表明充电站,共nn个,充电站的最大电量为CiC_i

    • 运行步骤

      1.电站购电,核算总电量Gt,i=剩下电量+购得电量G_{t,i}=剩下电量+购得电量

      2.车辆充电请求:发送信息包括 1)轿车的当时位置lil_i 2)需求电量did_i 3)最大充电功率PmaxiP^i_{max} 4)动身时刻tdeit^i_{de}

      3.调度中心分配充电站信息给轿车,包括1)分配到哪个充电站 2)可获得的充电量

      4.车辆充电,核算新的剩下电量=总电量−售出电量=上一时刻步剩下电量+购得电量−售出电量新的剩下电量=总电量-售出电量=上一时刻步剩下电量+购得电量-售出电量

    • 两个目标:

      1.分配问题:1)最小化车站间隔 2)最大化充电量

      MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

      2.购电问题:1)最小化购电储电本钱 2)最大化售电收益

      MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

  • 动力购买MMADDPG办法

    MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

    • 环境
      • agent NN代表电站

      • 状况空间X={t,Pt,Dt,et}X=\{t,P_t,D_t,e_t\},分别表明时刻步,猜测的车辆流量Dt={Dt1,Dt2,…,Dtn}D_t=\{D^1_t,D^2_t,…,D^n_t\}表明不同电站可用充电桩数量,剩下电量

      • 调查空间OiO_i:每个agent部分可调查,oti={t,Pt,Dti,eti}o^i_t=\{t,P_t,D_t^i,e_t^i\}

      • 动作空间AiA_i:电站购电量 ati=qt,jga^i_t=q^g_{t,j}

      • 奖赏函数:

        MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

    • 含有五个网络:**LSTM猜测车辆流量,产生PtP_t作为环境的状况;**actor;critic;target actor;target critic

      MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

      • actor网络i_i)中运用到高斯噪声作为exploration:

        MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

        其间=0.9995

        MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

        • 多步奖赏函数:考虑对未来的影响

          MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

          t时刻的奖赏会受到尔后k个时刻步内奖赏的影响,k是超参数

          数据会进行采样放到buffer中,batch表明为(xj,Aj,Rj(k),xj+1)(x_j,A_j,R_j^{(k)},x_{j+1})

      • critic网络:输入状况行为(xj,Aj)(x_j, A_j),输出Qi(xj,Aj)Q_i(x_j, A_j)是对累计折扣奖赏RjiR_j^i的估量(在试验中被设置为0.9)

        MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

      • target actor 与 target critic网络以一定的份额进行更新(软更新)(在试验中被设置为0.001)

        MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

  • 动力分配OHD办法

    MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

    此外,一旦车辆分配完结,将在数组I’中删除轿车i,防止被分到其他电站

    • 建模

      • 轿车充电志愿

        MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

        其间表明衡量两部分在志愿中的重要程度的系数,第一部分为轿车充电的紧迫程度,第二部分为车辆与电站间隔。did_i表明轿车的充电需求电量,tdei−tt^i_{de}-t表明车辆动身时刻与当时时刻的间隔,pmaxip^i_{max}表明最大充电功率

      • 束缚:1)可用充电桩的数量 2)充电站可分配的可用电量

  • 电力购买与车辆分配联系

    MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

    MMADDPG 针对智能电网充电站最佳能量调度策略的多步多智能体强化学习

    • 时刻顺序:时刻步t执行购买,t+1执行分配,如此往复。
    • 空间联系:电站电力的购买与车辆分配的数量或者说是交通密度有关,而车辆分配也会参考电站的剩下电力

试验

  • 点评指标:一切时刻一切agent奖赏总和、车站间隔总和、车辆充电量总和、满意度=充电总量/总间隔

  • MMADDPG与其他RL办法比照:DDPG、DQN、DDPG-PER

    • 奖赏总和:单智能体强化学习的办法不适用于包括多个充电站的现实场景
    • 车站间隔总和、车辆充电量总和、满意度:分配的间隔最近,虽然充电总和略低可是满意度高
  • OHD比照:1)随机计划 2)最大间隔计划 3)最大充电量计划

  • 剖析k和超参数的影响

    • k=3或4最好,k=1时便是MADDPG办法
    • 在车辆少时的变化影响不大,车辆多时随着的增大满意度下降:轿车数量添加且对紧迫度的重视加大,有限的充电资源不能完全满意充电需求