智能代理算法

  1. 智能代理的流程

  2. 策略空间是啥(策略集)

按容量报价????【原理】

报价策略:按照成本报价、按照持留容量(《电力市场原理与实践》)
又可以分为保守型(用电侧市场放开下的电力市场多主体博弈)

智能代理迭代的是什么?系数?

强化学习了解到什么程度?

在于策略空间和奖励函数。

  1. 强化学习中的概念最起码得对应起来:
    3.1 状态:(Q,P)状态空间,离散化【为什么要离散化】,在这里我觉得是对每个代理来说是每次的出清结果,电价和电量。
    3.2 动作(策略):策略集合?调(Q,P),在原来基础上增加减少?还有一种是在原来的报价函数基础上进行调节系数。
  • 存疑 *
    3.2.1 【发电商基于Q-Learning算法的日前市场竞价策略】
    注意这里的策略到状态是不确定的啊,状态如果是出清值的话,那么需要所有的进行出清才能得出。
    3.2.2 【基于复杂系统多Agent建模的电力市场仿真技术研究_王海宁】中:
  • 代理算法(RE算法、Q-learning算法、规则推理算法greedy、粒子群算法)和报价策略(中庸型)区别?
  • 其中策略空间中的Si是怎么计算的?
  • 可以说RE算法无关状态?
  • 其中的Q-learning环境:是选用竞价空间,代理收购约束情况与市场加权平均出清价格联合作为区分的标准。P44
    将这三个变量关联考虑,可将环境分为种状态。在程序中运用了多维矩阵来表示这些状态。

3.2.3 【电力市场仿真系统的开发及应用】
3.3 回报(奖赏):成本?
3.4 值函数(评价函数),即Q值。值函数很大程度上由奖赏函数给出的奖赏值确定,因此奖赏函数是强化学习方法中的一个重要的问题。
3.5 环境模型 :不需要
3.6 关于策略:RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。
4. 用的强化学习算法:
TD算法
SARA
Q-LEARNING

常见的强化学习算法中TD算法和Q一学习算法属于典型的模型无关法,而Sarsa和Dyna Q算法属于基于模型法(???这个是不对的,见下)。
5. 查一查强化学习在电力市场或其他领域的应用

  1. 强化学习的大体流程是什么样的?

  2. 基于价值(value-based)、基于策略(policy-based)以及基于模型(model-based)的方法
    7.1 优化价值函数
    一个状态下的函数值,是智能体可以预期的未来奖励积累总值,从当前状态开始算。智能体要用这个价值函数来决定,每一步要选择哪个行动。它会采取函数值 (就是Q值) 最大的那个行动。【不是概率?】
    7.2 每种动作都可能被选中,根据概率来选

  3. 强化学习几种分类:(括号中的是具体的方法)
    8.1 按照是否对环境进行建模可以分为:model-free(Q-learning、Sarsa、policy gradients)和model-based;
    8.2 按照选择动作的依据可以分为基于概率(Policy-based,包括policy gradients)和基于价值(value-based,包括Q-learning、Sarsa)
    8.3 按照更新可以分为回合更新(Monte-Carlo update,包括基础版policy gradients,monte-carlo learning)和单步更新(Temporal Difference,包括升级版的policy gradients,Q-learning,Sarsa);
    8.4 在线学习(on-policy)和离线学习(off-policy):

  4. 关于Roth-Erev方法
    在博士论文【王海宁】中有所提及
    绿书中的?

  5. 需要了解马尔科夫决策过程、动态规划、蒙特卡洛、时间差分这些吗?

  6. 电力市场交易中的量纲:
    申报电量原则上以 10兆瓦时的整数倍,电量的量纲为兆瓦时。
    申报电价最小单位为0.1元/兆瓦时,电价的量纲为元/兆瓦时。电力用户和发电企业应理性报价,保障本次交易工作的顺利开展。

  7. 强化学习中的多代理体

  8. R-learning:
    The average-reward formulation has been described for dynamic programming
    (e.g., Puterman, 1994) and from the point of view of reinforcement learning (Ma-
    hadevan, 1996; Tadepalli and Ok, 1994; Bertsekas and Tsitiklis, 1996; Tsitsiklis
    and Van Roy, 1999). The algorithm described here is the on-policy analog of the
    “R-learning” algorithm introduced by Schwartz (1993). The name R-learning was
    probably meant to be the alphabetic successor to Q-learning, but we prefer to
    think of it as a reference to the learning of differential or
    relative
    values. The
    access-control queuing example was suggested by the work of Carlstr ̈om and
    Nordstr ̈om (1997

显示 Gitment 评论