智能代理算法

智能代理的流程
策略空间是啥（策略集）

按容量报价？？？？【原理】

报价策略：按照成本报价、按照持留容量（《电力市场原理与实践》）
又可以分为保守型（用电侧市场放开下的电力市场多主体博弈）

智能代理迭代的是什么?系数？

强化学习了解到什么程度？

在于策略空间和奖励函数。

强化学习中的概念最起码得对应起来：
3.1 状态：（Q,P）状态空间，离散化【为什么要离散化】，在这里我觉得是对每个代理来说是每次的出清结果，电价和电量。
3.2 动作（策略）：策略集合？调（Q,P），在原来基础上增加减少？还有一种是在原来的报价函数基础上进行调节系数。

存疑 *
3.2.1 【发电商基于Q-Learning算法的日前市场竞价策略】
注意这里的策略到状态是不确定的啊，状态如果是出清值的话，那么需要所有的进行出清才能得出。
3.2.2 【基于复杂系统多Agent建模的电力市场仿真技术研究_王海宁】中：
代理算法（RE算法、Q-learning算法、规则推理算法greedy、粒子群算法）和报价策略（中庸型）区别?
其中策略空间中的Si是怎么计算的？
可以说RE算法无关状态？
其中的Q-learning环境：是选用竞价空间，代理收购约束情况与市场加权平均出清价格联合作为区分的标准。P44
将这三个变量关联考虑，可将环境分为种状态。在程序中运用了多维矩阵来表示这些状态。

3.2.3 【电力市场仿真系统的开发及应用】
3.3 回报（奖赏）：成本？
3.4 值函数（评价函数），即Q值。值函数很大程度上由奖赏函数给出的奖赏值确定，因此奖赏函数是强化学习方法中的一个重要的问题。
3.5 环境模型：不需要
3.6 关于策略：RL是从环境状态到动作的映射的学习，我们把这个映射称为策略。
4. 用的强化学习算法：
TD算法
SARA
Q-LEARNING

常见的强化学习算法中TD算法和Q一学习算法属于典型的模型无关法，而Sarsa和Dyna Q算法属于基于模型法（？？？这个是不对的，见下）。
5. 查一查强化学习在电力市场或其他领域的应用

强化学习的大体流程是什么样的？
基于价值（value-based）、基于策略（policy-based）以及基于模型（model-based）的方法
7.1 优化价值函数
一个状态下的函数值，是智能体可以预期的未来奖励积累总值，从当前状态开始算。智能体要用这个价值函数来决定，每一步要选择哪个行动。它会采取函数值 (就是Q值) 最大的那个行动。【不是概率？】
7.2 每种动作都可能被选中，根据概率来选
强化学习几种分类：（括号中的是具体的方法）
8.1 按照是否对环境进行建模可以分为：model-free（Q-learning、Sarsa、policy gradients）和model-based;
8.2 按照选择动作的依据可以分为基于概率（Policy-based，包括policy gradients）和基于价值（value-based，包括Q-learning、Sarsa）
8.3 按照更新可以分为回合更新（Monte-Carlo update，包括基础版policy gradients，monte-carlo learning）和单步更新（Temporal Difference,包括升级版的policy gradients，Q-learning，Sarsa）;
8.4 在线学习（on-policy）和离线学习（off-policy）：
关于Roth-Erev方法
在博士论文【王海宁】中有所提及
绿书中的？
需要了解马尔科夫决策过程、动态规划、蒙特卡洛、时间差分这些吗？
电力市场交易中的量纲：
申报电量原则上以 10兆瓦时的整数倍，电量的量纲为兆瓦时。
申报电价最小单位为0.1元/兆瓦时，电价的量纲为元/兆瓦时。电力用户和发电企业应理性报价，保障本次交易工作的顺利开展。
强化学习中的多代理体
R-learning:
The average-reward formulation has been described for dynamic programming
(e.g., Puterman, 1994) and from the point of view of reinforcement learning (Ma-
hadevan, 1996; Tadepalli and Ok, 1994; Bertsekas and Tsitiklis, 1996; Tsitsiklis
and Van Roy, 1999). The algorithm described here is the on-policy analog of the
“R-learning” algorithm introduced by Schwartz (1993). The name R-learning was
probably meant to be the alphabetic successor to Q-learning, but we prefer to
think of it as a reference to the learning of differential or
relative
values. The
access-control queuing example was suggested by the work of Carlstr ̈om and
Nordstr ̈om (1997