Jay's Blog

知而不行为不知


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 留言

  • 搜索

REC:进展及计划记录

发表于 2018-12-24 | 分类于 课题 | 阅读次数:
字数统计: 237 字 | 阅读时长 ≈ 1 分钟

2018-12-24

当前的任务是
—将整个项目和论文的框架梳理下来,确定着重研究的方向和论文展示方向。
—在确定之后,需要将数据模型抽象出来(最主要的是报价、成本、利润模型需要的参数),本期需要用的数据库定义出来。
—展示的web界面初稿绘制出来。

其实来说,当前最需要的一步是,做出最基本的集中交易出清并展示出来!!!

先明确三个模型!【书上的模型要不要】
哪个市场,要不要风电

2019-01-19

deadline是20190131!!!

  1. 完成强化学习算法参数部分;
  2. 完成成本模型的定义;
  3. 完成数据库模型;
  4. 基本功能页面的实现。
    截止目前20190127 24:00之前完成前3项;
    截止目前20190131 24:00之前完成最后一项;
    任务艰巨啊。

完成强化学习算法部分

电力交易业务之新的查询资料

发表于 2018-12-22 | 分类于 课题 | 阅读次数:
字数统计: 1.7k 字 | 阅读时长 ≈ 5 分钟

参考【用电侧市场放开下的电力市场多主体博弈】

  1. 批发市场和零售市场
    新电改下的电力市场结构

  2. 市场博弈模型也可参考上文
    但是发电商的投标函数并没有体现。

  3. 既有自主协商交易又有集中竞价交易;

  4. 这篇文章中也有强化学习

  5. 但是总体来说这篇文章重点在于售电公司,而且不够细致

参考【月度电量集中竞价市场规则的仿真实验分析】

  1. 智能代理算法RE

  2. JADE是怎么用的?

  3. 利润函数是怎样的?

  4. 其中的边际出清电价是什么?

  5. 找数据源

  6. 邮件交流:
    6.1 功能类代理是在原有agent上开发的。月度市场中代理的行为比较简单,就是一个重复报价出清的过程,代码编写的工作量不大。强化学习策略代理的实现与普通代理的实现是相同的,不同之处在于这个代理的决策是按照算法进行决策输出,具体的算法可以参考常见的强化学习算法。jade是一个比较适合于学术研究的工具,它的demo中有很多经典的case。实际应用要比那些复杂,但是基本的组成比如行为、通信等是一样的
    6.2 代理的目标比较简单,一般市场中的经济目标都是差不多的。目标有不同的表述,比如社会福利最大、发电成本最小、获利最大等。发电侧的利润是其收益与成本的差,用户侧的利润是其效益与成本的差。但是实际中用户侧的效益是由具体生产的产品来决定的,因此没有精准的模型计算。常见的处理方式是将用户侧的获利描述为市场降价空间的大小,降得越多,用户侧获利越多。

  7. 因此电力市场用户侧的报价策略是什么可以在论文中专门提出来,因为目前的大部分研究集中在研究发电侧的竞争。具体模型可以参考上6.2,以及自己定义利润函数,对于电力用户,按照满意度(偏差),售电公司按照满意度和服务费。
    也因此可以在论文中提出售电公司参与的。

参考【售电放开政策下电力交易多方主体利益分析模型研究】

  1. 电力交易模式:双边、集中

  2. 不同交易情景下发电商利益分析模型【ch6】

  3. 电商售电利益分析模型研究【ch8】

  4. 可以查一下这篇文章的两个作者的其他文章
    也可以通过邮件联系一下这篇文章的作者。
    暂无进展

参考【基于售电侧放开的电力市场交易研究】

电力交易机构的定位

参考【电力市场售电侧开放环境下售电公司购电策略研究】

售电公司的利润

参考【电力市场原理与实践】书

ch2
ch10

参考【基于代理的电力市场仿真的实验设计方法探讨】

倾向系数与竞价策略的关系?
报价段数?
算例???
方法是Roth-Erev法

参考【考虑风储参与的电力市场联动博弈分析】

算例???

参考【强化学习算法在电力市场中的应用】

主要讲考虑发电厂商的强化学习竞价策略,其思想是发电厂商在考虑了市场中的各种因素后采取一个策略,在获得实际利润之前会有一个预期的期望利润,在第一时间段得到实际利润,然后比较实际利润和期望利润, 以得到强化信号。若得到正的强化信号就加强此次所选策略的概率值,反之,就减弱此次所选策略的概率值。 在演化过程中不断用此方法来逐步修改策略,以获得最大利润。
多部分报价
分段报价函数与线性报价函数

参考【发电商基于Q-Learning算法的日前市场竞价策略】

日前市场为发电侧市场,而且将每个机组按不同容量区间进行报价,同时假定输电网络不存在阻塞现象, 整个输电网络相当于一个单节点, 即网络结构不影响出清结果。
阶梯形报价曲线,容量价格对
定义系统状态、 策略和立即收益:
(1) 系统状态: 系统状态$由市场的出清价格表示。
(2) 策略: 由式(8)得到各个发电商机组的报价策略集。 各个机组的策略集组合就得到发电商的报价策略集。 例如某发电商有 2 台机组, 每台机组有 5种策略, 则发电商一共有 5×5 = 25 种报价策略。
(3) 立即收益: 本文中各个代理的立即收益取该轮交易发电商得到的利润, 即收入减去成本, 可由式(3)得出。
程序的具体算法如下:
第 1 步: 随机初始化各个发电商的最优策略,进行一次交易。得到的市场出清价格作为初始状态。
第 2 步: 在新一轮市场交易开始时, 发电商用上一轮次交易的 24 时段市场出清价格作为当前的状态。在得到各个时段的当前状态后, 发电商应用改进的!-greedy 策略选出一个策略作为本轮次的报价策略。
第 3 步: 更新”值, 计算本轮次的立即收益#$。并且由本轮次出清价格得到下一交易轮次的系统状态, 根据式 (11) 更新 lookup表中的”值。
第 4 步: 判断是否达到规定的轮次, 否则返回第 2 步。

参考【考虑风储参与的电力市场联动博弈分析】

发电商和供电商策略集合由一定范围内的上网电价和销售电价组成,对应策略利润为中标发电和销售电能产生的利润。

参考【基于改进Q学习算法的发电商竞价策略】

未看

参考【电力批发市场中基于强化学习的参与者行为特性研究】

未看,英文

参考【多Agent系统中强化学习的研究现状和发展趋势】

强化学习作为多agent系统中更新行为策略

参考 【电力市场仿真系统的开发及应用】

算例

集中出清规则

发表于 2018-12-22 | 分类于 课题 | 阅读次数:
字数统计: 598 字 | 阅读时长 ≈ 2 分钟

输入:

电厂报价报量`arr1[][]`,
用户报价报量`arr2[][]`。
不应该是数组,而应该是一个抽象的数据类型,存有

输出:

出清价格:Price
成交电量对(一个用户可以在多个成交对之中)ResultSet。

算法流程:

0-. 按地区分组
0. 数据有效筛选(购方申报数据筛选和售方数据筛选不一样)

  1. 按照报价排序,电厂升序p1,用户降序p2,相应的报量序列为q1,q2;【价格相同时,售方按照单机容量等级由大到小进行排列】
  2. 得到成交电量对,其中成交电量为q_current = min{q1[0],q2[0]};
  3. 更新p1,p2以及q1,q2.

    从对应的报量序列中减去当前成交的电量q_current,如果报量为0,则将其与对应的报价排序中的元素移除;

  4. 对更新后的序列执行步骤1,直至q1,q2中有一个为空,结束。

可视化

过程可视化?
结果可视化:
图片,表格

编码

其中,不同步骤的数据模型是不一样的,最起码在这里的模型是没有那些成本信息的。
问题在于如何返送回去?
数据进行封装,通过id进行索引。

  1. 基本数据模型:
    :
    抽象父类—–发电商顶级类 —
    |
    —电力用户顶级类—
  2. 代理类:
  3. 封装类:

最终保存的结果【比如一个用户成交了几笔,关联交易表】在entity怎么保存。
交易实体类

广东省的出清

在广东的规则中,对日前市场如何出清是这样描述的:

  “电力调度机构综合考虑发电侧电力报价曲线、用户侧电力需求价格曲线、非市场用户负荷预测、外送受电曲线、A 类机组出力曲线、发电机组检修计划、输变电设备检修计划、发电机组运行约束条件、电网安全运行约束条件等因素,以社会福利最大为优化目标,采用安全约束机组组合(SCUC)、安全约束经济调度(SCED)算法进行集中优化计算,出清得到运行日的机组开机组合以及分时发电出力曲线、售电公司与批发用户分时分节点的中标用电曲线、分时节点电价。”

难点之电力市场业务

发表于 2018-12-20 | 分类于 课题 | 阅读次数:
字数统计: 320 字 | 阅读时长 ≈ 1 分钟
  1. 长期的集中撮合的成本函数以及报价函数,利润函数的制定?
    不是与出力有关,而是与电量有关。

  2. 电力用户的利润函数?

  3. 边际成本?
    边际运行成本和边际价格是不一样的,后者是出清时的概念。

  4. 代理算法

  5. 如果用集中竞价交易,流程参考陕西省文件

  6. 定价不等于报价:
    定价在《电力市场原理与实践》中有详细叙述

  7. 按机组报价

  8. 分段报价
    王锡凡分段竞价?
    可以提出来有的会允许分块报价,本文按照陕西省电力交易规则采用一户一量一价。即“实行“一户一量一价”,不实行分月分段申报”

  9. 出清模型不一样啊~~~社会福利最大。
    写文章时,出清模型按照这样写,在这部分最后写本文采取的出清方法,按照陕西省通知来做。

  10. 报价除了有报价函数外,还可以有发电侧电力报价曲线,用户侧电力需求价格曲线

  11. 陕西省2018年上半年集中竞价模式电力直接交易成交结果中关中陕南地区是按照是按照机组来的???

智能代理算法

发表于 2018-12-19 | 分类于 课题 | 阅读次数:
字数统计: 1.2k 字 | 阅读时长 ≈ 4 分钟
  1. 智能代理的流程

  2. 策略空间是啥(策略集)

按容量报价????【原理】

报价策略:按照成本报价、按照持留容量(《电力市场原理与实践》)
又可以分为保守型(用电侧市场放开下的电力市场多主体博弈)

智能代理迭代的是什么?系数?

强化学习了解到什么程度?

在于策略空间和奖励函数。

  1. 强化学习中的概念最起码得对应起来:
    3.1 状态:(Q,P)状态空间,离散化【为什么要离散化】,在这里我觉得是对每个代理来说是每次的出清结果,电价和电量。
    3.2 动作(策略):策略集合?调(Q,P),在原来基础上增加减少?还有一种是在原来的报价函数基础上进行调节系数。
  • 存疑 *
    3.2.1 【发电商基于Q-Learning算法的日前市场竞价策略】
    注意这里的策略到状态是不确定的啊,状态如果是出清值的话,那么需要所有的进行出清才能得出。
    3.2.2 【基于复杂系统多Agent建模的电力市场仿真技术研究_王海宁】中:
  • 代理算法(RE算法、Q-learning算法、规则推理算法greedy、粒子群算法)和报价策略(中庸型)区别?
  • 其中策略空间中的Si是怎么计算的?
  • 可以说RE算法无关状态?
  • 其中的Q-learning环境:是选用竞价空间,代理收购约束情况与市场加权平均出清价格联合作为区分的标准。P44
    将这三个变量关联考虑,可将环境分为种状态。在程序中运用了多维矩阵来表示这些状态。

3.2.3 【电力市场仿真系统的开发及应用】
3.3 回报(奖赏):成本?
3.4 值函数(评价函数),即Q值。值函数很大程度上由奖赏函数给出的奖赏值确定,因此奖赏函数是强化学习方法中的一个重要的问题。
3.5 环境模型 :不需要
3.6 关于策略:RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。
4. 用的强化学习算法:
TD算法
SARA
Q-LEARNING

常见的强化学习算法中TD算法和Q一学习算法属于典型的模型无关法,而Sarsa和Dyna Q算法属于基于模型法(???这个是不对的,见下)。
5. 查一查强化学习在电力市场或其他领域的应用

  1. 强化学习的大体流程是什么样的?

  2. 基于价值(value-based)、基于策略(policy-based)以及基于模型(model-based)的方法
    7.1 优化价值函数
    一个状态下的函数值,是智能体可以预期的未来奖励积累总值,从当前状态开始算。智能体要用这个价值函数来决定,每一步要选择哪个行动。它会采取函数值 (就是Q值) 最大的那个行动。【不是概率?】
    7.2 每种动作都可能被选中,根据概率来选

  3. 强化学习几种分类:(括号中的是具体的方法)
    8.1 按照是否对环境进行建模可以分为:model-free(Q-learning、Sarsa、policy gradients)和model-based;
    8.2 按照选择动作的依据可以分为基于概率(Policy-based,包括policy gradients)和基于价值(value-based,包括Q-learning、Sarsa)
    8.3 按照更新可以分为回合更新(Monte-Carlo update,包括基础版policy gradients,monte-carlo learning)和单步更新(Temporal Difference,包括升级版的policy gradients,Q-learning,Sarsa);
    8.4 在线学习(on-policy)和离线学习(off-policy):

  4. 关于Roth-Erev方法
    在博士论文【王海宁】中有所提及
    绿书中的?

  5. 需要了解马尔科夫决策过程、动态规划、蒙特卡洛、时间差分这些吗?

  6. 电力市场交易中的量纲:
    申报电量原则上以 10兆瓦时的整数倍,电量的量纲为兆瓦时。
    申报电价最小单位为0.1元/兆瓦时,电价的量纲为元/兆瓦时。电力用户和发电企业应理性报价,保障本次交易工作的顺利开展。

  7. 强化学习中的多代理体

  8. R-learning:
    The average-reward formulation has been described for dynamic programming
    (e.g., Puterman, 1994) and from the point of view of reinforcement learning (Ma-
    hadevan, 1996; Tadepalli and Ok, 1994; Bertsekas and Tsitiklis, 1996; Tsitsiklis
    and Van Roy, 1999). The algorithm described here is the on-policy analog of the
    “R-learning” algorithm introduced by Schwartz (1993). The name R-learning was
    probably meant to be the alphabetic successor to Q-learning, but we prefer to
    think of it as a reference to the learning of differential or
    relative
    values. The
    access-control queuing example was suggested by the work of Carlstr ̈om and
    Nordstr ̈om (1997

智能代理算法

发表于 2018-12-19 | 分类于 课题 | 阅读次数:
字数统计: 1.2k 字 | 阅读时长 ≈ 4 分钟
  1. 智能代理的流程

  2. 策略空间是啥(策略集)

按容量报价????【原理】

报价策略:按照成本报价、按照持留容量(《电力市场原理与实践》)
又可以分为保守型(用电侧市场放开下的电力市场多主体博弈)

智能代理迭代的是什么?系数?

强化学习了解到什么程度?

在于策略空间和奖励函数。

  1. 强化学习中的概念最起码得对应起来:
    3.1 状态:(Q,P)状态空间,离散化【为什么要离散化】,在这里我觉得是对每个代理来说是每次的出清结果,电价和电量。
    3.2 动作(策略):策略集合?调(Q,P),在原来基础上增加减少?还有一种是在原来的报价函数基础上进行调节系数。
  • 存疑 *
    3.2.1 【发电商基于Q-Learning算法的日前市场竞价策略】
    注意这里的策略到状态是不确定的啊,状态如果是出清值的话,那么需要所有的进行出清才能得出。
    3.2.2 【基于复杂系统多Agent建模的电力市场仿真技术研究_王海宁】中:
  • 代理算法(RE算法、Q-learning算法、规则推理算法greedy、粒子群算法)和报价策略(中庸型)区别?
  • 其中策略空间中的Si是怎么计算的?
  • 可以说RE算法无关状态?
  • 其中的Q-learning环境:是选用竞价空间,代理收购约束情况与市场加权平均出清价格联合作为区分的标准。P44
    将这三个变量关联考虑,可将环境分为种状态。在程序中运用了多维矩阵来表示这些状态。

3.2.3 【电力市场仿真系统的开发及应用】
3.3 回报(奖赏):成本?
3.4 值函数(评价函数),即Q值。值函数很大程度上由奖赏函数给出的奖赏值确定,因此奖赏函数是强化学习方法中的一个重要的问题。
3.5 环境模型 :不需要
3.6 关于策略:RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。
4. 用的强化学习算法:
TD算法
SARA
Q-LEARNING

常见的强化学习算法中TD算法和Q一学习算法属于典型的模型无关法,而Sarsa和Dyna Q算法属于基于模型法(???这个是不对的,见下)。
5. 查一查强化学习在电力市场或其他领域的应用

  1. 强化学习的大体流程是什么样的?

  2. 基于价值(value-based)、基于策略(policy-based)以及基于模型(model-based)的方法
    7.1 优化价值函数
    一个状态下的函数值,是智能体可以预期的未来奖励积累总值,从当前状态开始算。智能体要用这个价值函数来决定,每一步要选择哪个行动。它会采取函数值 (就是Q值) 最大的那个行动。【不是概率?】
    7.2 每种动作都可能被选中,根据概率来选

  3. 强化学习几种分类:(括号中的是具体的方法)
    8.1 按照是否对环境进行建模可以分为:model-free(Q-learning、Sarsa、policy gradients)和model-based;
    8.2 按照选择动作的依据可以分为基于概率(Policy-based,包括policy gradients)和基于价值(value-based,包括Q-learning、Sarsa)
    8.3 按照更新可以分为回合更新(Monte-Carlo update,包括基础版policy gradients,monte-carlo learning)和单步更新(Temporal Difference,包括升级版的policy gradients,Q-learning,Sarsa);
    8.4 在线学习(on-policy)和离线学习(off-policy):

  4. 关于Roth-Erev方法
    在博士论文【王海宁】中有所提及
    绿书中的?

  5. 需要了解马尔科夫决策过程、动态规划、蒙特卡洛、时间差分这些吗?

  6. 电力市场交易中的量纲:
    申报电量原则上以 10兆瓦时的整数倍,电量的量纲为兆瓦时。
    申报电价最小单位为0.1元/兆瓦时,电价的量纲为元/兆瓦时。电力用户和发电企业应理性报价,保障本次交易工作的顺利开展。

  7. 强化学习中的多代理体

  8. R-learning:
    The average-reward formulation has been described for dynamic programming
    (e.g., Puterman, 1994) and from the point of view of reinforcement learning (Ma-
    hadevan, 1996; Tadepalli and Ok, 1994; Bertsekas and Tsitiklis, 1996; Tsitsiklis
    and Van Roy, 1999). The algorithm described here is the on-policy analog of the
    “R-learning” algorithm introduced by Schwartz (1993). The name R-learning was
    probably meant to be the alphabetic successor to Q-learning, but we prefer to
    think of it as a reference to the learning of differential or
    relative
    values. The
    access-control queuing example was suggested by the work of Carlstr ̈om and
    Nordstr ̈om (1997

电力市场业务

发表于 2018-12-13 | 分类于 课题 | 阅读次数:
字数统计: 545 字 | 阅读时长 ≈ 1 分钟
  1. 报价模型与成本模型

  2. 不同电厂的成本模型

  3. 出清算法

  4. 具体的出清过程是怎样的?

  5. 集中交易参考陕西省《关于开展陕西省2018年下半年集中竞价模式电力直接交易的通知》

5.1 交易申报:
电力用户、售电公司和发电企业,申报内容包括购、售电量和直接交易电价。
5.2 竞价出清:
根据电力用户、售电公司和发电企业申报的有效数据进行排序,形成购方、售方电价排序队列。再按照集中竞价交易算法规则,采用边际定价法(统一出清电价Uniform Clearing Price,UCP和节点电价Locational Marginal Price,LMP,P30,from《电力市场原理与实践》)出清,得到无约束交易结果。
PAB(是pay as bid)

  1. 分时竞价?分段竞价?

  2. 要不要竞争对手的历史报价和其他信息。

  3. 其实仿真的是一个如何报价的过程

  4. 一些术语都是什么意思?
    报价函数和成本函数
    报价格式
    边际成本曲线

  5. 成本函数中的是电量还是出力?

  6. 机组容量和装机容量?机组信息?
    13.1 装机容量:电力系统的总装机容量是指该系统实际安装的发电机组额定有功功率的总和,以千瓦(KW)、兆瓦(MW)、吉瓦(GW)计(10的9次方进制)为单位 。一般标明在设备的铭牌上,亦称铭牌容量。装机容量为2*15万千瓦就是两台15万千瓦的发电机组。每台每小时的发电量为15万千瓦 。
    13.2 机组容量:发电机组的容量,是指机组的额定发电功率,比如一个机组是1MW,一小时额定发电量就是1MWh(一小时额定发电量为1000度。)
    13.3 一个电厂会有多个机组。

  7. ** 成本函数为什么是二次的形式?
    报价函数用成本函数的导数?所谓的边际成本函数? **

  8. 基于成本分析的发电厂商报价策略作为初始报价?P179,绿书

代码设计之类

发表于 2018-12-12 | 阅读次数:
字数统计: 0 字 | 阅读时长 ≈ 1 分钟

仿真器

发表于 2018-12-12 | 分类于 课题 | 阅读次数:
字数统计: 237 字 | 阅读时长 ≈ 1 分钟
  1. 仿真容器,仿真时序的设置
    盘数、轮数

  2. 最后的界面是什么样的?
    2.1 前端页面包括的部分:
    2.1.1 自定义节点
    2.1.2 仿真参数设置
    2.1.3 仿真阶段设置(几轮)
    2.1.4 仿真结果展示
    2.1.5 交易
    2.2 各部分应该怎么展示:

  3. 前后端的交互问题:
    前端展示的是什么?即问题2.
    3.1 前端给后端传的是什么数据:
    3.1.1 agent数据:自定义模型的数据到后端进行封装(统一的param模型);
    3.1.2 交易规则数据;
    3.1.3 仿真环境数据;
    3.1.4 报价数据。
    问题是数据要不要分离。
    3.2 后端传给前端的是什么数据:

  4. 多时间尺度的仿真怎么实现?

  5. 数据的问题:
    基本的报价数据:
    与报价策略、成本、利润相关的参数

JADE使用的一些问题记录

发表于 2018-12-03 | 分类于 课题 | 阅读次数:
字数统计: 146 字 | 阅读时长 ≈ 1 分钟
  1. 怎么不用-gui启动jade。

  2. 仿真调度流程

  3. 外部调用jade?

  4. agent算法在这里怎么集成?也就是策略。

  5. 一个完整的图书交易流程是怎样的?
    行为是怎么添加的?

  6. jade能分段仿真吗?

  7. buyer中缺少一个输入的包装类

  8. BookSeller中的PriceManager;
    BookBuyer中的PurchaseManager。

  9. Bookinfo与book本体

  10. 本体

  11. AMS(agent管理系统),mts(消息传输服务,主要指acl消息),df(目录服务器)

  12. 注意:多agent系统与智能代理是不一样的!

  13. 是参考jade的思考设计,还是嵌入jade?(如何嵌入)

<i class="fa fa-angle-left"></i>1…202122…27<i class="fa fa-angle-right"></i>

264 日志
34 分类
38 标签
GitHub Zhihu Wechat
© 2024 史海杰 | Site words total count: 722k
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4