您的位置：首页 - 站长

o2o网站建设方案讲解wordpress 破解主题下载地址

作者: 多梦笔记
时间: 2026年02月17日 08:06

当前位置：首页 > news >正文

o2o网站建设方案讲解,wordpress 破解主题下载地址,iis网站属性怎么打开,特色网站模板文章目录 1. 是什么2. 有何优点3. 基本概念3.1 立即回报3.2 累积回报3.3 状态值函数3.4 行为值函数3.4 回合#xff08;或完整轨迹#xff0c;episode#xff09;3.5 多个回合#xff08;或完整轨迹#xff09;的描述 4.MC强化学习问题的正式描述5. 蒙特卡洛#xff08;M… 文章目录 1. 是什么2. 有何优点3. 基本概念3.1 立即回报3.2 累积回报3.3 状态值函数3.4 行为值函数3.4 回合或完整轨迹episode3.5 多个回合或完整轨迹的描述 4.MC强化学习问题的正式描述5. 蒙特卡洛MC强化学习算法的基本框架 1. 是什么蒙特卡洛强化学习(简称MC强化学习是一种无模型强化学习算法该算法无需知道马尔科夫决策环境模型即不需要提前获得立即回报期望矩阵R维度为(nS,nA)、状态转移概率数组P维度为(nA,nS,nS)而是通过与环境的反复交互使用统计学方法利用交互数据直接进行策略评估和策略优化从而学到最优策略。

有何优点无需环境模型易于编程、通用性强。
基本概念为了更好的描述MC方法深入理解如下概念非常必要。 3.1 立即回报在某状态 s t s_t st下智能体执行某行为 a t a_t at后获得的一次来自环境的即时奖励例如在格子世界中寻宝的实验中智能体在距离宝藏较远的距离时向右移动后获得来自环境的即时奖励为-1,在智能体位于宝藏左边时向右移动1格后获奖来自环境的即时奖励为0.立即回报是随机变量为了反映它的特征可以用立即回报期望来描述符号为 R s a E π ( R t 1 ∣ s t s , a t a ) Rs^aE\pi(R_{t1}|s_ts,a_ta) RsaEπ(Rt1∣sts,ata) 3.2 累积回报 G t R t 1 γ R t 2 γ 2 R t 3 ⋯ ∑ k 1 T γ k − 1 R t k Gt R{t1}\gamma R{t2}\gamma^2 R{t3}\cdots\sum{k1}^{T}\gamma^{k-1}R{tk} GtRt1γRt2γ2Rt3⋯k1∑Tγk−1Rtk G t G_t Gt从某个状态s开始遵循某个策略时从状态s开始直到最后终止状态 s T sT sT的带折扣的累积回报由于 R t k R{tk} Rtk为随机变量故 G t Gt Gt为随机变量 3.3 状态值函数为衡量状态s下遵循策略 π \pi π的价值取状态值函数 V π ( s ) E π ( G t ∣ s t s ) V\pi(s)E_\pi(G_t|sts) Vπ(s)Eπ(Gt∣sts)作为度量标准为了从交互产生的统计数据中计算得到接近真实的状态值函数 V π ( s ) V\pi(s) Vπ(s)可以取足够多回合的交互获得的 G t G_t Gt的样本的平均值 3.4 行为值函数行为值函数是策略改进的依据理论上它可以通过状态值函数计算得到 Q ( s , a ) R s a γ ∑ s ′ ∈ S P s s ′ a V ( s ′ ) Q(s,a) Rs^a\gamma\sum{s\in S}P_{ss}^aV(s) Q(s,a)Rsaγs′∈S∑Pss′aV(s′) 然而实际上由于 R s a Rs^a Rsa与 P s s ′ a P{ss}^a Pss′a未知因此MC方法通常不会通过估计状态值函数 V ( s ) V(s) V(s),然后使用Q(s,a)进行策略改进。 MC方法是利用交互数据直接估计Q(s,a),然后再基于Q(s,a)进行策略改进的。 3.4 回合或完整轨迹episode 由3.3可知要获得1个 G t G_t Gt样本可以让智能体从任意某初始状态出发一直遵循某种策略 π \pi π与环境交互直至状态转移到环境的终止状态 s T s_T sT才结束。我们把从某状态 ∀ s ∈ S \forall s\in S ∀s∈S出发到终止状态 s T sT sT之间的完整状态、动作、立即回报的转换过程称为1次完整的轨迹或1个回合英文单词为Episode 3.5 多个回合或完整轨迹的描述假设以任意起始状态开始的完整轨迹有多条条则这多条完整轨迹可以表示为轨迹0 s 0 , 0 , a 0 , 0 , r 0 , 1 , s 0 , 1 , a 0 , 1 , r 0 , 2 , ⋯ , s 0 , L 0 , a 0 , L 0 , r 0 , L 0 1 , s T , a 0 , L 0 1 , r 0 , L 0 2 s{0,0},a{0,0},r{0,1},s{0,1},a{0,1},r{0,2},\cdots,s{0,L0},a{0,L0},r{0,L_01},sT,a{0,L01},r{0,L02} s0,0,a0,0,r0,1,s0,1,a0,1,r0,2,⋯,s0,L0,a0,L0,r0,L01,sT,a0,L01,r0,L02 轨迹1 s 1 , 0 , a 1 , 0 , r 1 , 1 , s 1 , 1 , a 1 , 1 , r 1 , 2 , ⋯ , s 1 , L 1 , a 1 , L 1 , r 1 , L 1 1 , s T , a 1 , L 1 1 , r 1 , L 1 2 s{1,0},a{1,0},r{1,1},s{1,1},a{1,1},r{1,2},\cdots,s{1,L1},a{1,L1},r{1,L_11},sT,a{1,L11},r{1,L12} s1,0,a1,0,r1,1,s1,1,a1,1,r1,2,⋯,s1,L1,a1,L1,r1,L11,sT,a1,L11,r1,L12 … 轨迹k s k , 0 , a k , 0 , r k , 1 , s k , 1 , a k , 1 , r k , 2 , ⋯ , s k , L k , a k , L k , r k , L k 1 , s T , a k , L k 1 , r k , L k 2 s{k,0},a{k,0},r{k,1},s{k,1},a{k,1},r{k,2},\cdots,s{k,Lk},a{k,Lk},r{k,L_k1},sT,a{k,Lk1},r{k,Lk2} sk,0,ak,0,rk,1,sk,1,ak,1,rk,2,⋯,sk,Lk,ak,Lk,rk,Lk1,sT,ak,Lk1,rk,Lk2 … 上述每条轨迹中的三元组 ( s k , m , a k , m , r k , m 1 (s{k,m},a{k,m},r{k,m1} (sk,m,ak,m,rk,m1表示轨迹k中状态为 s k m s{km} skm,执行行为 a k m a{km} akm后获得的立即回报的采样值为 r k , m 1 r{k,m1} rk,m1 r k , L k 1 r{k,Lk1} rk,Lk1表示轨迹k时智能体观测到的环境状态为终止状态的上一状态 s k , L k s{k,Lk} sk,Lk下执行动作 a k , L k a{k,L_k} ak,Lk的立即回报采样。可见一条完整轨迹回合或episode,必须满足最后一个状态值 s T s_T sT对应终止状态 L k ≥ 0 L_k\ge 0 Lk≥0 4.MC强化学习问题的正式描述已知一个MDP马尔科夫决策过程环境的折扣系数 γ \gamma γ、环境与智能体的交互接口利用这个接口智能体可以获得从任意状态 s t ∈ S s_t \in S st∈S下执行行为空间中的某个行为 a t ∈ A at \in A at∈A后来自环境的即时回报 r t 1 r{t1} rt1和转移后的状态 s t 1 s_{t1} st1、该新的状态是否为终止状态。 $$ 求解智能体如何利用环境的对外接口与环境交互如何通过交互获得最优策略 π ∗ ( a ∣ s ) \pi^*(a|s) π∗(a∣s)
蒙特卡洛MC强化学习算法的基本框架 π ( a ∣ s ) 初始策略 π s a m p l e ( a ∣ s ) 蒙特卡诺采样策略 ( 可以和初始策略一样 Q ( s , a ) 0 w h i l e T r u e : 依据 π s a m p l e 与环境交互生成完整轨迹利用轨迹数据进行策略评估以更新 Q ( s , a ) 利用 Q ( s , a ) 进行策略控制以改进 π ( a ∣ s ) i f 满足结束条件 : b r e a k \begin{align} \pi(a|s)初始策略\ \pi{sample}(a|s)蒙特卡诺采样策略(可以和初始策略一样\ Q(s,a)0\ while \quad True:\ \qquad 依据\pi{sample}与环境交互生成完整轨迹\ \qquad 利用轨迹数据进行策略评估以更新Q(s,a)\ \qquad 利用Q(s,a)进行策略控制以改进\pi(a|s)\ \qquad if\quad 满足结束条件:\ \qquad \qquad break \end{align} π(a∣s)初始策略πsample(a∣s)蒙特卡诺采样策略(可以和初始策略一样Q(s,a)0whileTrue:依据πsample与环境交互生成完整轨迹利用轨迹数据进行策略评估以更新Q(s,a)利用Q(s,a)进行策略控制以改进π(a∣s)if满足结束条件:break 可见MC强化学习的关键在于策略评估与策略控制

上一篇： o2o网站建设方案pptgoogle引擎入口
下一篇： o2o网站建设市场广东网站建设模版

o2o网站建设方案讲解wordpress 破解主题下载地址

相关文章

o2o网站建设方案pptgoogle引擎入口

o2o手机网站源码app开发属于什么行业

o2o商城网站制作深圳狮科网站建设

o2o网站建设市场广东网站建设模版

o2o网站建设信息青岛网站推广招商

o2o网站模版做网站后台要学什么

php 微网站开发十大难进的互联网公司

php 网站源代码微信网站开发 js框架

php 网站授权公众号上传 wordpress

php 网站配置安徽省建设工程

php 网站开发流程图中国风网站模板

php 网站开发框架怎么做刷东西的网站

o2o网站建设方案讲解wordpress 破解主题下载地址

相关文章

o2o网站建设方案pptgoogle引擎入口

o2o手机网站源码app开发属于什么行业

o2o商城网站制作深圳狮科网站建设

o2o网站建设市场广东网站建设模版

o2o网站建设信息青岛网站推广招商

o2o网站模版做网站后台要学什么

php 微网站开发十大难进的互联网公司

php 网站源代码微信网站开发 js框架

php 网站授权公众号 上传 wordpress

php 网站配置安徽省建设工程

php 网站开发流程图中国风网站模板

php 网站开发框架怎么做刷东西的网站

php 网站授权公众号上传 wordpress