豆丁网

拖拽LOGO到书签栏收藏网站（轻点去首页）

频道

开通大会员文档免费下

考研资料大全

在家同步练习必备

扫一扫安装书房APP
扫一扫关注微信号

IT计算机 >
软件工程 >

Reducing Policy Degradation in Neuro-Dynamic Programming

60阅读 6页纺织服装文.上传举报/认领合伙人(招募中) 展开

本文档由纺织服装文库分享于2010-10-07 10:12

We focus on neuro-dynamic programming methods to learn state-action value functions and outline some of the inherent problems to be faced, when per- forming reinforcement learning in combination with function approximation. In an attempt to overcome some of these problems, we develop a reinforcement learning method that monitors the learning process, enables the learner to re..

文档格式：: .pdf
文档大小：: 85.76K
文档页数：: 6页
顶 /踩数：: 0 / 0
收藏人数：: 0
评论次数：: 0
文档热度：
文档分类：: IT计算机 — 软件工程; 添加到豆单

文档标签：: reinforcement learning value function process state-action approximation Policy Degradation NDP

系统标签：: neuro policy dynamic programming degradation reducing

下载文档

收藏

打印

转格式

转本文档转其他文档

分享赚钱赏

君，已阅读到文档的结尾了呢~~

立即下载加入会员，超低价下载

分享赚钱赏

下载文档加入会员超低价下载

菜单

全屏

上一页 /3下一页

扫扫二维码，随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP 扫扫更高清

获取二维码

分享文档

将文档分享至：

分享到

QQ空间新浪微博微信 QQ好友