广西科技大学学报

2002, (01) 1-4

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Past Issue) | 高级检索(Advanced Search)

多步截断SARSA强化学习算法
An algorithm of reinforcement learning for a truncated multi-step SARSA

李春贵,林海涛,刘永信

摘要(Abstract):

提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)需要大量的计算

关键词(KeyWords): 强化学习;Markov决策过程;Q学习;SARSA学习

Abstract:

Keywords:

基金项目(Foundation):

作者(Author): 李春贵,林海涛,刘永信

Email:

DOI:

文章评论(Comment):

序号(No.) 时间(Time) 反馈人(User) 邮箱(Email) 标题(Title) 内容(Content)
反馈人(User) 邮箱地址(Email)
反馈标题(Title)
反馈内容(Content)
扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享