主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2020-2021年专刊出版计划 微信服务介绍 最新一期:2020年第5期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
仵博,吴敏,佘锦华.基于点的POMDPs在线值迭代算法.软件学报,2013,24(1):25-36
基于点的POMDPs在线值迭代算法
Point-Based Online Value Iteration Algorithm for POMDPs
投稿时间:2012-02-03  修订日期:2012-05-18
DOI:10.3724/SP.J.1001.2013.04258
中文关键词:  部分可观察马尔可夫决策过程  信念状态  基于点的算法  在线算法  与或树
英文关键词:POMDPs  belief state  point-based algorithm  online algorithm  AND/OR tree
基金项目:国家自然科学基金(61074058, 60874042); 国家教育部博士点基金(20090162120068)
作者单位E-mail
仵博 中南大学 信息科学与工程学院,湖南 长沙 410083
先进控制与智能自动化湖南省工程实验室,湖南 长沙 410083
深圳职业技术学院 教育技术与信息中心,广东 深圳 518055 
wubo@szpt.edu.cn 
吴敏 中南大学 信息科学与工程学院,湖南 长沙 410083
先进控制与智能自动化湖南省工程实验室,湖南 长沙 410083 
 
佘锦华 School of Computer Science, Tokyo University of Technology, Tokyo 192-0982, Japan  
摘要点击次数: 3892
全文下载次数: 3534
中文摘要:
      部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDPs)是动态不确定环境下序贯决策的理想模型,但是现有离线算法陷入信念状态“维数灾”和“历史灾”问题,而现有在线算法无法同时满足低误差与高实时性的要求,造成理想的POMDPs模型无法在实际工程中得到应用.对此,提出一种基于点的POMDPs在线值迭代算法(point-based online value iteration,简称PBOVI).该算法在给定的可达信念状态点上进行更新操作,避免对整个信念状态空间单纯体进行求解,加速问题求解;采用分支界限裁剪方法对信念状态与或树进行在线裁剪;提出信念状态结点重用思想,重用上一时刻已求解出的信念状态点,避免重复计算.实验结果表明,该算法具有较低误差率、较快收敛性,满足系统实时性的要求.
英文摘要:
      Partially observable Markov decision processes (POMDPs) provide a rich framework for sequential decision-making in stochastic domains of uncertainty. However, solving POMDPs is typically computationally intractable because the belief states of POMDPs have two curses: Dimensionality and history, and online algorithms that can not simultaneously satisfy the requirement of low errors and high timeliness. In order to address these problems, this paper proposes a point-based online value iteration (PBOVI) algorithm for POMDPs. This algorithm for speeding up POMDPs solving involves performing value backup at specific reachable belief points, rather than over the entire a belief simplex. The paper exploits branch-and-bound pruning approach to prune the AND/OR tree of belief states online and proposes a novel idea to reuse the belief states that have been computed last time to avoid repeated computation. The experiment and simulation results show that the proposed algorithm has its effectiveness in reducing the cost of computing policies and retaining the quality of the policies, so it can meet the requirement of a real-time system.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利