基于模型的策略迭代强化学习在确定性清洁机器人中的Matlab开发示例。