花粉乐分享平台宣传视频
> 乐学堂 > > OpenAI 重磅文章出炉,8 种虚拟机器人仿真环境成为亮点
OpenAI 重磅文章出炉,8 种虚拟机器人仿真环境成为亮点
来源:DeepTech深科技
2023-07-05 15:05:14
522
管理

OpenAI 近期介绍了该实验室在 2017 年打造的 8 种仿真机器人环境和一种新的强化学习技术,这些技术被用来训练最终用于真实机器人的人工智能模型。同时,该实验室还提出了机器人研究领域的一系列待解答新问题。

8 种仿真机器人环境采用 MuJoCo 物理仿真平台构建。这 8 种仿真环境是:

拿取

图丨拿取-到达 v0:把手臂移动到 1 个给定位置实现拿取。

HER 原理介绍

研究团队用拿取-碰触 v0 仿真环境,解释了 HER 的工作原理。该仿真环境的目标是:用机械手碰触一个桌面上的小球,让小球滚过桌面,击中目标。首次尝试不太可能成功,接下来的几次也不太可能,因此得分始终为-1。传统的强化学习算法无法在这种一直没有达成目标的环境中实现学习。

HER 的创新之处在于:即使这几次都没有达成预定目标,机械手至少达成了另一个目标。因此,不妨把这个“非预定目标”作为起始。这样,强化学习算法就可以因为达成了某些目标而实现学习——尽管这个目标不是最终的目标。只要重复这个渐进过程,机械手最后总会实现预定目标。

总之,HER 系统可以在一次也没有达成原定目标的情况下启动强化学习。该系统的秘诀是“打哪指哪”,即中间目标是机械手碰球之后才选定的。“打哪指哪”方法是机器学习中的常用方法之一,HER 可以跟任何基于新策略的强化学习算法(off-policy RL algorithm),如 DQN 和 DDPG 等联合使用。

测试结果

测试表明,HER 在“稀疏回报”奖励条件下的目标达成仿真环境中表现优异,具体如下图所示:

图丨成功率中值(线条)和四分位范围(阴影区域)都是在虚拟手掌-方框掌控 v0 环境中测试获得的。

稀疏回报条件下的 DDPG HER 算法表现最好,不过有趣的是,DDPG HER 算法在密集回报条件下的表现反而更差。原始 DDPG 算法不管在什么奖励条件下,表现都不如人意。此外,各算法的表现差异在大多数实验环境中保持稳定。

后续研究方向

HER 算法为稀疏回报条件下的复杂目标导向任务提供了一种新的解决手段,但其仍有很大改进空间,具体地,研究团队提出了如下的后继研究问题:

1,“打哪指哪”算法的自动化目标设定。目前的“打哪指哪”算法,只能由人工设定中间目标。

2,无偏 HER。目前的中间目标选择并没有一个严格的规则,这在理论上会导致学习结果的不稳定性,尽管实验中尚未发现这种情况。但是,研究团队认为,基于重要性采样等技术,可以通过严格的规则实现无偏 HER。

3,HER 与层级强化学习(hierarchical reinforcement learning, HRL.)的结合。这样可以将 HER 从单一目标推广到层级体系中。

4,更多类型的价值函数。是否可以将更多类型的价值函数,如贬值因子(discount factor)或成功阈值(success threshold)纳入“打哪指哪”算法中?

5,更快的信息传输。大多数新策略深度强化学习算法使用目标网络保证训练的稳定性。然而,由于变化在模型中的传导需要时间,因此对稳定性的要求已经成为限制 DDPG HER 学习速度的最大因素。或许可以通过采用其他稳定策略的方法来提高速度。

6,HER 多步回报。基于“打哪指哪”和中间目标的 HER 是典型的新策略强化学习算法,因此难以采用多步回报函数(multi-step returns)。然而,多步回报函数的信息反馈速度更快,因此值得研究如何将其纳入 HER 算法。

7,既定策略(On-policy)HER。目前,由于引入中间目标,HER 只能使用新策略算法。人但是,PPO 等基于既定策略的算法展示了很高的稳定性,因此有必要研究 HER 如何通过重要性采样等方法与之联合。该研究目前已经取得了初步成果。

8,连续活动的强化学习。目前,在连续控制的场合,强化学习算法的表现非常差,一方面由于不连续的外推,另一方面在于回报信息不能及时反馈回来。如何设计强化学习算法以适应连续控制场合仍然是一个问题。

9,将 HER 与其他最新强化学习算法结合。一些可能的选项是优先级经验回顾(Prioritized Experience Replay)、分布式强化学习(distributional RL)、熵规整化强化学习(entropy-regularized RL,)、逆向课程强化学习(reverse curriculum generation)。

更多信息可以参阅研究团队发布的技术报告:

https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/ingredients-for-robotics-research/technical-report.pdf

使用新仿真环境的指南

使用新的基于目标的仿真环境,需要对现有仿真环境做出如下改动:

所有基于目标的仿真环境都采用 gym.spaces.Dict 观察空间。仿真环境应当包括最终目标(esired_goal)、目前达到的目标(achieved_goal)和机器人的状态(observation)。

仿真系统允许根据目标的改变重新计算回报函数的值,以令基于 HER 的算法可以运行。

研究人员给出了简单的例子,来演示基于目标的仿真环境,以及“打哪指哪”算法对中间目标的选择过程。

基于目标的新仿真环境可以与现有的强化学习算法,如 Baselines.Use 等兼容,但需要首先使用 gym.wrappers.FlattenDictWrapper 将观测空间转换为所需格式的矩阵。

花粉社群VIP加油站

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
量酷girl(花粉精英)
文章
650
主题
10
关注
1
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索