来自谷歌、加州大学伯克利分校和佐治亚理工学院的研究人员在ArXiv预印本服务器上发表了一篇论文描述了一种统计人工智能技术深层加固学习他们用来产生这种成就,这是有意义的,有几个原因。
大多数强化学习部署发生在计算机模拟环境中。然而,彩虹短跑使用这项技术来学习在真实的物理环境中行走。
此外,它能够做到这一点,而不需要专门的教学机制,如人类教师或有标签的培训数据。最后,彩虹破折号成功地行走在多个表面上,包括一个柔软的泡沫床垫和一个带有相当显著凹陷的门垫。
深度强化学习技术机器人used包括一种机器学习,其中代理与环境交互,通过反复试验进行学习。大多数强化学习用例涉及电脑游戏,其中数字代理学习如何玩才能赢。
这种形式的机器学习明显不同于传统的有监督或无监督学习,在传统的有监督或无监督学习中,机器学习模型需要标记的训练数据来学习。深度强化学习将强化学习方法与深度学习其中传统机器学习的规模随着巨大的计算能力而大大扩展。
尽管研究小组将学会走路归功于彩虹短跑,但人类的干预在实现这一目标中仍然发挥了重要作用。研究人员必须建立机器人学会行走的界限,以防止它离开这个区域。
他们还必须设计特定的算法来防止机器人摔倒,其中一些算法着重于限制机器人的运动。为了防止诸如坠落伤害之类的事故,机器人强化学习通常在算法被转移到物理机器人之前的数字环境中进行,以保持其安全性。
彩虹短跑的胜利发生了大约一年在研究人员最初发现如何让机器人在物理环境而不是虚拟环境中学习之后。
没有参与这项研究的斯坦福大学助理教授切尔西·芬恩(Chelsea Finn)表示,“将一个人从[学习过程中剔除”真的很难。通过允许机器人更自主地学习,机器人更接近于能够在我们生活的现实世界中学习。”
(转载:www.idcew.com)