2025-05-04 11:10来源:本站
2018年,b谷歌DeepMind的AlphaZero程序通过机器学习和一种特殊算法自学了国际象棋、将棋和围棋,以确定在特定网格内赢得比赛的最佳走法。现在,加州理工学院的一个研究小组已经开发出一种类似的自动驾驶算法无名机器人-一个计划和决策公司控制系统,帮助自由移动的机器人确定最好的运动,因为他们导航的现实世界。
“我们的算法实际上是制定策略,然后探索所有可能的和重要的动作,并通过动态模拟选择最好的一个,就像玩许多涉及移动机器人的模拟游戏一样,”加州理工学院控制和动力系统的布伦教授、喷气推进实验室的高级研究科学家Soon-Jo Chung说。喷气推进实验室是加州理工学院为美国宇航局管理的。“突破性的创新在于,我们已经找到了一种非常有效的方法来找到最佳的安全运动,这是典型的基于优化的方法永远找不到的。”
该团队在《科学机器人》杂志12月的封面文章中描述了这项技术,他们称之为光谱扩展树搜索(SETS)。
许多机器人可以很自由地向任何方向移动。例如,考虑一个设计用来帮助家中老人的人形机器人。这样的机器人应该能够以多种不同的方式移动,基本上,当它在完成任务时遇到障碍或意外事件时,可以在空间内的任何方向移动。例如,该机器人的一系列动作、障碍和挑战将与自动驾驶汽车大不相同。
那么,单一算法如何指导不同的机器人系统做出最佳决策,在周围环境中移动呢?
加州理工学院控制与动力系统研究生约翰·莱思罗普(John Lathrop)是这篇新论文的共同主要作者,他说:“你不希望设计师必须亲自动手设计这些动作,然后说,‘这是机器人应该能够完成的离散动作集。’”“为了克服这个问题,我们提出了SETS。”
SETS使用控制理论和线性代数来找到在物理环境中充分利用机器人平台功能的自然运动。
基本的潜在概念是基于蒙特卡洛树搜索,这是一种决策算法,b谷歌的AlphaZero也使用了这种算法。在这里,蒙特卡罗本质上意味着一些随机的东西,而树搜索指的是导航一个分支结构,该分支结构表示系统中数据的关系。在这样的树中,根分支到所谓的子节点,这些子节点由边连接。对于像围棋这样的游戏,使用蒙特卡洛树搜索,可能的走法被表示为新的节点,并且随着尝试更多可能轨迹的随机样本,树会变得更大。该算法播放可能的移动,以查看不同节点的最终结果,然后根据点估值选择提供最佳结果的一个。
Lathrop解释说,问题在于,当将这种分支树结构用于连续动力系统(如在物理世界中运行的机器人)时,树中的轨迹总数会呈指数增长。他说:“对于某些问题,试图模拟每一种可能性,然后找出哪一种是最好的,可能需要数年,甚至数百年。”
为了克服这个问题,set利用了勘探/开发的权衡。“我们想尝试模拟我们以前没有研究过的轨迹——这就是探索,”莱思罗普说。“我们希望继续寻找以前产生高回报的途径——那就是剥削。通过平衡探索和开发,该算法能够在所有可能的轨迹中快速收敛到最优解。”
例如,如果一个机器人开始计算几个可能的动作,它确定这些动作会导致它撞到墙上,那么它就不需要调查树分支上的任何其他节点。
“这种对机器人自然运动的探索/开发权衡和搜索使我们的机器人能够实时思考,移动和适应新信息,”本杰明·里维
SETS可以在十分之一秒内完成整个树的搜索。在这段时间里,它可以模拟数千到数万种可能的轨迹,选择最好的,然后采取行动。这个循环一遍又一遍地进行,使机器人系统能够每秒做出许多决定。
SETS算法的一个关键特征是它基本上可以应用于任何机器人平台。特性和功能不需要单独编程。在这篇新论文中,Chung和他的同事们在三种完全不同的实验环境中展示了该算法的成功效用——这在机器人论文中是非常罕见的。
在第一个实验中,一架四旋翼无人机能够观察到四个悬停的白球,同时避开四个橙色球,同时在一个充满随机发生的危险气流或热气流的机场飞行。无人机实验是在加州理工学院自主系统与技术中心(CAST)进行的。在第二种情况下,该算法增强了履带式地面车辆的人类驾驶员在狭窄曲折的轨道上行驶而不会撞上侧轨的能力。在最后的设置中,SETS帮助一对拴在一起的航天器捕获并重新定向第三个代理,这可能代表另一个航天器,小行星或其他物体。
加州理工学院的一组学生和研究人员目前正在将一种SETS算法应用于将于1月9日在拉斯维加斯举行的消费电子展(CES)上参加Indy自动驾驶挑战赛的Indy赛车。