2028年奥运会金牌会花落谁家? 谷歌已证实“乒乓机器人”可以「完胜大多数人类」!

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



 奥运会正在法国巴黎如火如荼的展开者,这几天的跳水和乒乓球等项目更是吸引了国人的眼球。然而,谷歌却放出了一篇机器人在乒乓球比赛上超越了大部分人类的文章!小编不禁的想,后面的奥运会是否可以增加一项各国研发的机器人来比赛一些体育项目的运动,这无疑会增强很多的趣味性,也可以展示不同国家的科技硬实力!近年来,随着AI、强化学习、AIGC等技术的出现,虽然学习机器人策略的能力大幅提高,但在准确性、速度和通用性方面实现人类水平的性能仍然是许多领域的一大挑战。其中一个领域是乒乓球,这是一项体力要求很高的运动,需要人类运动员经过多年的训练才能达到高级水平。事实上,竞技比赛往往充满活力,涉及复杂的动作、快速的眼手协调和适应对手优缺点的高级策略。为了让机器人乒乓球系统模仿这些能力,它需要高速运动、精确控制、实时决策和人机交互。这项工作朝着这一目标迈出了关键的一步,并展示了第一个在竞技乒乓球中达到业余人类水平的学习机器人Agent。



论文链接-https://arxiv.org/pdf/2408.03906




01-机器人参与运动项目发展历程

    俄罗斯著名国际象棋特级大师卡斯帕罗夫与美国IBM公司制造的超级电脑深蓝的对战堪称首次人类与AI的对决,影响和意义极为深远。在1996年,卡斯帕罗夫曾经以4:2的比分战胜了IBM的超级电脑深蓝,但在第二年即1997年他却以2.5:3.5的比分输给了深蓝的升级版“更深的蓝”,这场比赛引起了较大的争议。

    2016年3月15号,人工智能“阿尔法围棋AlphaGo”与韩国著名九段棋手李世石第5局比赛在弈至280手时李世石中盘认输。至此,从本月9日至15日在首尔四季酒店举行的这场五局人机大战宣告结束。“阿尔法围棋”以4:1获胜。

    2022年10月15日,由一家中国公司制造的“元萝卜SenseRobot”AI下棋机器人将接连挑战两位中国象棋高手,再一次上演人工智能技术与顶尖头脑的智慧碰撞。前两次人类与AI对决项目是国际象棋和围棋,而这次是中国象棋。在网上有网民将这次挑战称为“人类与AI的第三次对决”,此消息一出,迅速登上了上海热搜本地榜。人们热切地希望,两位中国象棋棋手能够在具有强大算力的AI前扳回一局,结果可想而知!

02-LLC算法背景

    近年来,机器人学习能力取得了前所未有的进展,机器人可以做饭、打扫卫生,甚至可以进行后空翻。虽然学习机器人策略的能力大幅提高,但在准确性、速度和通用性方面实现人类水平的性能仍然是许多领域的一大挑战。其中一个领域是乒乓球,这是一项体力要求很高的运动,需要人类运动员经过多年的训练才能达到高级水平。
    事实上,竞技比赛往往充满活力,涉及复杂的动作、快速的眼手协调和适应对手优缺点的高级策略。为了让机器人乒乓球系统模仿这些能力,它需要高速运动、精确控制、实时决策和人机交互。

    由于这些苛刻的要求,乒乓球为提升机器人能力提供了丰富的环境,自20世纪80年代以来一直是机器人研究的基准。自此以后,已经开发了许多乒乓球机器人,并在将球送回对手一侧、击中目标位置、粉碎、合作拉力以及乒乓球的许多其他关键方面取得了重大进展。然而,之前还没有研究过机器人与以前看不见的人类对手进行一场完整的乒乓球比赛。

03-LLC算法简介

    在现实世界任务中实现人类水平的速度和性能是机器人研究界的一个里程碑。这项工作朝着这一目标迈出了关键的一步,并展示了第一个在竞技乒乓球中达到业余人类水平的学习机器人Agent。乒乓球是一项体力要求很高的运动,需要人类运动员经过多年的训练才能达到高级水平。 
    在这篇论文中,1)作者提出了一种分层和模块化的策略架构,包括低级别控制器及其详细的技能描述符,这些技能描述符对代理的能力进行建模并帮助弥合模拟对现实的差距;选择低级别技能的高级别控制器;2)实现零样本模拟对现实技术的技术,包括基于现实世界定义任务分布的迭代方法,并定义自动课程;3)能够实时适应看不见的新对手。

    通过分析29场机器人与人类的比赛来评估,其中机器人赢得了45%(13 /29)。所有人类都是看不见的玩家,他们的技能水平从初学者到锦标赛级别各不相同。虽然机器人与最先进的玩家输掉了所有比赛,但与初学者相比,它赢得了100%的比赛,与中级玩家相比,赢得了55%的比赛,这证明了它在业余水平上的表现。

04-LLC算法流程
    上图展示了该方法的整体流程图中所示的乒乓球代理由两个级别的控制组成,作者称之为高级控制器(HLC)和低级控制器(LLC)。LLC是代表不同乒乓球技能的策略,经过训练可以在50Hz下产生关节速度指令。例如,LLC可能代表正手击球风格和跨场击球,保守地反手击球,或正手击球以回击下旋发球。
    HLC负责选择在每一个即将到来的球事件中执行哪个LLC。HLC没有固定的控制频率,而是每次对手击球时触发一次。在HLC中,有六个组成部分被组合在一起,从而产生LLC的选择;1) 风格:这是一种经过训练的策略,用于选择给定传入球的正手或反手打法;2)旋转分类器:该分类器提供有关传入球旋转的信息,识别上旋或下旋;3)LLC技能描述符:这些是代理人自身能力的模型。它们为每个LLC提供性能元数据,如估计的返回率、击球速度和落地位置,以特定的传入球为条件;4)对手和机器人性能的比赛统计数据;5)策略:这些策略以1)、3)和4)作为输入和输出LLC的短名单;6)LLC偏好(H值):这些参数估计了当前球员的每个LLC的性能,并在每次击球后更新。HLC将3)、5)和6)组合在一起,产生LLC的最终选择。HLC内的整个控制流在20ms内发生。
    作者从球状态数据集中训练低级控制器(LLC)的技能库,包括发球和集结,以及模拟仿真适配器。并使用相同的球状态训练了一个高级控制器(HLC)进行风格选择。

    这些策略仅在模拟环境中(但使用真实的球状态)使用黑匣子梯度传感(BGS)进行训练。并将学习到的零样本策略转移到物理世界。在部署时,作者冻结了样式选择器和技能。在推理过程中,HLC使用样式选择器选择侧面。启发式模块列出了最有效的技能。H值(在线对手模型)选择最喜欢的技能,技能执行动作。

05-LLC算法实现细节
05.01-硬件实现细节

    如上图所示,乒乓球机器人是一个6自由度的ABB IRB 1100手臂,安装在两个Festo线性龙门架的顶部,可以在二维平面内运动。在工作台上左右移动的x台架长4m,朝向和远离工作台移动的y台架长2m。ABB臂上连接着一个3D打印的桨柄和带有短管橡胶的桨。一对工作在125Hz的Ximea MQ013CG-ON相机捕获球的图像,这些图像被用作神经感知系统的输入,该系统以相同的频率产生球的位置。作者使用一个由安装在比赛区域周围的20个摄像头组成的PhaseSpace运动捕捉系统来跟踪人类对手的球拍。

    真实环境由跟踪球的神经感知系统、跟踪人类玩家划桨姿势的运动捕捉系统、跟踪游戏状态的状态机和向策略提供球位置和速度、机器人位置等数据的观察模块组成。此外,作者还构建了一个基于MuJoCo物理引擎的相应仿真环境。  

05.02-LLC训练策略

    LLC旨在提供HLC可以在其战略中部署的技能库。作者训练它们的方法可以概括为三个步骤。
  • 步骤1--训练两种通才基础策略,每种主要打法(正手、反手)一种,并将其添加到LLC中。
  • 步骤2--在微调从现有LLC之一初始化的新策略之前,通过添加奖励功能组件和/或调整培训数据组合,将策略专门化为不同的技能。这通常是通才基础政策之一,但也可以是LLC集合中的任何政策。
  • 步骤3--估新政策,并评估政策是否具有所需的特征。例如,如果策略被训练为针对桌子上的特定位置,则计算球落地位置和目标之间的平均误差。如果成功,将策略添加到LLC集合中。

    LLC训练谱系LLC x=最终系统中LLC的ID。正手(FH)和反手(BH)LLC均由两名独立训练的通才开发。其中一个通才是随着数据集周期一起开发的,而另一个则是在最终确定数据集后才进行训练的。两名种子正手多面手都被部署(LLC 0和LLC 2),而反手只部署了一名种子多面手(LLC 9)。

05.03-LLC策略选择

    每次击球一次,HLC首先对当前球状态应用风格策略来确定正手或反手(在这个例子中,作者演示了选择正手),从而决定用哪个LLC回球。如果球是发球,它将尝试将旋转分为上旋或下旋,并选择相应的LLC。

    否则,它必须通过在相应的LLC技能表中找到最相似的球状态并获得返回统计数据来确定许多拉力赛LLC中哪一个表现最佳。启发式策略被应用于这些统计数据,并产生候选LLC的短名单,最终的LLC是通过加权选择选出的。将以50Hz的频率查询所选LLC的当前球状态,以确定机器人的动作。

05.04-任务分配数据集

    上表展示了任务分布数据集的细节,它是在多个训练周期内开发的。值得注意的是,第6个周期大大提高了慢球和球的覆盖率,而大多数快球来自最初的数据收集和第一个周期。

    上图展示了利用TSNE针对任务分布数据集的分布进行可视化。TSNE用于将数据从9维球状态投影到2维表示。
06-LLC算法性能评估

    上图展示了作者针对参与者做的一些调研与分析数据。通过观察与分析,我们可以发现:乒乓球是一个需要长时间不断去练习才能成为运动高手的运动项目。只有很少有天赋的人才有可能成为乒乓球教练等等。

    上图展示了机器人与匹配者之间的比赛统计结果。机器人赢得了45%的比赛。100%对初学者,55%对中级玩家,没有对高级玩家的比赛。这表明机器人的表现处于业余中级水平。人类对手技能等级:B=初级,I=中级,A=高级,A+=高级+。

07-LLC算法效果展示
图7.1-LLC算法仿真VS现实展示

图7.2-人类VS乒乓球机器人效果展示
图7.3-人类VS乒乓球机器人效果展示



关注我,AI热点早知道,AI算法早精通,AI产品早上线!




欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们(备注:AI产品汇)

禁止私自转载,需要转载请先征求我的同意!