中山大学与港中深团队给机器人安上灵巧双手
发布时间:2023-11-07 15:23:38 所属栏目:动态 来源:
导读: 在电影《铁甲钢拳》中,机器人们能够无与伦比地再现人类的各种活动表现——无论是舞蹈、搏击或者是任何别的什么事情——它们所呈现出来的效果简直让人叹为观止。
不过在现实中要怎样
不过在现实中要怎样
在电影《铁甲钢拳》中,机器人们能够无与伦比地再现人类的各种活动表现——无论是舞蹈、搏击或者是任何别的什么事情——它们所呈现出来的效果简直让人叹为观止。 不过在现实中要怎样控制机器人还是很困难的。特别是如果控制机器人的操作员不在机器人身边,而是远程控制,那就难上加难了。 困难的事情才有挑战性,而且还很有意义。比如在现实中,手术机器人通常就是由一个外科医生远程控制,让机器人精确地捕捉到人的双手运动信息。然后,将捕捉到的运动信息映射到机器人的运动上,才能实现远程操作。不过,现有的手势捕捉方法有些复杂,主要通过数据手套、腕带和光学标记。这些方法不仅价格昂贵,而且校准起来很费时费力。 说到动作捕捉,有XBOX的玩家可能会问,Kinect能否一战? 答案是不能。 微软的Kinect虽然不错,但它只能捕捉到人体的运动,对精细的手部动作也无能为力。其实也不是Kinect特别拉胯,大多数手机应用程序也都只能估算2D手势。 所以这双手运动捕捉可是个老大难问题,就像在计算机视觉领域里摸黑找路。为什么呢?嗯,因为左右手长得太像了,就像双胞胎一样,让人傻傻分不清楚。再加上手势种类多,每个人的手都不一样,这就让检测和区分双手变得更加困难。 ▍还得靠神经网络 那有人就要问啦:“那怎么办呢?”别急,科学家们想出了一个好办法:从单张RGB图像中估计3D手势。但这个方法也不是那么容易实现的,因为手势和手势之间的相似性很高,经常让人眼花缭乱。而且手势还会自遮挡。最最关键的是,图像里缺乏深度信息,要猜出3D手势究竟长什么样,真让人脑壳疼。 为了解决这些问题,中山大学联合香港中文大学(深圳)的科研团队提出了一种方便又便宜的好方法。他们先用视觉传感器捕捉操作员双手的位置和姿势。然后,双手运动信息会映射到仿生双臂机器人的运动上。在这个系统中,包括一种通过视觉的双手运动捕捉方法,该方法由DuHandLocaNet和3DHandPoseNet两个部分组成。 DuHandLocaNet用于检测和定位双手的位置,并分辨左右手,这些信息可以映射到机器人的手上。而3DHandPoseNet可以从所捕捉到的人类手部的图片中估计双手的3D姿态,这些3D手势信息可以映射到五只灵巧机械手上。 除了特别地关注不会说话的人类操作员的手部动作,这个不起眼的方法另外一边还有一个非常机智的自上而下的操作,那就是它也同时捕捉人类身体的位置和动作,用来辅助判断手的姿势和左右手。 对啊,在身体左边的是左手,在身体右边的是右手,之前怎么就没想到呢? ▍先找到双手的位置 DuHandLocNet 可以在RGB图像上检测双手并区分左右手。它使用并行网络,其中一个子网络用于手部检测,另一个子网络用于身体姿势估计,它通过使用身体正向运动学术(body forward kinematic (FK) tree)来输出所估计的双手位置和手性。 DuHandLocNet的表现:下图中从左到右分别是人类操作员手部动作的原始图像,不同人的手有大有小,所做的手势也不一样。手部检测子网络和身体姿势子网络可以准确地检测出的手部和身体的动作。 ▍再估计3D手势 在检测到双手后,定位手部的RGB图像会被送进3DHandPoseNet里,这样就能解析出3D手势了。为了能更准确地估计3D手势,这个网络采用了一种级联结构,还引入了损失函数来衡量模型预测结果和真实结果之间的差距。这个网络是由三个模块组成的:一个是特征提取模块(FEM),负责提取2D手关节点的特征;一个是级联模块(CaM),负责微调2D手关节点的特征;最后一个是3D姿势回归模块(PRM),负责回归3D手势。 实验效果来看,团队所提出的DuHandLocNet和3DHandPoseNet可以很精确地把人类操作员的动作映射到机器人上,证明了这种方法的有效性。未来他们将继续研究更为精准和稳健的双手运动捕捉方法,通过基于视频的手部检测和手部姿态估计技术来提高整体的运动捕捉精度和鲁棒性,甚至还将引入混合现实和共享控制方法,与仿生双臂机器人遥操作相结合,以增强用户的沉浸感和操作效率。此外,该系统还可以通过人工智能技术实现自我学习,从而不断优化和改进,进一步提高系统的稳定性和可靠性。 (编辑:聊城站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐