MediaPipe Hands:设备端实时3D手势姿态跟踪

0.摘要

  • 论文主要提出了一种实时的手跟踪方案,从单目RGB图像上预测手的skeleton。
  • 方法的pipeline包括2个模型:(1)手掌检测模型(palm detector);(2)手骨骼估计模型(hand landmark model)。

1. Introduction

  • 论文的主要贡献:

        (1)一个高效的two-stage手跟踪pipeline,可以在移动设备上实时的跟踪多个手

        (2)一个手姿态估计模型,能够在RGB图像上预测2.5D的手姿态。

        (3)一个开源的手跟踪pipeline,作为 ready-to-go的方案,可以运行在多个平台上,如Android, iOS, Web (Tensorflow.js) 和 desktop PCs。

2. 框架

  • 本文的手跟踪pipeline包括两个模型: (1)一个手掌检测器,通过预测一个有方向性的手的bounding box在输入的整张图片上进行手定位。 (2)一个hand landmark模型,在手掌检测器根据bounding box裁剪之后的手图片上运行,并返回高保真的2.5D landmarks.
  • 在实时的跟踪方案中,我们从上一帧的landmark预测中推导出一个边界框作为当前帧的输入,从而避免了在每一帧上应用检测器。相反,检测器只应用于第一帧或手预测表明手丢失时。

2.1 BlazePalm Detector

  • 检测手是一个复杂的任务,模型需要检测很大范围跨度的尺寸的手(~20x),需要检测遮挡和自遮挡的手。与人脸检测相比,人脸有高对比度模型,人手没有类似的特征,使其只通过视觉特征检测相对困难。
  • 首先,训练一个palm detector 代替palm detector ,因为检测刚性物体,如手掌或拳头的bounding box会非常容易,与检测具有关节手指的hand相比。此外,palm是更小的目标,non-maximum suppression 算法能够更好的工作,即使在双手自遮挡的情况下,如握手。另外,手掌能够只用正方形bounding box模型化,可以忽略其他长宽比,因此可以减少anchors的数量。
  • 其次,使用了一个类似FPN的encoder-decoder特征提取器来应对大场景环境感知,即使是小目标。
  • 最后,在训练过程中最小化 focal loss,以支持高尺度方差产生的大量anchors。
  • 手掌检测器网络结构如下:
    在这里插入图片描述
  • 进行了消融实验的对比:
    在这里插入图片描述

2.2 Hand Landmark Model

进行完手掌检测后,在手定位范围内通过 hand landmark model回归出精确的21个 hand landmarks的2.5D坐标。
在这里插入图片描述

   模型有3个输出:

   (1)21个hand landmarks,包含xy,和相对的depth

   (2)表示输入图像中手存在的概率的手标志(hand flag)。

   (3)二值分类的handedness,如左手或右手

3. Dataset and Annotation

本文用到3个数据集:

  • In-the-wild dataset:包括6K个各种各样的手图像,如不同的背景纹理、不同的光照、不同的手外表。缺点是数据集不包含复杂的手结构。
  • In-house collected gesture dataset:10K数据,包含各种不同角度的可能的手势。缺点是只采集了30个人的手,且背景有限。
  • Synthetic dataset:渲染的手模型包括24个bones,36个混合形状(控制手指和手掌的厚度),5种纹理肤色。共100K的图像。
    在这里插入图片描述
  • 对于 palm detector,只使用in-the-wild dataset进行训练。
  • 对于hand landmark model,使用所有数据集训练。

        标注了21个landmarks在真实世界的图片上,在合成图像上使用投射的3D关节的ground truth。

        对于 hand presence,我们选择真实世界图像的子集作为正样本,并在排除标注的手区域作为负样本的区域上取样。

        对于handedness,我们用handedness标注真实世界图像的子集以提供此类数据。

4. Results

在不同数据集上的验证结果:
在这里插入图片描述

   训练了3种模型,经过对比,Full model可以兼顾准确率和时间。
在这里插入图片描述

5. MediaPipe graph for hand tracking

在这里插入图片描述

6. 手势识别的应用

在这里插入图片描述


免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删

QR Code
微信扫一扫,欢迎咨询~

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 155-2731-8020
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

手机不正确

公司不为空