必威体育Betway必威体育官网
当前位置:首页 > IT技术

2D多人关键点:《Cascaded Pyramid Network for Multi-Person Pose Estimation》

时间:2019-10-06 07:14:30来源:IT技术作者:seo实验室小编阅读:81次「手机版」
 

cpn

《Cascaded Pyramid Network for Multi-Person Pose Estimation》

机构:Face++

源码:https://github.com/chenyilun95/tf-cpn

效果:COCO 17关键点冠军

文章目录

  • 1 中心思想
  • 2 CPN结构
  • 3 设计理念
  • 4 Loss
  • 5 效果

1 中心思想

  1)面对问题:

  在多人姿态估计中,有诸多具备挑战性问题,如关键点遮挡,关键点不可见,复杂背景等;文中将这些点称为“hard keypoint”

 2)本文方案

  A)提出了Cascaded Pyramid Network (CPN)网络结构,采用top-down模式进行多人姿态估计

  B)CPN包含two stages: GlobalNet and RefineNet

  C)GlobalNet解决相对容易的关键点估计;RefineNet采用online hard keypoint Mining loss实现hard keypoint估计

在这里插入图片描述

2 CPN结构

在这里插入图片描述

1)BackBone

  采用ResNet作为基础特征网络(ResNet50/ResNet101等);可以理解为上图中输入图像后的箭头

2)CPN

  A)参考FPN(Feature Pyramid Networks)设计多层级特征提取网络–GlobalNet;该网络采用L2 Loss作为Loss function

  B)在GlobalNet基础上增加RefineNet,加强对hard keypoint的估计;该网络采用L2 Loss* 作为Loss function

3)GlobalNet

  A)采用ResNet的不同Stage的最后一个残差块输出(C2,C3,C4,C5)作为组合为特征金字塔;拿ResNet50来说,当输入大小为1×3×256×192时:

  C2 = res2c(1×256×64×48)

  C3 = res3d(1×512×32×24)

  C4 = res4f(1×1024×16×12)

  C5 = res5c(1×2048×8×6)

  这样就构成特征金字塔

   C2,C3具有较高的空间分辨率和较低语义信息,而C4,C5具有较低空间分辨率和更丰富的语义信息;将他们结合在一起,则即可利用C2,C3空间分辨率优势定位关键点,也可利用C4,C5丰富语义信息识别关键点

  B)然后各层进行1×1卷积将通道都变为256

  C)将分辨率小的层上采样一次,在对应神经元相加,输出P2,P3,P4,P5

在这里插入图片描述

  D)输出:对每层,即P2,P3,P4,P5都进行3×3卷积,再生成heatmaps

4)RefineNet

  A)对GlobalNet的4层输出P2,P3,P4,P5分别接上不同个数的Bottleneck模块

  B)将这4路输出,上采样到同一分辨率,这里以P2路(64×48)为基础,P3路放大2倍,P4路放大4倍,P4路放大8倍

  C)将4路按通道Concat一起,再接bottleneck,最后接输出层

3 设计理念

在这里插入图片描述

 在上图中一些Visible easy keypoints,比如说鼻子,从它会有相对固定的形状和纹理,且其点周围具备一些上下文信息,比较容易识别;而对于Visible hard keypoints来说,比如被衣服遮挡的关节点,在没有上下文信息情况下,人都很难识别是什么。

 那么人是怎么样去看比较难的关节点呢?人可能会无意识地放大或者利用可见点的上下文信息来推断其他点的信息。有些点是隐藏的,不仅是被衣服遮挡,识别这一类关节点会更难,需要利用更多的上下文信息。

 但是怎么样做才可以把看keypoint这个过程体现在卷积神经网络里呢。我们很难人为定义哪些关节点是可见容易关节点,哪些是被遮挡的关节点,哪些是隐藏的关节点。

 为了解决这个问题,我们退而求其次,把人体的关节点,大致分类两类:简单的部分和难的部分。用不同的方案去解决简单点和难点,先解决容易点,再解决难点。在解决难关节点部分时,提供更多的上下文信息,更大的可感受野。

4 Loss

 1)GlobalNet Loss就是L2 Loss,没什么可说的

 2)RefineNet Loss

  它与L2是同理的,但是在训练时,动态地将loss值比较大的几个channels进行反向学习;个人理解是RefineNet Loss更加关注loss值比较大的点,而这些点往往就是hard keypoint;实验验证,回传前8个loss效果较好

在这里插入图片描述

5 效果

在这里插入图片描述

在这里插入图片描述

相关阅读

spring-boot启动失败 Unregistering JMX-exposed bean

寄语:    学习的路途各种文章只是给你提供一个思路,适不适合自己还是要自己去总结,以下是我的项目遇到同样的问题但是尝试了多种方

Poser Pro 2016汉化安装破解图文教程(附注册机+序列号

Poser Pro是一款非常著名的人物模型构建软件,通过该软件,用户可以快速的设计3D人物模型,支持人物建模、动物建模、色彩渲染、人物服

STN:空间变换网络(Spatial Transformer Network)

空间变换网络(Spatial Transformer Network) 空间变换网络(Spatial Transformer Network) 空间变换器(Spatial Transformers) p

核密度估计 Kernel Density Estimation(KDE)

写在前面 给定一个样本集,怎么得到该样本集的分布密度函数,解决这一问题有两个方法: 1.参数估计方法 简单来讲,即假定样本集符合

关于'Deep Neural Networks for YouTube Recommendat

七月 上海 | 高

分享到:

栏目导航

推荐阅读

热门阅读