必威体育Betway必威体育官网
当前位置:首页 > IT技术

AVOD阅读笔记(一):摘要+特征提取----Aggregate View Obeject Detection network

时间:2019-07-14 12:14:22来源:IT技术作者:seo实验室小编阅读:78次「手机版」
 

avod

摘要:

  • AVOD: an Aggregate View Obeject Detection network   多视图目标检测网络
  • 使用了LIDAR和RGB图像生成特征。
  • 包括两部分:RPN(区域提案网络)和a second stage detector network(第二步检测器?)
  • RPN可以在高分辨率特征图上执行多模型特征融合,从而对道路上的多类目标生成可Y靠的3D候选目标(performing multimodal feature fusion on high resolution feature maps to generate reliable 3D object proposals for multiple object classes in road scenes )
  • second stage detector network:执行精确的定向3D边框回归和分类,以预测三维空间中其尺寸、方向和分类。

 

  • AVOD可用于对小尺寸目标的监测和定位:AVOD中的RPN结构致力于将图像和鸟瞰图特征图中全分辨率的特征要素(feature crop??)作为输入,允许较小尺寸目标产生高召回率的提案。此外,特征提取器可以提高全分辨率的特征图,这对于小尺寸目标的定位精度非常有帮助。

AVOD结构:

  • 提案方法 :

           利用特征提取器从鸟瞰图和图像中生成特征图; 

           RPN利用这两个特征图生成未定向的候选区域     

           检测网络利用候选区域进行维度细化(dimension refinement?)、方向估计和分类。

  • 从图像和点云中生成特征图
  1. 按照MV3D中的步骤,从一个分辨率为0.1m的点云的体素网格表示中生成六通道鸟瞰图。
  2. 将点云裁剪在[-40,40]×[0,70]范围内,从而包含相机视野内的点。???????
  3. 鸟瞰图的前五个通道是每个栅格单元的最大高度,是由Z轴上[0,2.5]米范围内五个相同的切片生成。
  4. 第六个通道信息包含的是每个单元中的密度信息。由
  • 特征提取器

  1. AVOD使用了两个相同 特征提取器,图像输入和LIDAR输入各一个。
  2. 特征提取器由两部分组成:encoder(编码器)和decoder(解码器)
  3. 编码器:对VGG-16做了一些修改,主要是将其通道数减半,并在conv4层裁剪网络。因此,编码器将一个M*N*D的图像或者鸟瞰图作为输入,并输出(M/8)×(M/8)×D* 的特征图F。(行人一般是0.8×0.6m,在鸟瞰图中占8×6个像素(分辨率为0.1m)。经过编码器进行8倍下采样后,在输出的特征图中只占不到一个像素。)
  4. 解码器:由FPN启发,设计了自底向上的解码器(bottom-up)将encoder输出的特征图上采样恢复至原始输入尺寸;通过conv-transpose(解卷积),将两个编码器输出的相关联的特征图级联,然后通过一个3×3卷积将两者融合。
  5. 通过encoder和decoder最后得到的特征图具由较高的分辨率和代表性,并且是由RPN和the second stage detection network 共享的。

相关阅读

tuxedo笔记

一、常用命令1.使用buildclient构造client端程序步骤:1. client端程序包含atmi.h头文件; 2. 正确设置TUXDIR环境变量; 3. 使用bui

Unity Cinemachine插件学习笔记,结合Timeline实现简单

1. 轨道设置如图 0和4重合,模拟一个闭环。的属性都是用来看的,没有实际影响。Looped如果选择了,就会将第一个点和最后一个点连接。 

论文笔记:IOUnet

作者指出,目前主流的目标检测网络都由两步完成:目标分类和目标定位。首先从背景中找出前景的object proposal并将其分配上合适的分

梁宁-产品思维30讲 | 笔记(上)

梁宁-产品思维30讲 | 笔记 01. 产品能力是每个人的底层能力,是在建立自己的认知框架,产品之路是相对最不需要背景资源的一条路, 三

DirectX学习笔记(二):Direct3D初始化详解

前言: Direct3D是一套底层的API,即:应用程序接口。Direct3D主要用来开启硬件加速功能来绘制3D场景,它可以看做是应用程序和图形设备(3D

分享到:

栏目导航

推荐阅读

热门阅读