avod
摘要:
- AVOD: an Aggregate View Obeject Detection network 多视图目标检测网络
- 使用了LIDAR和RGB图像生成特征。
- 包括两部分:RPN(区域提案网络)和a second stage detector network(第二步检测器?)
- RPN可以在高分辨率特征图上执行多模型特征融合,从而对道路上的多类目标生成可Y靠的3D候选目标(performing multimodal feature fusion on high resolution feature maps to generate reliable 3D object proposals for multiple object classes in road scenes )
- second stage detector network:执行精确的定向3D边框回归和分类,以预测三维空间中其尺寸、方向和分类。
- AVOD可用于对小尺寸目标的监测和定位:AVOD中的RPN结构致力于将图像和鸟瞰图特征图中全分辨率的特征要素(feature crop??)作为输入,允许较小尺寸目标产生高召回率的提案。此外,特征提取器可以提高全分辨率的特征图,这对于小尺寸目标的定位精度非常有帮助。
AVOD结构:
- 提案方法 :
利用特征提取器从鸟瞰图和图像中生成特征图;
RPN利用这两个特征图生成未定向的候选区域
检测网络利用候选区域进行维度细化(dimension refinement?)、方向估计和分类。
- 从图像和点云中生成特征图
- 按照MV3D中的步骤,从一个分辨率为0.1m的点云的体素网格表示中生成六通道鸟瞰图。
- 将点云裁剪在[-40,40]×[0,70]范围内,从而包含相机视野内的点。???????
- 鸟瞰图的前五个通道是每个栅格单元的最大高度,是由Z轴上[0,2.5]米范围内五个相同的切片生成。
- 第六个通道信息包含的是每个单元中的密度信息。由
- 特征提取器
- AVOD使用了两个相同 特征提取器,图像输入和LIDAR输入各一个。
- 特征提取器由两部分组成:encoder(编码器)和decoder(解码器)
- 编码器:对VGG-16做了一些修改,主要是将其通道数减半,并在conv4层裁剪网络。因此,编码器将一个M*N*D的图像或者鸟瞰图作为输入,并输出(M/8)×(M/8)×D* 的特征图F。(行人一般是0.8×0.6m,在鸟瞰图中占8×6个像素(分辨率为0.1m)。经过编码器进行8倍下采样后,在输出的特征图中只占不到一个像素。)
- 解码器:由FPN启发,设计了自底向上的解码器(bottom-up)将encoder输出的特征图上采样恢复至原始输入尺寸;通过conv-transpose(解卷积),将两个编码器输出的相关联的特征图级联,然后通过一个3×3卷积将两者融合。
- 通过encoder和decoder最后得到的特征图具由较高的分辨率和代表性,并且是由RPN和the second stage detection network 共享的。
相关阅读
一、常用命令1.使用buildclient构造client端程序步骤:1. client端程序包含atmi.h头文件; 2. 正确设置TUXDIR环境变量; 3. 使用bui
Unity Cinemachine插件学习笔记,结合Timeline实现简单
1. 轨道设置如图 0和4重合,模拟一个闭环。的属性都是用来看的,没有实际影响。Looped如果选择了,就会将第一个点和最后一个点连接。
作者指出,目前主流的目标检测网络都由两步完成:目标分类和目标定位。首先从背景中找出前景的object proposal并将其分配上合适的分
梁宁-产品思维30讲 | 笔记 01. 产品能力是每个人的底层能力,是在建立自己的认知框架,产品之路是相对最不需要背景资源的一条路, 三
前言: Direct3D是一套底层的API,即:应用程序接口。Direct3D主要用来开启硬件加速功能来绘制3D场景,它可以看做是应用程序和图形设备(3D