vlad
1.1 vlad基础概念
VLAD是vector of locally aggregated descriptors的简称,是由Jegou et al.在2010年提出,其核心思想是aggregated(积聚),主要应用于图像检索领域
1.2 相关方法优缺点
在深度学习时代之前,图像检索领域以及分类主要使用的常规算法有BoW、Fisher Vector及VLAD等。
BoW方法的核心思想是提取出关键点描述子后利用聚类的方法训练一个码本,随后每幅图片中各描述子向量在码本中各中心向量出现的次数来表示该图片,该方法的缺点是需要码本较大;FV方法的核心思想是利用高斯混合模型(GMM),通过计算高斯混合模型中的均值、协方差等参数来表示每张图像。该方法的优点是准确度高,但缺点是计算量较大。
1.3 VLAD算法
VLAD算法可以看做是一种简化的FV,其主要方法是通过聚类方法训练一个小的码本,对于每幅图像中的特征找到最近的码本聚类中心,随后所有特征与聚类中心的差值做累加,得到一个k*d的vlad矩阵,其中k是聚类中心个数,d是特征维数(如sift是128维),随后将该矩阵扩展为一个(k*d)维的向量,并对其L2归一化,所得到的向量即为VLAD。关于该算法为何有效,Jegou et al.在2012年的期刊版本Aggregating local image descriptors into compact codes中有着相关证明。
1.4 VLAD算法发展演变
在VLAD算法的基础上Arandjelovic et al.在 All about VLAD 一文中提出了一种改进方法。随后,其又结合深度卷积神经网络的相关内容,提出了NetVLAD。
2 VLAD算法流程
(1) 读取图片文件路径及特征提取
(2) 使用聚类方法训练码本
(3) 将每张图片的特征与最近的聚类中心进行累加
*(4) 对累加后的VLAD进行PCA降维并对其归一化
*(5) 得到VLAD后,使用ADC方法继续降低储存空间和提高搜索速度
其中步骤4、5可选,在步骤3得到残差累加向量后进行L2归一化即可用欧氏距离等计算两张图片的相似性从而实现图片检索
一个简单的实现(基于sift特征及orb特征)请参考
VLAD-ORB-C++
VLAD-SIFT-Python
相关阅读
局部聚合向量noteVLADstands out for the following reasons:(1) 计算很原始(加法/减法操作)(2) 和CNN相比,训练一个VLAD
局部聚合向量(Vector of Locally Aggregated Descriptors,VLAD)一种编码方法,广泛用于基于音频的人脸识别、动态场景识别、头部姿态分