题目: Part-based clothing image annotation by visual neighbor retrieval - 2016 Neurocomputing 作者: Guang-Lu Sun, Xiao Wu, Qiang Peng 团队: Southwest Jiaotong University

服装图像标注比较具有挑战性,由于衣服的形变大、人体姿态和背景的影响.

part-based 服装图像标注

  • 基于 pose 检测和 part-based 特征对齐来消除服装形变的影响;
  • 同时考虑 tag 相关性和 tag 显著性(saliency) 来提取候选 tags;
    • 候选 tags 的相关性通过寻找待查询图像的视觉neighbors来确定;
    • 候选 tags 的显著性根据查询图像 parts 和 整个训练的 part 聚类中心(clusters) 之间的关系来确定;

<h2>1. Introduction</h2>

通用图像标注问题研究一般可分为两类:

  • Model--based 方法 该类方法类似于多标签(multi-label) 分类问题. 一般是通过监督学习的方法训练一系列的 tag 分类器,再进行图像标注.
    但,由于图像 tags 数量的无限性及连续增加,不可能对每个 tag 都训练一个分类器.
  • Annotation by search 主要分为两步:(1)计算待查询图像与整个数据集的视觉相似性,来检索视觉相似样本; 然后将相思洋被的相关 tags 作为候选 tags;(2)以特定方式来估计各候选 tag 与待查询图像的相关性来进行 tags 重排名.
    该类方法是无监督学习的,不需要学习 low-level 特征和 high-level 语义特征之间的映射关系,灵活性更高,更适合图像标注问题.

服装图像标注问题是对服装局部属性的详细描述,其需要服装图像的 top-ranked tags 不仅与服装图像内容相关,也要能反映服装的最重要的特征.

服装图像与通用图像标注的 tags 的一个例子如 Fig.1. 在服装图像中,通用 tags 如 “coat” 和 “Tshirt” 与图像内容相关,但还不足以描述该服装的代表性特征,还需要其它细节性描述来描述服装的显著特征,如“hollow shoulder(空心肩膀)”、“tassels(流苏)”,等.

服装图像标注的两个关键问题:

  • 有效检索服装图像的视觉邻近样本;
  • 分配相关和代表性强的 tags 到服装图像.

这里提出对应的解决方案——part-based 服装图像标注方法:

  • 加入 tag 相关性和 tag 显著性
  • 采用 part-based 显著性 tag 提取方法来选择服装图像的重要 tags,其主要是基于 part 聚类中心的类内(inter-cluster)和类间(intra-cluster)的相关性分析.

<h2>2. Part-baed 服装图像标注</h2>

<h3>2.1 方法框架</h3>

方法主要包括三部分:

[1] - 根据视觉相似性来检索相似服装图像(蓝色点方框). 采用 part-based 特征提取和特征对齐来缓解背景噪声和人体姿态形变的影响,以获取更准确的候选 tags;

[2] - 分析服装部分和其 tags 的相关性来提取各服装部分的突出性 tags(红色点方框);

[3] - 结合 whole-image-based 相关性分析和 part-based 相关性分析来改善 tags(绿色点方框). 这些 tags 不仅与服装图像相关,还反应了服装的显著特征.

<h3>2.2 相似图片搜索</h3>

<h4>2.2.1 特征描述子提取</h4>

首先,采用 pose detector 对图像进行处理,以得到一组 parts,如 shoulder,elbow,wrist,torso等.各个 part 均归一化为 64*64 像素固定大小.

然后,对各 part,提取 24-D颜色直方图(color histogram)、59-D局部二值模式(local binary pattern, LBP)、1984-D HOG(histogtam of oriented gradients)、75-D边缘分布(edge distribution) 和 170-D 小波特征(wavelet features) 作为视觉特征表示.

最后,服装图像的 18 个 parts 的特征组合为一个 41616 维特征描述子,并采用 PCA 降维到 905 维,以提高检索效率. 如Fig.3.

<h4>2.2.2 相似性检索</h4>

采用 L2-distance 来作为 KNN 搜索方法的度量,检索相似图像. 构建 KD-树以实时索引图像样本. 在搜索阶段,设置 K=100. 为了进一步提高检索效率,可以采用 Hashing 方法,将高维视觉特征映射为 hash 编码.

<h3>2.3 part-based 显著性 tag 提取</h3>

首先,采用 pose detector 得到服装图像中的各关键 parts,如shoulders,elbows;

然后,针对各part,获取包含该 part 的图像块和对应的 tags. 将所有包含该 part 的图像块根据视觉特征进行聚类;

最后,结合类间和类内相关性分析,来选取各类的代表性 tags 列表. 如 Fig.4.

<h2>3. 实验结果</h2>



Last modification:October 9th, 2018 at 09:31 am