原文:Surpassing Human Judgement for Fashion Style - 2019.02.21

作者:Arshak Navruzyan

这里主要分析机器如何区分时尚风格.

对此,超越了之前对于时尚风格分类的艺术表现,并证明计算机视觉算法能够在感知服装风格方面明显超过人类用户.

目标:从 14 个不同的时尚风格中,检测时尚照片的风格.

采用 ResNet-34 模型,这里分享一些技术以及 fastai v1 的定制化,用于解决该问题.

1. 方法

论文 What Makes a Style: Experimental Analysis of Fashion Prediction-2017 中,Simo-Serra 新创建了 13234 张图片数据集,并尝试区分 14 种不同的时尚风格.

还可以进一步参考 Hipsterwars dataset,其仅有 1893 张图片,5 种不同的风格类.

1.1. Fashion 14 Dataset

时尚风格相关数据的收集是很有挑战性的. 数据集中的图片往往是从时尚网站收集得到的,如 chictopia.com,以及利用网站的 meta-information 噪声标签.

Simo-Serra 手工删除了容易误分类的图片,并得到了清晰标注的 Fashion 14 数据集. 例如:

图 1 - Fashion 14 数据集例示

What Makes a Style: Experimental Analysis of Fashion Prediction-2017 论文里介绍了作者将数据集划分为了 training、validation 和 test 数据集(60%, 5%, 35%),但是下载的数据包中, "train.csv", "val.csv", 和 "test.csv" 三个 csv 文件与论文里的说明存在许多差异,如图片总数、每个子集中的类别数、部分文件名缺失等.

1.2. 训练流程

类似于 Simo-Serra,这里也将数据集划分为 training、validation 和 test 三个数据子集(60%, 5%, 35%).

采用 fastai 实现一系列的图像变换,因此得到的网络可以很容易的概括每种时尚风格.

然后,利用 fastai 实现的学习率调整策略(Leslie Smith’s 1cycle learning rate policy),采用 5e-2 的学习率,对分类器的 head 网络层 fine-tuned 两个 epochs.

接着,采用 1e-6 和 5e-4 之间的学习率,对整个网络训练多于 13 个 epochs.

最终,在 vailidation 数据集上取得了 77.6% 的最大准确率.

2. Results

采用比 Simo-Serra 所使用网络更浅的网络,由于 fastai 提供的优化方法,作者取得了领先的结果,在某些场景下超越了人类的分类能力.

经过测试时的变换(TTA, test time transformations),得到了 78.49% 的准确率,而 Simo-Serra 的最高准确率为 72.0%. 且在 14 个时尚类别中,12 个都是占优的.

conserv.dressyethnicfairyfemininegalgirlishcasuallolitamodenaturalretrorockstreetaverage
ResNet34 fastai0.720.900.790.910.800.730.610.690.950.730.800.720.780.860.78
ResNet500.660.910.740.880.640.740.470.660.920.720.700.620.680.690.72
VGG190.540.790.570.810.430.500.260.540.800.620.560.420.530.600.58
Xception0.440.790.630.840.450.500.330.540.800.610.560.440.520.530.58
Inception v30.370.730.540.780.410.390.270.450.780.550.440.350.470.460.51
VGG160.310.780.490.780.420.450.220.430.810.580.570.230.430.430.51

表 1 - 采用 ResNet34 fastai 的模型结果和 [1] 中的结果在前行.

论文作者还测试了两组人类对这些图片的分类,一组是专业的,一组是业余的. 专业组得到了 82% 的准确率;业余组得到了 62% 的准确率.

如下表,本文得到的模型结果在几类时尚风格类都超过了专业组: conservative (72% vs 59%), fairy (91% vs 89%), mode (73% vs 69%) and rock (78% vs 74%).

conserv.dressyethnicfairyfemininegalgirlishcasuallolitamodenaturalretrorockstreetaverage
Savvy (human)0.590.920.800.890.840.920.710.750.950.690.810.790.740.910.82
ResNet34 Fastai0.720.900.790.910.800.730.610.690.950.730.800.720.780.860.78
Naive (human)0.350.870.640.830.600.620.510.500.830.290.570.500.580.740.62

表 2 - [1] 中专业组和业余组用户的结果与本文的 ResNet34 fast-ai 结果的对比.

混淆矩阵更清晰的描述了不同时尚风格类别的区分情况. 如下图,可以注意到,模型主要难以区分 kireime-casual 和 conservative 两个时尚风格.

表 3 - test 数据子集的混淆矩阵

另外,还画出了一些 heatmaps,以显示网络模型是在关注于人的服装,以理解其风格,而不去关注背景区域.

3. Hipsterwars Dataset

Hipster Wars: Discovering Elements of Fashion Styles - 2014

Hipsterwars 数据集共包含约 1900 张图片,5 种不同的风格: Hipster, Bohemian, Goth, Preppy, Pinup(时髦,波西米亚,哥特,Preppy,Pinup),其是通过游戏的方式人手工标注的.

这里尝试将得到的模型在 Hipsterwars 数据集上进行测试,验证模型的泛化能力.

3.1. 半监督分类

不进行额外的训练,直接根据 Fashion14 网络的中间层的输出之间的欧式距离,采用最近邻方法,得到结果. Simo Serrra 也对其论文里的中间层数据采用监督 SVM 进行处理.

这里计算在该投影空间中的 top1,top2 和 top3 的最近邻是否与输入图片具有相同标签. 结果显示了即使目标类别与训练类别不是相同的情况下,网络也可以聚类相似图片.

Top 1Top 2Top 3
Stylenet Joint w SVM0.640.800.86
ResNet34 Fastai (ours)0.530.690.78
VGG CNN_M0.450.640.76
VGG16 Places0.400.610.72

表 4 - 在 Hipsters Wars 数据集上采用特征距离的不同深度网络间的对比.

表 5 - 在 Hipsterwar 数据集上模型 top-3 预测结果的混淆矩阵.

4. platform.ai 可视化

图 3 - Hipsterwars 的 3 种时尚风格的可视化

5. 总结

基于 fastai,可以很方便的采用迁移学习训练时尚风格分类器,并在 Fashion 14 数据集上取得了领先的结果.

fastai 的可视化工具有助于对数据集特点的分析理解,并确保模型能够感知时尚风格.

6. 参考文献

[1] - Moeko Takagi and Edgar Simo-Serra and Satoshi Iizuka and Hiroshi Ishikawa, What Makes a Style: Experimental Analysis of Fashion Prediction. Proceedings of the International Conference on Computer Vision Workshops. ICCVW, 2017.

[2] - M. Hadi Kiapour, Kota Yamaguchi, Alexander C. Berg, Tamara L. Berg. Hipster Wars: Discovering Elements of Fashion Styles. In European Conference on Computer Vision. 2014.

[3] - Edgar Simo-Serra and Hiroshi Ishikawa, Fashion Style in 128 Floats: Joint Ranking and Classification using Weak Data for Feature Extraction. Proceedings of the Conference on Computer Vision and Pattern Recognition. CVPR, 2016.

Last modification:April 12th, 2019 at 05:51 pm