原文:Interactive Segmentation with Convolutional Neural Networks 基于 CNN 的交互式视频分割

动物贴画(animated stickers) 最近在 messaging applicationmemes 兴起.

基于现有技术,生成动物贴画是非常有挑战性,且耗时的,使得对于没有相关背景的普通用户而言,难以使用.

去除任意一段 Video (非绿幕背景) 的背景仍是一件比较低级的工作,涉及到对 video 中每一帧的 object 进行手工分割.

因此,在网站 gifs.com 中,实现基于 AI 技术,来帮助用户简单快捷的创建动物贴画.

Figure 1. 从 Video 创建的动画贴图例子

<h2>1. 技术挑战</h2>

由于 Video 的复杂性,动画贴图:

  • 容易受运动模糊(motion blur) 、bad composition 和缺失(occlusion) 的影响;
  • 尺寸较少(信息非常少) 和背景前景相似度较大时,object 很难分割;
  • Video 片段可能包含多种类型的 objects,需要提取用户想要的 object. Figure 2. 用户创建的贴图

<h2>2. 解决方案</h2>

  • 首先,用户采用交互式分割工具来标注在 Video 第一帧中想要的 object;
  • 然后,标注结果传递到其它帧,并渲染为动画贴图.

对于 object 的分割,如实例分割,采用 CV 技术来根据少量的用户操作,推断整体分割.

Figure 3. 采用交互式工具标注 Video 第一帧的例示.

分割过程(第一帧和整体 Video 的分割) 都采用 CNN. CNN 已经在 image 和 video 识别方面取得较好的应用,其能够理解图片中 object 的视觉属性,如 animal,car 等.

<h3>2.1 交互式分割</h3>

GrabCut 算法 是实现交互式分割的有效快捷方法. 该方法通过构建像素分布(颜色 colors)的模型来很好的区分背景和前景差异较大的 object. 但,其对于前景背景差异度较小的图片,分割效果不够理想.

Figure 4. (左)用户标注输入;(右) GrabCut 分割结果. 由于熊的身体颜色与背景比较相似,导致分割结构不理想.

高质量的动画贴图,需要在 Video 第一帧能得到高精度的分割结果. 由于 GrabCut 分割结果不能达到要求,这里决定采用深度学习方法.

受到论文 Deep Interactive Object Selection 采用深度神经网络进行交互式 object 分割的启发,这里,以图片、已有分割结果,以及用户修正结果作为输入,来创建网络,以输出 object 的二值 mask.

这里给用户提供画刷工具(brush tool) 来修正 Video 的第一帧. 基于产品数据发现,典型用户往往采用各种各样的方式画出 object,如 单击(clicks)、笔画(strokes) 或者高亮整个 object. 因此,就需要开发的算法能够考虑不同的标注形式,并能在训练阶段包含模拟的用户 strokes 和 clicks ,以得到最优的结果,提供良好的用户体验.

Figure 5. 用户标注 object 方式:clicks, strokes, highlights

<h3>2.2 Video 分割</h3>

Video 第一帧标注信息确定及成功分割 object 后,这里采用论文 One-Shot Video Object Segmentation-OSVOS 方法来生成 Video 其它帧的分割结果.

OSVOS 是基于 VGG 的卷积网络,其可以利用通用语义信息对 objects 进行分割. 对于每张贴图,OSVOS 模型在 frame/mask 对上进行 fine-tuned;然后,推断 Video 中全部帧的 mask,并结合得到的结果,以输出透明背景的动画贴图.

如果 Video 中从开始到结束,object 移动很快,或者变化很大,则可能得到不同的结果. 对此,这里允许用户对更多的 Video 帧进行修正,以提高贴图质量.

Figure 6. 添加交互式用户修正,能够提高模型的分割结果.



Figure 7. (上) Video 标注一帧得到的贴图;(下) Video 标注多帧得到的贴图. 如果只标注 Video 一帧,分割结果不理想;如果再对 Video 分割最差的帧进行标注,则可以提高贴图质量.

<h2>3. 总结</h2>

这里介绍了基于深度学习技术,应用于更高效简单生成动画贴图. 首先,用户标注 Video 的第一帧;然后 采用 OSVOS 方法生成 Video 全部帧的分割结果;最后,根据实际情况,允许用户更多交互,提高动画贴图质量. 尽管动画贴图创建过程很简单,但 gifs.com 提供的编辑器能够更加简化贴图创建,并降低普通用户使用难度,创建用户个性化贴图.

每周 gifs.com 都有用户创建的许多贴图,欢迎尝试. 网址:https://beta.gifs.com/sticker-creator/

<h2>4. Links</h2>

[1] - https://beta.gifs.com/sticker-creator/

[2] - One-Shot Video Object Segmentation

[3] - Deep Interactive Object Selection

[4] - Deep Residual Learning for Image Recognition

[5] - Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

Last modification:October 9th, 2018 at 09:31 am