跳过主要导航

面部识别如何工作?

本文研究了使面部识别尽可能有效地工作所需的其他注意事项。
岩石中的抽象面部图像
©约克大学

使用CNN计算面部图像的嵌入是最先进的面部识别状态的标准方法。

但是,在实践中使其正常工作需要一些其他注意事项。

让我们看看他们。

培训数据

我们必须仔细选择培训数据,以便我们观察到每个身份的图像的广泛可变性。因此,嵌入网络被迫学会忽略与身份无关的图像变化,并专注于提取对身份表征有用的功能。这种数据集通常是通过爬上互联网而获得的。

例如,如果将名人的名字键入图像搜索,您通常会发现该人的数百张图像。

汤姆·汉克斯的Google图片

这使得可以自动获得10秒的数百万图像和100千个身份的数据集。当然,我们必须小心清洁此类数据集,以删除错误标记的图像。

例如,搜索返回的图像可能包括其他人,甚至包括原始名人的外观。数据清洁本身就是一个开放的研究问题,目前是通过大量的手动劳动和一些半自动技巧来解决的。

例如,我们可以训练网络的初始版本,使用它标记所有验证集,然后手动检查网络犯错的任何图像。

三胞胎选择

三胞胎损失用于学习良好的嵌入。但是,有很多可能的三胞胎(对于一个人的每一张图像,您可以使用培训集中其他每个人的每个图像创建三胞胎)。其中许多将很容易,即嵌入已经很好地分开了不同的身份。

该网络没有从这些三胞胎中学到任何有用的东西。因此,可以挖掘硬三重示例。这涉及找到嵌入很远的相同身份的对,并成对嵌入在一起的不同身份。

硬三联体是由这些对形成的,迫使网络专注于改善最具挑战性图像的嵌入。

面部检测

通常,脸只是图像的一小部分。如果我们将整个图像提供给嵌入式网络,则网络必须学会忽略几乎所有图像。此外,由于网络实际上仅限于将相对较小的图像作为输入,因此面部本身最终会很小 - 仅压缩到几个像素,并且在该分辨率下无法识别。

因此,面部嵌入网络通常假设输入图像已经被裁剪到面部周围的边界盒中。

查找图像中每个脸部大概位置的完全独立的任务称为面部检测。通常使用不同的体系结构。

例如,我们可能会训练网络以从图像中回归边界框坐标。或者,我们可能会输出一个热图,每个像素代表该位置存在面部的概率,然后将边界框放入具有最高概率的斑点。

面部检测示例

地标和对齐

最后,在将面孔传递到嵌入网络之前是否值得更精确地对齐面孔存在一个问题。

例如,您可以选择旋转,缩放和翻译图像,以使眼中中心始终位于同一位置。这应该使识别任务更容易,因为同一功能最终将在大致相同的位置中,从而消除了一个无用的变化来源。

为此,通常在边界盒中估计一组具有里程碑意义的位置。这是由另一个深CNN完成的,可以再次使用各种不同的体系结构。

最常见的是,每个地标的2D坐标都可以直接通过回归网络进行预测,或者网络输出每个地标的概率热图。

面部功能识别

该领域的突破性论文采用了非常精心的对齐程序,涉及估计67个地标,将3D模型拟合到这些地标,然后使用3D模型将图像扭曲到额叶姿势。

Sylvester Stallone 3D建模过程示例

但是,出于相同的原因,我们批评了课程早期手工制作功能,手工制作对齐管道不一定是最佳的。给定足够的培训数据,可以将任何必需的对齐方式作为整体嵌入过程的一部分学习。

参考

  1. Taigman,Yaniv等。“深面:在面部验证中缩小与人类水平的差距。”IEEE计算机视觉和模式识别会议论文集。2014
  2. Schroff,Florian,Dmitry Kalenichenko和James Philbin。“面部:统一的嵌入面部识别和聚类。”IEEE计算机视觉和模式识别会议论文集。2015
©约克大学
本文来自免费的在线免费

智能系统:深度学习和自主系统简介

由...制作
FutureLearn-终身学习

我们的目的是改变接受教育的机会。

我们提供来自世界各地的大学和文化机构的各种课程。这些一次是一次交付的一步,并且可以在移动,平板电脑和台式机上访问,因此您可以适合自己的生活。

我们认为,学习应该是一种愉快的社交经验,因此我们的课程为您提供了与他人一起讨论的机会,帮助您做出新的发现并形成新的想法。
您可以通过订阅我们无限制的包裹来解锁新的机会,以无限制地访问数百种在线短课程。电竞博彩app有什么通过顶尖的大学和组织建立知识。dota2竞猜吧

了解有关FutureLearn如何转化接受教育的更多信息