跳过主要导航

什么是计算机视觉?

从图像中提取有用的信息或寻求使用计算机理解图像的信息称为计算机视觉。这是一个非常广泛的主题,包括许多问题,应用和技术。
CCTV摄像头
©约克大学

什么是计算机视觉,为什么有用?

从图像中提取有用的信息或寻求使用计算机理解图像的信息称为计算机视觉。这是一个非常广泛的主题,包括许多问题,应用和技术。我们将专注于使用深度学习来解决计算机视觉中的问题。在我们这样做之前,合理地询问为什么这很有趣或有用。为什么计算机视觉有用?我们要解决什么样的问题?新的计算机视觉技术可以启用哪些现实世界应用?我们将在本文中回答这些问题,以提供计算机视觉最新发展的一些令人兴奋的发展。

现在,我们大多数人现在都在手机上存储了数千张照片。互联网包含数十亿图像和数十亿小时的视频。为了使用户能够找到他们正在寻找的内容或从所有这些内容中提取含义,需要计算机能够分析这些图像并定义图像中的内容。一个非常简单的策略就是仅在每个图像上运行对象或面部识别系统,然后在每个图像中添加适当的标签。然后,用户可以通过基于文本的搜索搜索标签。

更有趣的是,允许用户通过图像搜索并检索包含相似内容的图像。可以通过使用深层神经网络从图像提取视觉概念,然后找到包含相同概念的其他图像来解决此问题:

基于内容的检索

更具挑战性的是让计算机总结图像,而不仅仅是列出对象,还可以理解对象之间的动作和关系:

图像标签示例

3D环境

人类在四处走动时使用他们的视觉系统来理解3D世界。我们避免遇到障碍和危险,计划到达所需要点,查找和使用其他物品等路线。这要求我们从眼睛收到的两个图像中重建一个3D环境,并能够推论哪些场景元素比其他元素更接近。当可以使用同一场景的许多图像时,我们可以使用几何计算机视觉方法,例如结构 - 运动和多视立即立体声。当通过不同的摄像机拍摄图像时,这些方法甚至在不同的时间随着照明而变化时,甚至可以工作。例如,这允许从旅游照片中重建地标的高度详细的3D模型:

2D照片的3D构造

尽管不需要深入学习的经典计算机视觉方法是可能的,但最新进展是基于神经网络的。例如,现在有可能将新观点综合起来,并改变外观和照明:

野外的nerf请参阅此处以获取更多样本结果

令人兴奋的是,我们甚至可以从单个图像中恢复3D信息,有效地训练神经网络从颜色图像转换为深度图(每个像素上的值告诉我们沿该方向的距离)。以下视频正在独立处理每个框架,但您可以看到它恢复了随着时间的流逝而流畅的高质量深度图:

单调

除3D信息外,还可以使用深度学习来标记图像中每个像素的含义。该问题称为语义细分,并提供了可以从中可以推断出更复杂决策或理解的图像的丰富描述:

语义细分

图形的计算机视觉

计算机视觉还用于生成新内容,以进行计算机图形或图像编辑。例如,创造深层假货:

深度视频肖像

在上面提到的语义分割的基础上,现在有一些方法可以从语义标签中综合图像。这允许用户绘制所需的场景布局,然后系统将其变成一个逼真的图像:

仪表

科学计算机视觉

在许多科学领域,也正在部署计算机视觉来解决基本问题。医学,神经科学,生物学,化学,天文学和许多其他领域记录了一种或另一种图像,并能够标记异常,检测特征,消除噪声等是至关重要的。作为最近的一个例子,您可能在2020年的新闻中看到了黑洞的第一张图像。这涉及一种非常复杂的成像技术,该技术使用分布在地球上的望远镜,然后从非常嘈杂的数据中提取非常弱的信号。

黑洞的图像

©约克大学
本文来自免费的在线免费

智能系统:深度学习和自主系统简介

由...制作
FutureLearn-终身学习

我们的目的是改变接受教育的机会。

我们提供来自世界各地的大学和文化机构的各种课程。这些是一次交付的一步,并且可以在移动,平板电脑和台式机上访问,因此您可以在生活中学习。

我们认为,学习应该是一种愉快的社交经验,因此我们的课程提供了机会,可以随时与他人讨论您所学的东西,帮助您做出新的发现并形成新的想法。
您可以通过订阅我们的无限制套餐来解锁一年来无限访问数百个在线短课程的新机会。电竞博彩app有什么通过顶尖的大学和组织建立知识。dota2竞猜吧

了解有关FutureLearn如何转化接受教育的更多信息