跳过主导航

机器学习的数据集

数据是权力机器学习的燃料;通过模式和功能的数据用于训练算法,它也将遵循规则,生成的算法。
一些随机数据
©约克大学
“数据是新的石油。/像油,数据是有价值的,但如果未经提炼的,它不能被使用。”——克莱夫·亨伯特(数学家)/迈克尔·帕尔默(广告)

数据和机器学习

数据是权力机器学习的燃料;通过模式和功能的数据用于训练算法,它也将遵循规则,生成的算法。

与传统的软件工程,一个程序员试图建立一个算法作用于输入创建所需的输出,机器学习(ML)输入和输出和寻求训练最好的匹配算法。

此外,机器学习组件通常不很好适应新的场景。如果你把他们在一个场景中没有遇到之前,他们不需要从旧原则新的场景和应用创新。事实上,他们只是不能工作。

因此,至关重要的是,数据集用于训练和测试算法是精心设计,策划,管理高效运转的ML算法还提供安全保证。我们如何开发要求的数据,以确保这种情况发生?

数据需求

数据需求需要指定数据集必须有特点,这样我们就可以确保数据捕获所有相关的安全特性和行为。我们可以建立这些要求从四个原则:

  • 相关性——数据集匹配毫升工作的场景
  • 完整性——数据集覆盖所有的场景毫升将工作
  • 准确性,数据准确地识别毫升是分类的特性
  • 平衡的数据集没有偏见

下面的例子说明这些原则通知数据用于训练和测试要求自主车辆(AV)。

相关性的例子

如果我们想要一个毫升组件用于目标检测AV,那么相关性要求,“应该捕获数据样本从同一位置传感器在车辆”。通常,AV的前瞻性视觉系统在后视镜后面。因此,我们应该避免使用从非常低或高角度拍摄的图像,如从空中无人机开销,毫升组件通常会从胸高看到一个正直的人。值得注意的是,这个需求会改变取决于汽车:想想路上的不同观点的人从铰接式卡车的挡风玻璃和跑车。

完整的例子

如果我们想要一个AV操作在任何时间,白天还是晚上,那么机器学习组件必须能够有效地在明亮的阳光和低光照条件。然后我们的数据完整性要求可能是“在任何时候都应该捕获数据样本的一天,光在下列条件:明亮的阳光,阴天,沉重的云,暮光之城,阳光直射,迎风而立头灯,城市街道照明和未点燃的农村道路。”

当指定这些需求特别重要的考虑自然环境的复杂性和高空间变异性的机器学习组件可以操作。在日常的演讲中,我们将描述这些条件从人类体验的角度来看,这是很难“翻译”的数值概念捕捉传感器操作如照度、反照率,横截面,对比,或者信噪比。

准确的例子

如果我们想要一个AV查明所有检测行人的位置在50厘米的真实位置,我们必须考虑,人类不是单个的点在空间或孤立的四肢。毫升组件应该准确地识别整个行人的位置,即使他们是部分被遮挡,如站在停放的汽车。我们需要找到一个人一贯的元素。然后我们的数据精度要求可以“标签样本数据时,应当记录所有行人的位置作为肢体的人最接近路”。

标签数据的机器学习是人类的一种方式告诉什么是正确的结果或输出一组数据,如通过添加一些关键词和/或结果的周围有一个盒子。标签有一个戏剧性的质量影响算法的可靠性。然而,工作是劳动密集型,有点无聊,所以经常出现错误和偏见。

平衡的例子

人类已经出现显著变化由于表型变异,两性异形,健康原因或社会文化因素。然而,我们需要一个AV检测所有人类,所以我们需要平衡的数据要求:“应当平衡数据集变化在人类的外表。”

值得考虑到毫升分类器通常用于组对象类的数量。在AV的情况下,相关类包括汽车、公共汽车、卡车、道路标志、交通信号灯和行人。“平衡的数据集对阶级”会有相同数量的每个类。然而,这仍然是一个需要避免偏见对兴趣类的特性:例如,“行人”类的数据需要平衡对性别、种族等。

©约克大学
本文从免费在线

智能系统:介绍深度学习和自治系统

FutureLearn——终身学习

我们的目的是将受教育的机会。

我们提供多样化的选择来自著名大学的课程和来自世界各地的文化机构。这些都是一步一个脚印,并可以在手机、平板电脑和桌面,所以你可以学习你的生活。

我们认为学习应该是愉快的,社会经验,所以我们的课程提供了机会与他人讨论你的学习,帮助你作出新的发现和形成新的想法。
你可以解锁新的机遇与无限制地成百上千的在线短期课程一年通过订阅我们的无限的包。电竞博彩app有什么与顶尖大学和组织建立你的知识。dota2竞猜吧

了解更多关于如何FutureLearn正在改变的受教育机会