跳过主要导航

什么是数据分类?

分类问题涉及我们向计算机提供数据,然后将其分配给标签或类。假设在线零售商想要一个可以迅速解决产品评论的系统。为了解决这个问题,零售商可以使用文本分类算法来寻找正面和负面评论。

分类问题涉及我们向计算机提供数据,然后将其分配给标签或一个班级

假设在线零售商想要一个可以迅速解决产品评论的系统。为了解决这个问题,零售商可以使用文本分类算法来寻找正面和负面评论。

因此,文本分类器可以分开正面和负面评论,首先需要一些培训数据。零售商需要在过去的评论中喂食,并将每个评论标记为正面或负面。该算法将使用此培训数据来创建决策边界,以将正面评论与负面评论分开。

散点图图绘制正面和负面评论,并在中间放置决策线。图表上指示了新的评论。

当用户提交新评论时,该算法将根据其属于决策边界的哪一侧进行分类。

我在这里描述的是监督学习因为它要求主管(人类用户)创建类并标记培训数据,以便算法可以独立地对新数据进行分类。

数据分类类型

二进制分类

二进制分类仅涉及将项目分为两个类。上面的示例是二进制分类,因为它将评论分为“正”和“负面”。二进制分类的另一个示例是垃圾邮件过滤,因为电子邮件要么归类为“垃圾邮件”或“不垃圾邮件”。

多级分类

这是一种允许两个以上类的分类算法。在标签过程中,每个数据样本仅分配给单个标签。例如,回收中心需要通过拍摄传送带上的废物的照片来对每项废物进行分类。多级分类模型不是将项目分类为可回收或不可回收的,允许更广泛的类,例如玻璃,塑料,纸或纸板。

多标签分类

这可以用于单个数据点可以拥有多个类的问题。例如,对动物图像进行分类的人可以标记带有多个标签的棕熊图片,例如“棕色动物”,“毛茸茸”和“熊”。

实际上,这些系统为每个数据做出了多个二元分类预测。

数据分类器的类型

上面的示例显示了几种方法,可以将不同类型的数据,文本和图像分类。其他分类器将用于不同目的的这些类型的数据或对其他类型的数据进行分类。

图像分类器

图像分类涉及分类图像的内容。除了已经给出的示例外,共同用途包括:

  • 面部识别
  • 手写识别
  • 帮助识别医疗图像异常

文本分类器

文本分类器分析自然语言以使用更长的文本片段,而不仅仅是挑选通用关键字。常见用途包括:

  • 主题分析以识别主题或文本中存在的主题。例如,为客户提供支持的聊天机器人将需要“对”客户所面临的问题进行“分类”,以便它可以提供适当的支持,例如将客户指向相关的网页。
  • 情感分析(检测语言是正面还是负面语气)。
  • 垃圾邮件检测。

声音分类器

声音分类器对类似或相同声音的组进行分类。语音识别是一个普遍的示例,其中训练系统以识别单个声音或识别诸如家庭自动化系统之类的命令。另一个例子可能是帮助研究科学家通过录制鸟鸣来识别出存在于某个地区的鸟类。BirdNet是一个您可以的项目在Birdnet Project网站上自己尝试一下

数据分类的局限性

值得注意的是,使用分类算法进行机器学习的主要局限性是预测的准确性取决于:

  • 适当标签的存在。如果数据被输入不适合其中一个类别的系统,则预测将始终不准确。
  • 培训数据都正确标记了。在某些情况下,这可能是一个主观的决定(例如,在情感分析的情况下)。培训数据越主观,任何新数据的可能性就越大。
  • 使用大量培训数据,代表模型必须对模型进行分类的全部输入。

本质上,创建许多高质量的培训数据需要大量时间和精力。

任务

选择一种类型的分类(图像,声音或文本),并在线查找用于这些类型算法的示例。

  • 最好解释一下示例
  • 您认为它可以识别哪些课程?

本文来自免费的在线免费

机器学习和人工智能简介

由...制作
FutureLearn-终身学习

我们的目的是改变接受教育的机会。

我们提供来自世界各地的大学和文化机构的各种课程。这些一次是一次交付的一步,并且可以在移动,平板电脑和台式机上访问,因此您可以适合自己的生活。

我们认为,学习应该是一种愉快的社交经验,因此我们的课程为您提供了与他人一起讨论的机会,帮助您做出新的发现并形成新的想法。
您可以通过订阅我们无限制的包裹来解锁新的机会,以无限制地访问数百种在线短课程。电竞博彩app有什么通过顶尖的大学和组织建立知识。dota2竞猜吧

了解有关FutureLearn如何转化接受教育的更多信息