跳过主要导航

数据挖掘简介

Discover what data mining means as we take a look at the uses, benefits, techniques, processes and discuss how you can start your data mining journey.

数据挖掘

数据挖掘已经成为希望在信息经济中取得成功的企业的宝贵工具。在本文中,我们将研究哪些数据挖掘,讨论数据挖掘的应用并涵盖一些数据挖掘技术。我们还将在数据挖掘过程中逐步引导您。

什么是数据挖掘?

数据挖掘是从大数据集中提取模式和其他有用信息的过程。有时被称为数据或KDD中的知识发现。谢谢the rise of big data以及数据仓库技术的进步,近几十年来,数据挖掘技术的使用已不断发展,将原始数据变成了公司可以使用的宝贵知识。

尽管技术已经进步来处理大量数据集,但高管仍然面临自动化和可扩展性挑战。

数据挖掘通过巧妙的数据分析改善了公司决策。数据挖掘技术可以广泛分为两类:

These tactics are used to organise and filter data – providing the most important information, from fraud detection to user behaviours, bottlenecks, and even security breaches.

Getting into the realm of data mining has never been easier, and collecting meaningful insights has never been faster – especially when combining data mining with数据分析和Apache Spark等可视化工具。人工智能的进步正在加速跨行业的数据挖掘技术。

数据挖掘的用途是什么?

以下是数据挖掘的一些应用:

  • 实现公司目标
  • 回答业务或研究问题
  • 为解决问题做出贡献
  • To aid in the accurate prediction of outcomes
  • To analyse and predict trends and anomalies
  • 告知预测
  • 识别流程中的差距和错误,例如供应链瓶颈或不正确的数据输入

数据挖掘的好处是什么?

数据挖掘的好处很多且多样化。我们在数据驱动的社会中生活和运营,因此获得了很多见解尽可能至关重要。在这个复杂的信息时代,数据挖掘为我们提供了解决挑战和问题的工具。以下是数据挖掘的一些好处:

  • 它协助企业收集可靠的数据
  • 它协助组织做出明智的决策
  • 与其他数据应用程序相比,这是一个时间和成本效益的解决方案
  • 我t enables organisations to make cost-effective production and operational changes
  • 我t aids in the detection of credit issues and fraud
  • 它使数据科学家能够快速评估大量数据。然后,数据科学家可以使用数据发现欺诈,创建风险模型并提高产品安全性
  • 它使数据科学家能够创建行为和趋势预测并发现隐藏的模式。

Examples of data mining

以下是数据挖掘过程的常见应用:

Retail

零售商分析购买模式以建立产品类别,并确定应将其放置在过道和货架上。数据挖掘还可以用于确定哪些交易在客户中最受欢迎或在结帐行中提高销售。

营销

数据挖掘被用于筛选越来越多的数据库并改善市场细分。可以通过分析客户年龄,性别,口味等标准之间的关联来预测消费者行为,以设计量身定制的忠诚度计划。

我n marketing, data mining predicts which consumers are most likely to unsubscribe from a product, what they typically search for online, and what should be included in a mailing list to increase response rates. It can play a valuable role in any数字营销策略

媒体

Certain networks use real-time data mining to gauge their online television (IPTV) and radio viewership. These systems capture and analyse anonymous data from channel views, broadcasts, and programmes on the fly.

数据挖掘enables networks to provide personalised recommendations to radio and television listeners and viewers, as well as providing real-time data on customer interests and behaviour. Networks also acquire vital information for their marketers, who can use this information to better target their future customers.

药品

数据挖掘允许更精确的诊断。当所有患者的信息可用时,例如医疗记录,身体检查和治疗模式,可以提供更有效的疗法。它还可以通过检测风险,预测人口特定部分的疾病以及预测医院的入院时间来更有效,有效和具有成本效益的卫生资源管理。

医学中的数据挖掘还具有检测异常的好处,并通过更好地了解他们的需求来与患者建立更好的关系。

银行业

银行使用数据挖掘来更好地理解市场风险。它通常用于分析交易,购买趋势和客户财务数据。数据挖掘还使银行能够更好地了解我们的在线品味和行为,以提高其营销计划的回报,分析金融产品的效率并确保法规合规性。

数据挖掘过程

The CRISP-DM (Cross-Industry Standard Process for Data Mining) is the most widely used数据挖掘框架。CRISP-DM程序分为六个阶段:业务理解,数据理解,数据准备,建模,评估和部署。

这些阶段按顺序解决,因为过程是迭代的,这意味着在过程中开发的任何模型和理解都被设计为通过在整个过程中收集的后续知识来增强。

1.商业理解

Crisp-DM的第一阶段是获得对业务的透彻理解,并确定组织的特定需求或目标。了解业务意味着确定公司希望解决的问题 - 例如,公司可能希望提高各种营销工作的响应率。

One of the first responsibilities in the Business Understanding phase is to dig down to a more specific definition of the problem. The query could be narrowed to determine which client subsets are most likely to make repeat purchases, or how much they are willing to spend.

2.数据理解

遵循组织的目标的定义,数据科学家开始发现当前数据中存在的内容。公司可能会有有关客户(或潜在客户)名称,地址和其他联系信息的信息。他们也可能有以前购买的记录。

There may be information about client interests or family makeup, depending on the source of the data. All of this data may be very useful in future campaigns.

3.数据准备

一旦我们坚定地了解了哪些数据以及哪些数据不存在,则以使其有价值的方式准备和处理数据。数据准备程序很长,约占项目时间的80%。

The creation of a data dictionary is the first step in the data preparation process. The data is separated into chunks, then the elements of metadata are described in a way that makes it human-readable to ensure that it is understandable, especially to someone who isn’t a data scientist.

数据分析是数据准备过程的下一部分,涉及查找和开发可能从现有输入计算的新数据点。可以使用有用的配置文件来创建商业分析,随后可以将其用于预测性建模并开发目标良好的营销活动。

4.建模

然后使用在数据准备过程中收集的信息来开发各种行为模型。例如,在营销活动的情况下,建模涉及理想客户的“培训数据”的创建。

These consumer profiles are then used as models for scaling campaign success through modelling. Modelling often involves the use of人工智能

5.评估

在处理信息时提供明确的视觉报告至关重要,以在认知水平上真正理解结果。对于不仅理解,而且认识趋势,图形演示技术变得越来越重要。

就其本身而言,数据流似乎并不重要,但是当在图上显示时,趋势可以迅速识别。有多种有用的工具可以快速生成视觉报告,例如条形图和散点图。

6.部署

CRISP-DM is iterative by definition. Each stage not only informs the next one but also the one before it. New information is applied to previous phases as it is learned, and the models are informed and re-informed by each step of the process.

New data points emerge when the data is prepared; these improve when more models are developed and assessed. The results of “final” deployments can be transformed into new models for testing and assessment in the future.

不同的数据挖掘技术

在六个CRISP-DM阶段进行时,数据科学家依靠各种技术。这些包括:

Tracking patterns

学习在数据集中发现模式是最基本的数据挖掘技术之一。这通常是对数据或特定变量随时间的潮起和流动中周期性异常的识别。

例如,您可能会发现,假期之前,特定产品的销售立即增加,或者天气温暖会使更多访问者访问您的网站。

预测

预测是最重要的数据挖掘方法之一,因为它用于预测您将来会看到的数据类型。在许多情况下,简单地注意到并理解以前的模式足以提供对将来会发生的事情的合理预测。例如,您可能会查看消费者的信用记录和以前的交易,以查看未来的信用风险。

协会

关联确定不同变量之间的联系。在这种情况下,您将寻找与彼此相关的某些事件;例如,您可能会发现,当您的消费者购买一件事时,他们经常购买另一件相关物品。这通常用于在线商店中填充“人也购买”部分。

分类

分类是一种先进的数据挖掘技术,要求您将各种属性组合在一起分为可识别的组,然后您可以使用这些属性来得出其他结论或执行特定的工作。

You might be able to designate individual consumers as “low,” “medium,” or “high” credit risks based on data about their financial backgrounds and buying history. These classifications might then be used to learn even more about those clients.

聚类

聚类is similar to classification, in that it involves putting together groups of data based on their commonalities. For example, you may group different demographics of your audience into distinct categories based on their discretionary income or how frequently they purchase at your store.

Outlier detection

我n many circumstances, simply finding the overall pattern will not provide you with a complete picture of your data. You must also be able to spot anomalies, sometimes known as outliers, in your data.

我f, for example, your customers are nearly all male but there’s a significant rise in female customers during one week in July, you’ll want to research the spike and figure out what caused it so that you can either reproduce it or better understand your audience.

回归

回归是一种规划和建模的类型,用于确定特定变量的概率,鉴于存在其他变量。例如,您可以使用它根据其他标准(例如可用性,消费者需求和竞争)来预测价格。回归的主要目标是帮助您弄清数据集中的几个变量之间的关系。

如何开始数据挖掘

最好通过做数据挖掘和数据科学,因此可以尽快开始研究数据。但是,您还需要研究该理论,以开发稳定的统计和机器学习基础,了解您正在做的事情,并从数据的噪音中获得有价值的见解。

  • 学习R和Python。这些是数据挖掘的最受欢迎的语言。
  • Take a course。一门课程将在此处的总结中更深入。FutureLearn提供有关数据挖掘的课程,例如使用WEKA的数据挖掘
  • 学习数据挖掘软件套件例如刀,SAS和MATLAB。
  • 参加数据挖掘比赛,例如Bitgrit和Kaggle。
  • 与其他数据科学家一起通过团体和社交网络。浏览Reddit data mining thread,参加会议,例如IDCM

最后的想法

我们所知道的世界根本就不存在,而没有数据挖掘 - 这对世界经济至关重要,从公司提供的产品从广播中播放的歌曲提供的所有产品都至关重要。今天学习这项重要技能FutureLearn提供的数据科学课程

FutureLearn-终身学习

我们的目的是改变接受教育的机会。

我们提供来自世界各地的大学和文化机构的各种课程。这些一次是一次交付的一步,并且可以在移动,平板电脑和台式机上访问,因此您可以适合自己的生活。

我们认为,学习应该是一种愉快的社交经验,因此我们的课程为您提供了与他人一起讨论的机会,帮助您做出新的发现并形成新的想法。
您可以通过订阅我们无限制的包裹来解锁新的机会,以无限制地访问数百种在线短课程。电竞博彩app有什么通过顶尖的大学和组织建立知识。dota2竞猜吧

了解有关FutureLearn如何转化接受教育的更多信息

关于FutureLearn的相关故事