跳过主导航

当前技术景观:数据和人工智能

在本文中,我们探索技术景观,看数据基础设施、数据工程科学数据可视化和数据。
©托伦斯大学

它可以是一个噩梦为机构和分析师在每一个技术。然而技术景观可以被分类和简化的基于应用分析和数据流的科学价值。

一个视图的技术景观被马克Turck(下面的图也可以下载)。

马特Turck的数据和人工智能2019年景观图

数据基础设施

数据基础设施包括技术基础设施用于存储和处理数据,使它容易进行进一步分析。传统上,公司已经使用关系数据库技术(例如,Microsoft SQL Server, Oracle数据库和IBM DB2)建立数据仓库的方法将数据存储在一个结构化的格式很容易查询。

现场大部分的数据都存储在大型服务器托管在组织内部。然而,这些技术的限制他们可以存储的数据量和体积,可以处理的数据,查询和传播。如果有数据或处理需求的增加,组织必须购买更多昂贵的服务器。在过去的十年中,大数据和云计算技术的增长改变了组织的主机和过程数据的方式。

大数据技术,比如Hadoop不仅SQL数据库(NoSQL),允许组织存储大量数据安全廉价的硬件上使用分布式计算。它还允许用户快速查询大量数据。Hortonworks Cloudera两大公司从事大数据技术。MongoDB是一种NoSQL的例子。

最近的增长在云技术商品化的计算、存储和传输的数据。云技术使组织以低成本存储大量的数据安全在全球数据中心分布。这些技术提供了灵活性和弹性。组织可以增加和减少数据存储空间和计算能力根据他们的需求和不再需要每次购买新的昂贵的硬件。组织也不需要担心维护系统,这是照顾的云技术供应商。微软Azure,亚马逊网络服务(AWS),谷歌的云平台(GCP)都是云计算的主要公司。

建立一个适当的数据基础设施是解决复杂问题的基础科学数据。因此,它已成为组织和政府的必要性。例如,政府专注于建立数据基础设施的一个重要的倡议:平方公里阵列概述(SKA)。平方公里列阵是下一代无线电望远镜,最终会有一个平方公里收集区,使其成为世界上最敏感的射电望远镜。

超级计算机与男性技术人员拿着笔记本电脑

工程数据

数据工程可以被定义为使用技术集成来自不同数据源的数据,建立一个数据管道从数据中提取信息。公司使用不同的系统运行的业务功能。例如,一个标准的公司系统,如企业资源规划(ERP)、客户关系管理(CRM)工具,竞选工具,网络分析工具和聊天机器人。

这些系统在不同的格式存储数据的数据库。例如,ERP作为一个关系数据库存储数据。相反,聊天机器人可以以JSON格式存储数据(JSON)是什么。进行分析和理解这些数据,公司需要将数据从所有这些系统集成在同一格式在一个共同的平台上。企业服务总线(Enterprise service bus, ESB)使数据从各种平台集成。提取、转换和加载(ETL)工具使开发人员能够从各种来源中提取数据,把它们基于业务规则和加载数据在一个共同的平台上进行分析。这样做是在市场上使用各种ETL工具。标准查询语言(SQL)是传统ETL工具的基础,帮助设置通信(LH2)与数据仓库中的数据。

SQL查询用于从数据仓库中提取数据,操纵这些数据根据分析师的要求和负载数据的格式,很容易解释。然而,SQL查询有局限性;例如,他们只能从关系数据库中读取数据,将数据存储在一个结构化的格式(即。行和列)。

在过去的十年里,数据已成为多元化的、长篇大论的。大数据,NoSQL和云技术使组织能够存储和处理不同类型的半结构化和非结构化数据,如自由文本、视频和音频。大数据的发展看到新技术的出现,比如MapReduce,猪,蜂巢和Apache火花。MapReduce使用两个任务:地图任务和减少任务。这些任务的结合使分布式并行处理数据的排序的一大块数据和打破成更小的任务。同时处理这些任务并迅速组合得到最终的结果。相反,可以使用Apache引发过程实时流媒体数据,如机器和安全日志,实时浏览网页数据,住信用卡交易。

云供应商也开发工程工具来处理大量数据和各种各样的数据。亚马逊EMR,谷歌BigQuery和数据流,而Azure DataFactory。

近年来,也有人关注的上升与工具,如Alteryx ETL工作流自动化。

图表显示数据工程之间的联系数据创造和捕捉和数据分析师和科学家

数据可视化

正如上面所讨论的,数据可视化工具支持描述性和诊断分析。这些工具帮助表示大量数据的形式报告和仪表板包含图表,图和表,这些都是业务用户容易理解。这些工具还允许用户分析预处理数据跨各种维度使用过滤器。

Microsoft Excel已经被企业广泛应用在过去20年发展报告数量有限的数据。IBM Cognos和SAP业务对象先进一些早期发展在这一领域。在过去的十年中,已经有一个指数的增长数据可视化工具。画面彻底改变了数据可视化领域的大量数据通过使现代的可视化效果。Qlik和微软权力BI已在过去的五年里流行起来。这些商业智能和数据可视化工具不仅是著名的分析师也在商界,因为他们可以使用的。他们还提供自助服务功能对分析师和技术精明的业务用户。

开放源码工具,比如HTML / D3, Javascripts和R闪亮的,是受开发商欢迎。他们提供图书馆的数据可视化,帮助可视化开发自定义为特定的业务需求。

两只手覆盖图的图表

数据科学

数据科学预测和说明性的分析工具支持。它们使运行数据挖掘和统计功能大量数据来识别数据模式。这些工具包括:

  • SAS:发达国家在1970年代,SAS是最早的工具所使用的组织和学者;
  • R和Python:这些开源工具变得非常流行在过去十年中分析和数据科学社区。这样的开源工具有一个大的社区用户提供在线出版库的统计功能;
  • 云供应商:这些供应商提供有用的工具在他们的平台上开发和运营性数据科学的算法。例如,AWS Sagemaker,谷歌Datalabs TensorFlow;
  • H2O.ai;和
  • Knime。

女人看起来通过与符号的透明屏幕

©托伦斯大学
本文从免费在线

介绍数字转换:理解和管理数字转换在工作场所

FutureLearn——终身学习

我们的目的是将受教育的机会。

我们提供多样化的选择来自著名大学的课程和来自世界各地的文化机构。这些都是一步一个脚印,并可以在手机、平板电脑和桌面,所以你可以学习你的生活。

我们认为学习应该是愉快的,社会经验,所以我们的课程提供了机会与他人讨论你的学习,帮助你作出新的发现和形成新的想法。
你可以解锁新的机遇与无限制地成百上千的在线短期课程一年通过订阅我们的无限的包。电竞博彩app有什么与顶尖大学和组织建立你的知识。dota2竞猜吧

了解更多关于如何FutureLearn正在改变的受教育机会