跳到0分25秒几乎可以说每个历史时期都有当时被认为很大的数据来源。书籍,文档,图纸,地图和绘画是此类数据的示例。然而,直到今天,我们才必须处理真正的大数据。幸运的是,越来越多的数据是数字化的,但以不同的格式表示。大规模的科学仪器,社交网络平台,云解决方案,数字文化遗产只是几个示例,这些例子是大量文本,照片,视频和音频材料的来源,这些材料被认为是大数据。
跳到0分钟55秒但是与数据相关的问题并没有太大变化:如何存储和维护它,如何理解以及如何从数据中学习,以改善响应。这些问题必然涉及使用高性能计算机。需要考虑分布式存储和并行计算,以避免数据丢失并使计算有效。
跳到1分16秒加入我们,并使用R和Rhadoop来应对大数据。