大数据(Big Data)是一种具有海量的数据规模,在获取、存储、管理和分析等方面都远远超过传统数据库处理范围的数据集合。大数据渗透在每个行业和业务领域,为人类提供辅助服务,以及为智能体(Agent)提供决策服务。
大数据能够有访问大量数据的能力,在重复处理和数据模式独特时,也就是无法使用传统技术、处理算法等方案处理,大数据能够从这些数据中获得关键的见解,人为干预少,数据分析更加简单无误。在当下,基础设施结合新的数据处理框架和平台(例如Hadoop和NoSQL),能够显著降低成本,而且具有很高的扩展性。大数据不仅包括企业应用系统的数据分析,还包括行业产业深度融合,下面是一些例子:
(1) 制造业:利用工业大数据提升制造业的水平,在更短时间内制造出高质量产品,分析工艺流程、改进生产工艺、优化生产耗能等。
(2) 金融行业:利用大数据来分析社交情绪、分析信贷风险、分析高频交易等。
(3) 能源行业:利用大数据分析用户用电模式,合理设计电力需求响应等。
(4) 医疗行业:大数据帮助实现智慧医疗、健康管理,提供更好的医疗援助。
工业界使用三大特征作为大数据的分类标准。第一个维度是体量大,也就是数据的总量,存储单位从过去的GB到TB,直到PB、EB。随着技术的发展,数据开始爆发式增长。社交网络、智能终端等都成为数据的来源,使用智能算法分析数据,数据处理平台等统计、分析、处理如此大规模的数据。第二个维度是速度快,大数据的交换和传播是通过互联网和云计算实现的,远比传统媒介快捷。大数据对处理数据的响应速度很严格,几乎做到实时分析,从各种类型的数据中快速获得高价值信息。第三个维度是多样性,广泛的数据来源决定了大数据形式的多样。大数据时代,数据结构多种多样,包括结构化数据,如财务、医疗系统数据,这类的数据因果关系强;非结构化数据,视频、图片等,这类的数据没有因果关系;半结构化数据,邮件、网页等,这类的数据因果关系弱。
伴随着互联网的发展,数据积累量与日俱增,越来越多的应用场景产生,传统的数据处理无法满足日益增长的需求。基于大数据构建数据仓库首先在互联网行业得到尝试。基于大数据的数据库建设要求快速响应需求,同时需求灵活多变,对实时性有着较高的需求,除了传统应用外,基于大数据的数据仓库也要响应数据分析、机器学习、用户画像等场景。因此下一代的数据仓库可以说是异构平台下大数据和传统数据集成的架构,这是将被大型企业所接受的常态。
接下来介绍大数据时代,支撑起大数据体系的数据仓库设计,以及数据仓库主要应用场景OLAP和数据库的主要应用场景OLTP。