定义:业界尚未有统一定义。
国内普遍理解:大数据是具有数量巨大、来源多样、生成极快且多变等特征且难以使用传统数据体系结构有效处理的包含大量数据集的数据。
大数据的定义,不仅仅是数据本身,也包括了大数据技术和应用。
组成 | 说明 | |
1 | 数据 | 大数据是指超出典型数据管理系统能力的大规模海量数据集,这些数据之间存在着直接或间接联系 |
2 | 技术 | 大数据技术是使得大数据中蕴含的价值得以挖掘和展现的一系列技术与方法,包括数据采集、预处理、存储、分析挖掘、可视化等相关技术。 通过技术从数据中挖掘出模式与知识,实现数据增值,进而实现数据变现。 |
3 | 应用 | 大数据应用是对特定大数据集、集成应用大数据系列技术与方法,获得有价值信息的过程。 |
大数据5V特征
特征 | 名词 | 说明 | |
1 | Variety | 多样性 | 结构化数据:如交易明细、操作日志等 非结构化数据:如文本、音频、视频、文件记录等 半结构化数据:如Email、word、ppt文档等 |
2 | Velocity | 速度 | (1)数据增长速度快 (2)数据访问、处理、交付的速度快,通常要求具有时效性。 |
3 | Volume | 数量 | 数据规模非常大。各种业务系统产生的数据量急剧增长。 |
4 | Value | 价值 | 从海量低价值密度的数据中挖掘出具有高价值的数据。 |
5 | Veracity | 真实性 | (1)数据需要采取措施确保其真实性、客观性(发展需求) (2)真实还原和预测事物的本来面目(未来趋势) |