(一)背景:随着数字化、网络化、智能化等相关信息技术的应用发展,数据产生及获取日益方便,数据规模已超出传统数据库存储及分析处理能力范围。
(二)概念:非传统的数据处理工具的数据集。
(三)特征:海量的数据规模、快速的数据流转、多样的数据类型和价值密度低。
(四)种类和来源:结构化、半结构化和非结构化数据。
- 结构化数据:指关系模型数据,以关系数据库表形式管理的数据
- 非结构化数据:指数据结构不规则或不完整,没有预定义数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等
- 半结构化数据:指非关系模型的、有基本固定结构模式的数据,如日志文件、XML文档、JSON文档、E-mail等。
(五)影响:影响国家治理、城市发展、企业生产、商业变革以及个人生活
(六)技术:包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统。