提要文摘: | 本书共9章。第1章为初识大数据, 介绍大数据定义、大数据结构类型、大数据发展和大数据应用及挑战。第2章为大数据采集, 系统地介绍大数据来源、采集设备、采集方法、预处理技术、云存储、数据中心和数据仓库。第3章为大数据预处理, 系统地介绍数据预处理的概念和方法, 包括数据清洗、数据集成、数据归约等。第4章为大数据存储, 主要介绍分布式文件系统HDFS、分布式数据库HBase、非关系型数据库NoSQL、云数据库、Hadoop等。第5章为大数据计算, 包括MapReduce、Storm、Pregel、云计算等。第6章为大数据挖掘, 介绍大数据挖掘算法、架构和应用, 包括聚类分析, 分类分析, 回归分析、关联分析、异常检测等。第7章为知识图谱, 介绍语言知识图谱、语言认知知识图谱、常识知识图谱、领域知识图谱以及百科知识图谱, 并列举常见知识图谱的特性。在构建和应用知识图谱的过程中, 主要包括知识体系构建、知识获取、知识融合、知识存储以及知识推理等重要的环节。第8章为大数据安全。介绍概念与保护的关键技术, 阐述大数据生命周期各主要阶段所面临的安全风险,提出了大数据安全与隐私保护技术框架, 主要包括安全存储与访问控制技术、安全检索技术、安全处理技术、隐私保护、区块链技术。并且最后给出了几个大数据安全与隐私的实际案例。第9章为大数据应用案例, 介绍社交大数据、交通大数据、医疗大数据、金融大数据、教育大数据。 |