[图书] - 肖政宏 李俊杰 谢志明 - 清华大学出版社 - 2020
本书共分12章,分为基础篇、核心篇和应用篇。基础篇包括大数据概论、大数据集群系统基础、Hadoop分布式系统、HDFS分布式文件系统、MapReduce分布式计算、HBase分布式数据库应用; 核心篇包括YARN资源分配、Spark集群计算、Spark机器学习、Hive数据仓库应用、ZooKeeper协调服务; 应用篇包括医药大数据案例分析。 本书可以作为高等院校大数据技术相关课程本科生教材,也可以作为大数据技术基础相关课程研究生教材,还可以作为从事大数据相关工作的工程技术人员的参考用书。