Spark机器学习(第2版)
[导读]
Apache Spark是分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有的并行计算框架,鲜有能在兼顾速度、可扩展性、内存处理和容错性的同时,还提供灵活、表达
Apache Spark是分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有的并行计算框架,鲜有能在兼顾速度、可扩展性、内存处理和容错性的同时,还提供灵活、表达力丰富的API的。Apache Spark就是这样一个难得的框架。 本书简要介绍了Spark基础知识,重在通过详细的例子和现实应用来讲解常见机器学习模型,并涉及大规模文本数据的处理、Spark Streaming下的在线机器学习和模型评估方法,以及使用Spark ML Pipeline API创建和调试机器学习流程等。第2版经过全面修订,新增有关机器学习数学基础以及Spark ML Pipeline API的章节,内容更加系统、全面、与时俱进,适合所有欲借助Spark来实现常见机器学习应用的开发者。 • Spark以及机器学习基础知识介绍。 • 获取公开的机器学习数据集,使用Spark对数据进行载入、处理、清理和转换。 • 借助Spark机器学习库,利用协同过滤、分类、回归、聚类和降维等常见的机器学习模型来编写程序。 • 了解大规模文本数据的处理方法,包括特征提取和将文本数据作为机器学习模型的输入。 • 探索在线学习方法,利用Spark Streaming进行在线学习和模型评估。 • 使用Spark ML Pipeline API创建和调试机器学习流程。