Spark MLlib概述
Spark的MLlib,其目标是让机器学习实践更加简单且具可扩展性。提供的特性如下:
- 机器学习算法:分类,回归,聚类和协同过滤
- 特征提取:特征提取、转化,将维和选择
- 工作流(Pipelines):构建,评估和调整机器学习工作流的工具
- 数据持久化:持久化/加载模型,算法和工作流
- 工具集:线性代数,统计学,数据操作的工具支持
MLlib的主要API
值得注意的是,进入了Spark2.0版本之后,spark.mllib中基于RDD的API( RDD-based APIs)也进入了维护模式,取而代之的是spark.ml中基于DataFrame的API(DataFrame-based API)。