基于Spark的机器学习实践 (二) - 初识MLlib

javaedge 2019-04-09

云栖社区 深度学习 分布式 算法 线程 Apache spark DataFrame API MLlib 索引 存储

1 MLlib概述

1.1 MLlib 介绍

◆ 是基于Spark core的机器学习库,具有Spark的优点

◆ 底层计算经过优化,比常规编码效率往往要高

◆ 实现了多种机器学习算法,可以进行模型训练及预测

1.2 Spark MLlib实现的算法

◆ 逻辑回归 朴素贝叶斯 线性回归 SVM 决策树 LDA 矩阵分解

1.3 Spark MLlib官方介绍

1.3.1 搜索官方文档



1.3.2 阅读文档 - 机器学习库(MLlib)指南

简介

MLlib是Spark的机器学习(ML)库。 其目标是使实用的机器学习可扩展且简单。 从较高的层面来说,它提供了以下工具:

  • ML算法:常见的学习算法,如分类,回归,聚类和协同过滤
  • 特征化:特征提取,转换,降维和选择
  • 管道:用于构建,评估和调整ML管道的工具
  • 持久性:保存和加载算法,模型和管道
  • 实用程序:线性代数,统计,数
登录 后评论
下一篇
我是小助手
29029人浏览
2019-07-31
相关推荐
Spark2.1.0之模块设计
854人浏览
2018-06-05 10:00:02
Reading List 2015-03
1981人浏览
2016-04-08 13:15:13
Spark MLlib
594人浏览
2018-01-17 11:22:06
0
1
0
973