使用Spark SQL进行流式机器学习计算(上)

鱼跟猫 2019-06-26

大数据 算法 分布式系统与计算 SQL 测试 spark 流式计算 MLlib string sparkstreaming

今天来和大家聊一下如何使用Spark SQL进行流式数据的机器学习处理。本文主要分为以下几个章节:

  • 什么是流式机器学习
  • 机器学习模型获取途径
  • 系统演示

1. 什么是流式机器学习

通常,当我们听到有人提到实时数据机器学习时,其实他们是讨论:

  • 他们希望有一个模型,这个模型利用最近历史信息来进行预测分析。举一个天气的例子,如果最近几天都是晴天,那么未来几天极小概率会出现雨雪和低温天气
  • 这个模型还需要是可更新的。当数据流经系统时,模型是可以随之进化升级。举个例子,随着业务规模的扩大,我们希望零售销售模型仍然保持准确。

第一个例子我们可以将它归为时序预测。第二个例子中,模型需要更新或者重新训练,这是一个non-stationarity问题。时序预测和non-stationarity数据分布是两类不同的问题。本文主要关注第二类问题,对于这类问题,一般的解决方

登录 后评论
下一篇
我是小助手
28798人浏览
2019-07-31
相关推荐
大数据开发必备技能
1250人浏览
2019-04-19 15:50:14
通过Spark SQL实时归档SLS数据
1224人浏览
2019-06-17 11:28:02
Flink 剖析
606人浏览
2016-06-13 15:23:00
Spark Core介绍以及架构
976人浏览
2018-01-17 08:33:11
Flink 剖析
911人浏览
2017-11-14 15:31:00
让Spark成为你的瑞士军刀
739人浏览
2016-09-11 16:56:55
Spark2.1.0之模块设计
854人浏览
2018-06-05 10:00:02
通过Spark SQL实时归档SLS数据
813人浏览
2019-06-17 15:37:00
0
0
0
835