使用Spark SQL进行流式机器学习计算(上)

EMR 2019-06-27

云栖社区 编程语言 数据存储与数据库 系统研发与运维 网络与数据通信 linux 大数据 算法 SQL 测试 spark aliyun MLlib string UDF

作者:余根茂,阿里巴巴计算平台事业部EMR团队的技术专家,参与了Hadoop,Spark,Kafka等开源项目的研发工作。目前主要专注于EMR流式计算产品的研发工作。

今天来和大家聊一下如何使用Spark SQL进行流式数据的机器学习处理。本文主要分为以下几个章节:

  • 什么是流式机器学习
  • 机器学习模型获取途径
  • 系统演示

1. 什么是流式机器学习

通常,当我们听到有人提到实时数据机器学习时,其实他们是讨论:

  • 他们希望有一个模型,这个模型利用最近历史信息来进行预测分析。举一个天气的例子,如果最近几天都是晴天,那么未来几天极小概率会出现雨雪和低温天气
  • 这个模型还需要是可更新的。当数据流经系统时,模型是可以随之进化升级。举个例子,随着业务规模的扩大,我们希望零售销售模型仍然保持准确。

第一个例子我们可以将它归为时序预测。第二个例子中,模型需要更新或者重新训练

登录 后评论
下一篇
我是小助手
29035人浏览
2019-07-31
相关推荐
大数据开发必备技能
1252人浏览
2019-04-19 15:50:14
Flink 剖析
606人浏览
2016-06-13 15:23:00
Spark Core介绍以及架构
979人浏览
2018-01-17 08:33:11
Flink 剖析
911人浏览
2017-11-14 15:31:00
让Spark成为你的瑞士军刀
740人浏览
2016-09-11 16:56:55
Spark2.1.0之模块设计
854人浏览
2018-06-05 10:00:02
通过Spark SQL实时归档SLS数据
1230人浏览
2019-06-17 11:28:02
通过Spark SQL实时归档SLS数据
813人浏览
2019-06-17 15:37:00
0
1
0
1169