备案控制台

开发者社区

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

2019-07-29 1097

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在数据上云的大背景下，存储计算分离逐渐成为了大数据处理的一大趋势，计算引擎需要通过网络读写远端的数据，很多情况下 IO 成为了整个计算任务的瓶颈，因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法，并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。

直播间直达链接：（回看链接）

时间

7月31日19:00

主讲人：

辰山，阿里巴巴计算平台事业部 EMR 高级开发工程师，目前从事大数据存储方面的开发和优化工作

简介：

在数据上云的大背景下，存储计算分离逐渐成为了大数据处理的一大趋势，计算引擎需要通过网络读写远端的数据，很多情况下 IO 成为了整个计算任务的瓶颈，因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法，并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。
_Apache_Spark____spark_

文章标签：

开源大数据平台 E-MapReduce

缓存

关键词：

钉钉数据

Apache数据

钉钉缓存

apache spark数据

Apache存储

相关实践学习

数据湖构建DLF快速入门

本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析，介绍数据湖构建DLF产品的数据发现和数据探索功能。

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

阿里云E-MapReduce团队

目录

相关文章

建模sister

|

2月前

|

SQL 分布式计算 API

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

建模sister

50 2 2

建模sister

|

1月前

|

SQL 分布式计算 Java

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

建模sister

75 1 1

sunrr

|

1月前

|

存储分布式计算 API

adb spark的lakehouse api访问内表数据，还支持算子下推吗

【2月更文挑战第21天】adb spark的lakehouse api访问内表数据，还支持算子下推吗

sunrr

107 2 2

叫个什么名字

|

3月前

|

JavaScript 数据可视化前端开发

钉钉宜搭通过js触发子表单数据联动

钉钉宜搭通过js触发子表单数据联动

叫个什么名字

144 5 5

晓之以理的喵~~

|

3月前

|

分布式计算分布式数据库 API

Spark与HBase的集成与数据访问

Spark与HBase的集成与数据访问

晓之以理的喵~~

70 0 0

晓之以理的喵~~

|

3月前

|

JSON 分布式计算关系型数据库

Spark中使用DataFrame进行数据转换和操作

Spark中使用DataFrame进行数据转换和操作

晓之以理的喵~~

99 0 0

晓之以理的喵~~

|

3月前

|

存储分布式计算调度

Spark任务调度与数据本地性

Spark任务调度与数据本地性

晓之以理的喵~~

31 0 0

晓之以理的喵~~

|

3月前

|

分布式计算数据处理 Apache

Spark RDD的行动操作与延迟计算

Spark RDD的行动操作与延迟计算

晓之以理的喵~~

36 0 0

Spark RDD的行动操作与延迟计算

极客李华

|

3月前

|

分布式计算算法数据挖掘

Spark中的图计算库GraphX是什么？请解释其作用和常用操作。

Spark中的图计算库GraphX是什么？请解释其作用和常用操作。

极客李华

36 1 1

诸葛子房

|

4月前

|

分布式计算 Java Spark

Spark Driver和Executor数据传递使用问题

Spark Driver和Executor数据传递使用问题

诸葛子房

30 0 0

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

现代流式计算的基石：Google DataFlow

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS解析 - 云上大数据高性能数据湖存储方案

HIVE MapJoin异常问题处理总结

5W1H(六何分析法)全景洞察大数据

玩转阿里云EMR三部曲-中级篇集成自有服务

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

Apache Spark 3.0 将内置支持 GPU 调度

基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成（RAG）系统

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

EMR Notebook 开启公测，提供交互式数据分析平台

Apache Hadoop入门指南：搭建分布式大数据处理平台

阿里云向量检索 Milvus 版开启公测，助力企业打造高质量 AI 服务

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

实用工具推荐：适用于 TypeScript 网络爬取的常用爬虫框架与库

1688API接口推荐：1688按图搜索拍立淘数据接口

【玩转幻兽帕鲁部署】阿里云幻兽帕鲁服务器搭建1分钟搞定：从入门到精通

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

钉钉小程序——为工作方式插上翅膀

钉钉客户端自动化的应用

使命必达 —— 钉钉企业级消息服务的机遇与挑战

相关实验场景

更多

基于函数计算一键部署简易论坛

通过FastMR自动拉起大数据集群并运行TPCDS任务

使用阿里云Elasticsearch快速搭建可观测系统

星轨-钉钉APP分发实训

钉钉群中如何接收IoT温控器数据告警通知

数据上云实验：基于星轨工具的dataphin批量数据上云

推荐镜像

更多

apache

packman

CPAN

下一篇

阿里云oss简介和使用流程