备案控制台

开发者社区

开发者社区大数据文章正文

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

2020-05-26 1027

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

对象存储 OSS，恶意文件检测 1000次 1年

对象存储 OSS，内容安全 1000次 1年

简介： 通过使用JindoFs 的Cache功能，加速作业计算，减小OSS带宽需求，优化作业架构。

通过使用cache缓存机制，减少数据分析处理过程中直读OSS的次数，不仅能够提高性能，更能减少与OSS的交互流量，减少数据分析成本与时间开销。

前提条件

已注册阿里云账号，详情请参见注册云账号。
已开通E-MapReduce服务和OSS服务。
已完成云账号的授权，详情请参见角色授权。
已创建Haoop集群，且带有Hive组件，且配置OSS数据源。

步骤一：设置JindoFs Cache

打开smartdata服务中client配置，
把jfs.cache.data-cache.enable为1，表示打开JindoFs的cache功能打开

步骤二：进行作业测试

数据分析作业具体可看其他OSS数据湖实践文档功能
OSS Spark 实践文档
 OSS Flink 实践文档
 OSS Hive 实践文档

文章标签：

对象存储

数据挖掘

流计算

分布式计算

SQL

对象存储

Spark

HIVE

缓存

关键词：

数据湖实践

对象存储实践

数据湖oss

对象存储数据湖

对象存储性能

相关实践学习

借助OSS搭建在线教育视频课程分享网站

本教程介绍如何基于云服务器ECS和对象存储OSS，搭建一个在线教育视频课程分享网站。

huangchuang

目录

相关文章

aliyun4381607004

|

8月前

|

存储 SQL 分布式计算

阿里云全托管flink-vvp平台hudi connector实践（基于emr集群oss-hdfs存储）

阿里云全托管flink-vvp平台hudi sink connector实践，本文数据湖hudi基于阿里云E-MapReduce产品，以云对象存储oss-hdfs作为存储

aliyun4381607004

445 0 0

长梦

|

15天前

|

存储人工智能运维

数据湖建设实践：使用AWS S3与LakeFormation构建灵活数据存储

【4月更文挑战第8天】本文分享了使用AWS S3和LakeFormation构建数据湖的经验。选择S3作为数据湖存储，因其无限容量、高可用性和持久性，以及与多种系统的兼容性。LakeFormation则负责数据治理和权限管理，包括元数据管理、简化数据接入、细粒度权限控制和审计。通过这种方式，团队实现了敏捷开发、成本效益和数据安全。未来，数据湖将融合更多智能化元素，如AI和ML，以提升效能和体验。此实践为数据驱动决策和企业数字化转型提供了有力支持。

长梦

20 2 2

xleesf

|

1月前

|

消息中间件监控 Kafka

Yotpo构建零延迟数据湖实践

Yotpo构建零延迟数据湖实践

xleesf

32 0 0

xleesf

|

1月前

|

消息中间件存储数据采集

在线房产公司Zillow数据迁移至数据湖实践

在线房产公司Zillow数据迁移至数据湖实践

xleesf

41 0 0

xleesf

|

1月前

|

存储分布式计算关系型数据库

初创电商公司Drop的数据湖实践

初创电商公司Drop的数据湖实践

xleesf

37 0 0

xleesf

|

1月前

|

存储 SQL 分布式计算

Apache Hudi在Linkflow构建实时数据湖的生产实践

Apache Hudi在Linkflow构建实时数据湖的生产实践

xleesf

40 0 0

xleesf

|

1月前

|

存储分布式计算分布式数据库

字节跳动基于Apache Hudi构建EB级数据湖实践

字节跳动基于Apache Hudi构建EB级数据湖实践

xleesf

27 2 2

xleesf

|

1月前

|

存储 SQL 数据管理

字节跳动基于Apache Hudi构建实时数据湖平台实践

字节跳动基于Apache Hudi构建实时数据湖平台实践

xleesf

48 0 0

xleesf

|

1月前

|

SQL 关系型数据库 HIVE

KLOOK客路旅行基于Apache Hudi的数据湖实践

KLOOK客路旅行基于Apache Hudi的数据湖实践

xleesf

46 2 2

KLOOK客路旅行基于Apache Hudi的数据湖实践

实时数仓Hologres团队

|

2月前

|

存储运维监控

飞书深诺基于Flink+Hudi+Hologres的实时数据湖建设实践

通过对各个业务线实时需求的调研了解到，当前实时数据处理场景是各个业务线基于Java服务独自处理的。各个业务线实时能力不能复用且存在计算资源的扩展性问题，而且实时处理的时效已不能满足业务需求。鉴于当前大数据团队数据架构主要解决离线场景，无法承接更多实时业务，因此我们需要重新设计整合，从架构合理性，复用性以及开发运维成本出发，建设一套通用的大数据实时数仓链路。本次实时数仓建设将以游戏运营业务为典型场景进行方案设计，综合业务时效性、资源成本和数仓开发运维成本等考虑，我们最终决定基于Flink + Hudi + Hologres来构建阿里云云原生实时湖仓，并在此文中探讨实时数据架构的具体落地实践。

实时数仓Hologres团队

131857 92 95

飞书深诺基于Flink+Hudi+Hologres的实时数据湖建设实践

热门文章

最新文章

云原生最佳实践系列 7：基于 OSS Object FC 实现非结构化文件实时处理

阿里云OSS对象存储基础入门

阿里云OSS文件上传

阿里云OSS实战从入门到大神

阿里云oss简介和使用流程

对象存储OSS产品常见问题之有几十亿个txt文件，单个4kb，使用oss如何解决

对象存储OSS产品常见问题之python sdk中的append_object方法支持追加上传xls文件如何解决

通过OOS实现定时备份Redis实例转储到OSS

对象存储OSS产品常见问题之在URL中包含签名如何解决

数据湖建设实践：使用AWS S3与LakeFormation构建灵活数据存储

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

使用Apache Hudi + Amazon EMR进行变化数据捕获(CDC)

一文带你认识医院信息化必备系统HIS、CIS、LIS、EMR、PACS、RIS等

云HIS系统+LIS检验系统+EMR电子病历系统源码

阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse

DataWorks on emr 创建spark节点指定dlf的catalog？

用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享

完整版Java电子病历EMR编辑器系统源码

医院电子病历编辑器，EMRE（EMR Editor）源码

【Java】全套云HIS（医院信息管理系统）源码包含EMR、LIS

相关课程

更多

企业运维训练营之大数据EMR原理与实践

大数据知识图谱系列—如何选择合适的OLAP引擎进行数据湖分析

EMR Studio 大数据处理最佳实践课程

阿里云 EMR on ACK 实战

玩转对象存储OSS使用入门

相关电子书

更多

云存储之OSS实战进阶分享

OSS运维基础实战手册

EMR弹性低成本离线大数据分析最佳实践

相关实验场景

更多

为OSS Bucket配置BucketPolicy

使用OSS助力游戏资源加速

基于数据湖架构的网站访问行为分析

基于EMR Serverless StarRocks一键玩转世界杯

OSS生命周期管理与访问行为分析

利用HBR实现OSS文件备份

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）