EMR集群安全认证和授权管理 
EMR集群安全认证和授权管理 
场景描述 阿里云EMR服务Kafka和Hadoop安全集群使 用Kerberos进行用户安全认证,通过Apache Ranger服务进行访问授权管理。本最佳实践中以 Apache Web服务器日志为例,演示基于Kafka 和Hadoop的生态组件构建日志大数据仓库,并 介绍在整个数据流程中,如何通过Kerberos和 Ranger进行认证和授权的相关配置。 解决问题 1.创建基于Kerberos的EMR Kafka和 Hadoop集群。 2.EMR服务的Kafka和Hadoop集群中 Kerberos相关配置和使用方法。 3.Ranger中添加Kafka、HDFS、Hive和 Hbase服务和访问策略。 4.Flume中和Kafka、HDFS相关的安全配 置。 产品列表:E-MapReduce、专有网络VPC、云服务器ECS、云数据库RDS版
产品列表:E-MapReduce、专有网络 VPC、云服务 最佳实践频道 阿里云最佳实践分享群 器 ECS、云数据库 RDS 如二维码过期,请搜索群号:31852400 云服务器 ECS(产品名称)文档模板(手册名称)/文档版本信息 阿里云 EMR集群安全认证和授权管理 最佳实践 文档版本:20200330 文档版本:20150122(发布日期)II EMR集群安全...
来自: 最佳实践 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,E-MapReduce
MaxCompute湖仓一体方案
MaxCompute湖仓一体方案
场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 方案优势 1.业务无侵入性:现有业务无需改造。 2.性能优化:MaxCompute在SQL上做 了大量优化与能力沉淀,可提高SQL 运行性能,降低计算成本。 3.灵活管理:元数据实时同步,无需额外 管理数据同步任务。 4.资源弹性:利用MaxCompute计算池 弹性进行海量数据计算。 解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。 产品列表 专有网络VPC 云服务器ECS 访问控制RAM 运维编排OOS MaxCompute(原ODPS) 云企业网CEN
EMR:阿里 E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 Hadoop、SparkHBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在上 使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等 场 景 下 的 大 数 据 解 决 方 案。更 多 信 息,请 参 见:...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云企业网,E-MapReduce,大数据计算服务 MaxCompute,运维编排,云速搭
基于DataWorks的大数据一站式开发及数据治理
基于DataWorks的大数据一站式开发及数据治理
概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
详情请查看 www.aliyun.com/product/bigdata/product/sc EMR:阿里 E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 Hadoop、SparkHBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在上 使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等 场景下的大数据解决方案。详情请查看 ...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭
大数据近实时数据投递MaxCompute
大数据近实时数据投递MaxCompute
本文介绍离线大数据场景使MaxCompute构建云 上近实时数仓,打通云下数据上云链路,解决数据复杂类型支持和动态分区问题,满足高级数据处理需求的最佳实践。 l混合云环境下,现有业务系统零改造,打通数据上云链路。 l使用UDF实现复杂数据类型转换和数据动态分区。 l使用DataWorks配置周期调度业务流程,数据自动入仓。 l借助MaxCompute优化计算引擎,实现降本增效。 产品列表 云服务器ECS 专有网络VPC 访问控制RAM 数据总线DataHub E-MapReduceEMR DataWorks 大数据计算服务MaxCompute
详见:https://www.aliyun.com/product/ram 文档版本:20240419 III 大数据近实时数据投递 MaxCompute 前言 E-MapReduce EMR:是构建在阿里云云服务器 ECS 上的开源 Hadoop、SparkHBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在上使用开 源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场 ...
来自: 最佳实践 | 相关产品:块存储,专有网络 VPC,云服务器ECS,访问控制,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,数据总线,云速搭CADT
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
如果没有自动关联指定的OSS,可以手动创建云数据库,指向对应的OSS-bucket。基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测 2.配置DataWorks和PAI 此方案通过DataWorks创建一个工作空间,选择MaxCompute作为计算引擎,并开 通PAIStudio作为机器学习服务(用于后续...
来自: 最佳实践 | 相关产品:对象存储 OSS,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,API网关,数据湖构建,云速搭
数据湖-在线学习场景数据分析
数据湖-在线学习场景数据分析
场景描述 本场景以在线教育中一个答题闯关类的应用为 例,使用WebServer来模拟演示这类日志数据 的分析处理。通过Nginx和Pythonflask搭建 WebServer,模拟应用中的关键页面,比如登 录、课程内容等,之后构造若干用户使用的模拟 日志数据,投递到数据湖进行分析后获取应用 PV、UV、课程内容访问排行、平均得分等等。 解决问题 基于数据湖(EMR+OSS)搭建大数据平台。 EMR和OSS使用和配置。 数据统一存储到OSS。 产品列表 E-MapReduce 对象存储OSS 云服务器ECS 访问控制RAM 专有网络VPC
 能够利用本地集群的存储资源加速数据读取,适合具有一定本地存储能力的集群,能够利用有限的本地存储提升吞吐率,特别对于一写多的场景效果显著。 元数据操作效率高,能够与HDFS相当,能够有效规避OSS文件系统元数据操作 耗时以及高频访问下可能引发不稳定的问题。 能够最大限度保证执行作业时的数据本地化,减少...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,访问控制,E-MapReduce
大数据workshop
大数据workshop
大数据workshop
技术选型 阿里框架 开源框架 ➢ 数据采集传输 DataHub、DTS Flume、Kafka、Canal、MaxWell ➢ 数据存储 RDS、MaxCompute MySQL、Hadoop、HBase ➢ 数据计算 实时计算 Flink Spark、Flink ➢ 数据可视化 DataV、QuickBI Tableau、Echarts、Kibana 2.2.4.系统架构设计 下图为所设计的系统架构设计,主要包括数据源(两类...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
CDH迁移升级CDP最佳实践
CDH迁移升级CDP最佳实践
当前 CDH 免费版停止下载,终止服务,针对需要企业版服务能力并且CDH 升级过程对业务影响较小的客户,通过安装新的 CDP 集群,将现有数据拷贝至新集群,然后将新集群切换为生产集群,升级过程没有数据丢失风险,停机时间较短,适合大部分互联网客户升级使用。
CDH迁移升级 CDP 最佳实践 业务架构 场景描述 解决的问题 CDH升级至 CDP 当前 CDH免费停止下载,终止服务,针对需要...CDP最佳实践 附录:代码改造指南 Spark:https://github.com/bithanjun/CDP-upgrade/blob/main/Spark.adocHBase:https://github.com/bithanjun/CDP-upgrade/blob/main/HBase.adoc文档版本:20211029 127
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云速搭
消息队列 Kafka
云消息队列 Kafka 版是阿里云基于Apache Kafka构建的大数据消息中间件,广泛用于日志收集和分析、数据处理等场景。可提供全托管服务,用户无需部署运维,更专业、更可靠、更安全。
消息队列 Kafka 支持连接自建 Filebeat 日志采集,经由 Kafka 流转到后方 ES 服务.HbaseSpark 数据处理.消息队列 Kafka 数据导入 Hbase 等存储,实现低成本存储和计算分析.Flink 实时数仓.消息队列 Kafka 支持数据流转到 Flink,实现ETL处理、实时数据分析等业务.消息队列 Kafka 兼容标准规范,支持海量...
来自: 云产品
云数据库产品总览(瑶池)
阿里云提供完善的数据库解决方案,多款数据库产品,满足99%的业务场景,荣获Gartner、信通院等国内外多项认证。轻松满足高可靠、高可用性、高性能等数据库需求;运维工作量大幅减少,让企业一站式享受数据上云及分布式架构的技术红利!
云数据库HBase增强提供全文索引方案,通过BDS实现HBase与Solr之间的数据实时同步,使业务轻松应对高维度&随机组合查询需求;提供压缩存储优化特性和冷热分离功能,0应用改造实现冷热数据分离存储,降低不常用冷数据存储成本,提升常用热数据访问性能.专属集群MyBase以资源独享、自主运维、安全可控的新型模式,很大程度上...
来自: 云产品
SLS多云日志采集、处理及分析
SLS多云日志采集、处理及分析
场景描述 从第三方云平台或线下IDC服务器上采集 日志写入到阿里云日志服务,通过日志服务 进行数据分析,帮助提升运维、运营效率, 建立DT 时代海量日志处理能力。 针对未使用其他日志采集服务的用户,推荐 在他云或线下服务器安装logtail采集并使用 Https安全传输;针对已使用其他日志采集 工具并且已有日志服务需要继续服务的情 况,可以通过Log producer SDK写入日志 服务。 解决问题 1.第三方云平台或线下IDC客户需要使用 阿里云日志服务生态的用户。 2.第三方云平台或线下IDC服务器已有完 整日志采集、处理及分析的用户。 产品列表 E-MapReduce 专有网络VPC 云服务器ECS 日志服务LOG DCDN
文档版本:20211203 64 SLS多云日志采集、处理及分析 编写 Spark作业源码解读及问题排查 步骤5 使用如下命令执行 spark作业(accessKeyId,accessKeySecret从阿里账号管理 中获取,endpoint,project,logStore 从日志服务中获取,kafkaHost,topic 从 kafka集群中获取 master节点私网 ip和 topic名称):spark-submit-...
来自: 最佳实践 | 相关产品:云服务器ECS,日志服务(SLS),NAT网关,E-MapReduce,全站加速 DCDN,云速搭CADT
实时数仓Hologres
Hologres(原交互式分析)是一站式实时数据仓库引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议),支持PB级数据多维分析(OLAP)与自助分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),与MaxCompute、Flink、DataWorks深度融合,提供离在线一体化全栈数仓解决方案。
与Flink、Spark等计算框架原生集成,通过内置Connector,支持高通量数据实时写入与更新,支持源表、结果表、维度表多种场景,支持多流合并等复杂操作.所见即所得的开发.数据实时写入即可查询,支持DB、Schema、Table三级体系,支持视图View,原生支持Update/Delete,支持关联、嵌套、窗口等丰富表达能力,支持半结构JSON...
来自: 云产品
自建Hadoop迁移到阿里EMR
自建Hadoop迁移到阿里<em>云</em>EMR
场景描述 场景1:自建Hadoop集群数据(HDFS)迁移到 阿里云EMR集群的HDFS文件系统; 场景2:自建Hadoop集群数据(HDFS)迁移到 计算存储分离架构的阿里云EMR集群,以OSS 和JindoFS作为EMR集群的后端存储。 解决的问题 客户自建Hadoop迁移到阿里云EMR集群的 技术方案; 基于IPSecVPN隧道构建安全和低成本数据 传输链路 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
名词解释 E-MapReduce 阿里 E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 Hadoop、SparkHBase、Hive、Flink生态大数据 PaaS 产品。提供用户在 上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学 习等场景下的大数据解决方案。详情请查看 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
云数据库HBase
阿里云云数据库 HBase 版(ApsaraDB for HBase)是基于 Hadoop 且100%兼容HBase协议的高性能、可弹性伸缩、面向列的分布式数据库,轻松支持PB级大数据存储,满足千万级QPS高吞吐随机读写场景。
云数据库 HBase 是面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库.Lindorm...
来自: 云产品
E-MapReduce Serverless Spark
E-MapReduce Serverless Spark 是阿里云 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼。
基于 EMR Serverless Spark 建立数据平台.<开源大数据平台 E-MapReduce.E-MapReduce(以下简称:\\.E-MapReduce Serverless Spark .致力于为客户提供优质的产品体验,客户无需构建复杂的基础设施就可以开始作业的开发之旅.基于 Spark Native Engine 提供最高3倍于开源 Spark 的性能体验.基于阿里 Serverless 底座,提供...
来自: 云产品
EMR HBase on OSS存算分离集群快速恢复
EMR <em>HBase</em> on OSS存算分离集群快速恢复
OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。
EMR HBase on OSS存算分离集群快速恢复 最佳实践 部署架构 HBase on OSS架构优势 场景描述 简化了数据迁移和恢复 OSS-HDFS服务(JindoFS服务)是一款原生 HBase 的数据文件和表的元数据持久存储在集群外部的 数据湖存储产品。基于统一的元数据管理能力,OSS上,HBase数据迁移和恢复时无需再使用快照等复杂 在完全兼容 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,E-MapReduce,云速搭CADT
Spark on ECI大数据分析
<em>Spark</em> on ECI大数据分析
场景描述 方案优势 1.计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。 2.计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。 3.Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。 解决问题 1.计算资源弹性能力不足,计算资源成本管 控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离,大数据量分析时出 现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持 有限等缺点。 产品列表 容器服务Kubernetes版(ACK) 弹性容器实例(ECI) 文件存储HDFS 对象存储OSS 专有网络VPC 容器镜像服务ACR
文档版本:20200409 16 Spark on ECI大数据分析 应用开发 文档版本:20200409 17 Spark on ECI大数据分析 Spark on Kubernetes实践方案对比 3.Spark on Kubernetes实践方案对比 本章中,我们首先通过 Spark on 阿里容器服务 Kubernetes(ACK)并结合 Kubernetes原生的技术说明来解释 Spark on Kubernetes架构相比传统的...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,容器服务 ACK,弹性容器实例 ECI,文件存储HDFS
自建Hadoop迁移MaxCompute
自建Hadoop迁移MaxCompute
场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
文档版本:20210723 30 自建Hadoop迁移MaxCompute Hbase表数据迁移到云数据库 Hbase版 4.Hbase表数据迁移到云数据库 Hbase版 4.1.创建 BDS集群 BDS 是阿里云针对 HBase自主研发的一套迁移同步服务,主要帮助云上的客户进行 自建 HBase、云 HBase集群的数据导入和导出。步骤1 通过连接登录到云数据库 Hbase版控制台 ...
来自: 最佳实践 | 相关产品:云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭
自建Hive数据仓库跨版本迁移到阿里Databricks数据洞察
自建Hive数据仓库跨版本迁移到阿里<em>云</em>Databricks数据洞察
场景描述 客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。 方案优势 1. 全托管Spark集群免运维,节省人力成本。 2. Databricks数据洞察与阿里云其他产品(OSS、RDS、MaxCompute、EMR)进行深度整合,支持以这些产品为数据源的输入和输出。 3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。 解决问题 1. Hive数仓数据迁移OSS方案。 2. Hive元数据库迁移阿里云RDS方案。 3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。
与社区 Spark和 Delta Lake相比,在功能和性能 上都有明显的优势。经济 文档版本:20210425 V 自建 Hive数据仓库跨版本迁移到阿里 Databricks数据洞察 最佳实践概述 您可以按需创建 Databricks数据洞察集群,即离线作业运行结束就可以释放集群,同时支持按负载和时间的弹性伸缩。协同分析 Databricks数据洞察 Notebook...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储HDFS,spark
< 1 2 >
共有2页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用