EMR集群安全认证授权管理 
EMR集群安全认证<em>和</em>授权管理 
场景描述 阿里云EMR服务Kafka和Hadoop安全集群使 用Kerberos进行用户安全认证,通过Apache Ranger服务进行访问授权管理。本最佳实践中以 Apache Web服务器日志为例,演示基于Kafka 和Hadoop的生态组件构建日志大数据仓库,并 介绍在整个数据流程中,如何通过Kerberos和 Ranger进行认证和授权的相关配置。 解决问题 1.创建基于Kerberos的EMR Kafka和 Hadoop集群。 2.EMR服务的Kafka和Hadoop集群中 Kerberos相关配置和使用方法。 3.Ranger中添加Kafka、HDFS、Hive和 Hbase服务和访问策略。 4.Flume中和Kafka、HDFS相关的安全配 置。 产品列表:E-MapReduce、专有网络VPC、云服务器ECS、云数据库RDS版
步骤5 基础配置:数据库连接,替换为 RDS实例内网连接地址 Hive元数据库名称,内网连接地址和 数据库名称请参见 3.1.创建并配置 RDS for MySQL实例用于 Hive元数据库。文档版本:20200330 58 EMR集群安全认证和授权管理 EMR Hadoop安全集群和网关集群 在高级设置中,添加 knox用户,选择需要的 RAM子用户并设置密码:文档...
来自: 最佳实践 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,E-MapReduce
自建Hadoop迁移MaxCompute
自建Hadoop迁移MaxCompute
场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
但同时,它其他的分布式 文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉 价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应 用。VPN网关 VPN网关是一款基于 Internet的网络连接服务,通过加密通道的方式实现企业数 据中心、企业办公网络或 Internet终端与阿里云专有网络...
来自: 最佳实践 | 相关产品:云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭
MaxCompute湖仓一体方案
MaxCompute湖仓一体方案
场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 方案优势 1.业务无侵入性:现有业务无需改造。 2.性能优化:MaxCompute在SQL上做 了大量优化与能力沉淀,可提高SQL 运行性能,降低计算成本。 3.灵活管理:元数据实时同步,无需额外 管理数据同步任务。 4.资源弹性:利用MaxCompute计算池 弹性进行海量数据计算。 解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。 产品列表 专有网络VPC 云服务器ECS 访问控制RAM 运维编排OOS MaxCompute(原ODPS) 云企业网CEN
set odps.sql.hive.compatible=true;set odps.external.hadoop.user=hadoop;文档版本:20220402 21 MaxCompute湖仓一体方案 DataWorks执行 步骤3 运行简单的 SQL语句:select*from aliyun_bp169.bp_articles limit 10;执行过程如下:文档版本:20220402 22 MaxCompute湖仓一体方案 DataWorks执行 4.DataWorks执行 湖仓一体...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云企业网,E-MapReduce,大数据计算服务 MaxCompute,运维编排,云速搭
湖仓一体架构EMR元数据迁移DLF
湖仓一体架构EMR元数据迁移DLF
通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF,通过统一的元数据管理,多种数据源入湖,搭建高效的数据湖解决方案。
命令参考:spark-submit \-master yarn \-deploy-mode client \-driver-memory 2G \-executor-memory 2G \-executor-cores 4 \-num-executors 3 \-conf spark.sql.shuffle.partitions=200 \-conf spark.kryoserializer.buffer.max=128m \-conf spark.sql.autoBroadcastJoinThreshold=-1 \-conf spark.sql.adaptive.enabled=...
来自: 最佳实践 | 相关产品:E-MapReduce,数据湖构建
基于DataWorks的大数据一站式开发及数据治理
基于DataWorks的大数据一站式开发及数据治理
概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
无框 弦望、川知、场景迭代新版本发布,新 V1.1 2020-10-20 戎天、背包 增数据治理 HIVE分析 迭代 CADT 及使用云 V1.2 2020-02-01 弦望、川知 kafka V1.3 2020-02-07 弦望 注意事项更新 文档版本:20201020 I 基于 Dataworks的大数据一站式开发及数据治理 前言 前言 概述 基于 DataWorks做大数据一站式开发,包含数据实时...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭
CDH迁移升级CDP最佳实践
CDH迁移升级CDP最佳实践
当前 CDH 免费版停止下载,终止服务,针对需要企业版服务能力并且CDH 升级过程对业务影响较小的客户,通过安装新的 CDP 集群,将现有数据拷贝至新集群,然后将新集群切换为生产集群,升级过程没有数据丢失风险,停机时间较短,适合大部分互联网客户升级使用。
构造 HDFS Hive测试数据.35 1.3.2.构造 Impala测试数据.40 1.3.3.构造 Kudu测试数据.41 1.3.4.构造 Hbase测试数据.43 1.4.部署 CDP.44 1.4.1.购买部署 CDP.44 1.4.2.安装 Impala.47 1.4.3.安装 Hbase.50 1.4.4.安装 kudu.53 1.4.5.安装 Spark.57 2.数据迁移.62 2.1.HDFS迁移.62 2.2.Hive/Impala迁移.67 2.3.Kudu迁移.72 2...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云速搭
数据库自动扩缩容自动SQL优化
方案使用数据库自治服务DAS实现RDS MySQL数据库的自动扩缩容和自动SQL优化,将基于人工的手动式运维转变为基于智能的主动式持续优化,具有数据库运维成本低,服务稳定性高的优势。
产品解决方案文档与社区权益中心定价云市场合作伙伴支持与服务了解阿里云备案控制台数据库自动扩缩容自动SQL优化方案介绍方案优势应用场景方案部署方案权益数据库自动扩缩容自动SQL优化方案使用数据库自治服务DAS实现RDS MySQL数据库的自动扩缩容自动SQL优化,将基于人工的手动式运维转变为基于智能的主动式持续优化...
来自: 解决方案
E-MapReduce Serverless Spark
E-MapReduce Serverless Spark 是阿里云 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼。
EMR Serverless Spark 还内嵌了先进的版本管理系统,并提供了开发与生产环境的完全隔离,确保符合企业级用户在研发发布流程方面的严格要求。这些特性共同保障了数据处理的可靠性效率,同时满足企业级应用的高标准要求.全托管免运维.弹性扩展能力.开放数据湖架构.一站式的数据开发平台.开源大数据平台 EMR.数据湖构建 ...
来自: 云产品
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
自建<em>Hive</em>数据仓库跨版本迁移到阿里云Databricks数据洞察
场景描述 客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。 方案优势 1. 全托管Spark集群免运维,节省人力成本。 2. Databricks数据洞察与阿里云其他产品(OSS、RDS、MaxCompute、EMR)进行深度整合,支持以这些产品为数据源的输入和输出。 3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。 解决问题 1. Hive数仓数据迁移OSS方案。 2. Hive元数据库迁移阿里云RDS方案。 3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。
首先备份一下原始转储文件 cp hive_databases.sql hive_databases_back.sql 2.使用 sed命令替换转储文件中的 Location相关信息,其中蓝色字体红色字 体内容可以在步骤 2中分别查看到:sed-i"s/hdfs:\/\/master:9000/oss:\/\/databricks-data-source/g"hive_databases.sql 文档版本:20210425 31 自建 Hive数据仓库跨版本...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储HDFS,spark
自建Hive数仓迁移到阿里云EMR
自建<em>Hive</em>数仓迁移到阿里云EMR
场景描述 客户在IDC或者公有云环境自建Hadoop集群构 建数据仓库和分析系统,购买阿里云EMR集群之 后,涉及到将数据仓库和Hive元数据的数据库迁 移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本),涉及到 数据订正更新步骤。 解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
自建 Hive数据仓库跨版本迁移到阿里云 EMR 场景描述 解决的问题 客户在IDC或者公有云环境自建Hadoop集群构建 Hive数据仓库的数据迁移方案 数据仓库和分析系统,购买阿里云 EMR集群之后,Hive元数据库的迁移方案 涉及到将数据仓库和Hive元数据的数据库迁移上 Hive跨版本迁移后的数据订正 云。目前主流 Hive数据仓库迁移场景...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
Spark on ECI大数据分析
<em>Spark</em> on ECI大数据分析
场景描述 方案优势 1.计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。 2.计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。 3.Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。 解决问题 1.计算资源弹性能力不足,计算资源成本管 控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离,大数据量分析时出 现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持 有限等缺点。 产品列表 容器服务Kubernetes版(ACK) 弹性容器实例(ECI) 文件存储HDFS 对象存储OSS 专有网络VPC 容器镜像服务ACR
Spark on ECI大数据分析 最佳实践 业务架构 场景描述 云原生大数据时代的到来,用户在拥抱云原 生进行容器化改造的同时也专注于数据分析,希望能够将云原生容器化编排改造带来的计 算资源弹性、计算资源成本优化、计算与存储 分离、资源调度隔离等优势与大数据分析进行 结合,因此可以将大数据分析与容器编排调度 主流技术...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,容器服务 ACK,弹性容器实例 ECI,文件存储HDFS
云数据库RDS SQL Server版
阿里云SQL Server数据库已含微软License,支持复杂的SQL查询,性能优秀,对基于Windows平台.NET架构的应用程序具有完美的支持,广泛应用于新零售、医疗、房地产等行业。
不论数据库是MySQL、SQLServer、PostgreSQL还是Redis,不受部署region环境局限,通过一条SQL就能实现这些数据库实例之间的关联查询.如:常见的商品库、订单库的实时关联查询,多region、多单元的汇总关联查询.垂直、水平拆分后的跨数据库查询.如:数据从SQLServer迁移至MySQL,进行关联查询做一致性对比.异构数据库的关联...
来自: 云产品
< 1 >
共有1页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用