表格存储Tablestore
表格存储Tablestore是阿里云自研的面向海量结构化数据存储的Serverless分布式数据库,它可提供低成本、高性能的存储方案,同时也可提供稳定与极致的数据服务。
阿里云表格存储帮助 ACCS 完成了架构的全面升级,将三份存储缩减为一份统一存储,不仅降低了架构复杂度维护难度,也降低了成本,数据实时性查询能力受限制的问题都得到了解决,同时获得了底层存储赋予的高度扩展性弹性能力,不再为扩容问题烦恼.阿里云数据湖解决方案帮助及刻在数据的采集,存储与分析的全链条上,...
来自: 云产品
大数据系统基准性能测试最佳实践
大数据系统基准性能测试最佳实践
本方案适用于在阿里云上进行大数据基准性能测试的场景,包括 Teragen和Terasort测试,TestDFSIO测试。本文采用CADT工具结合阿里云的E-MapReduce服务快速构建测试集群,并提供了Teragen和Terasort测试,TestDFSIO测试的测试脚本,便于迅速开展测试。
✓ 完善集群的监控和告警体系,覆盖硬件 Hadoop服务。弹性 ✓ 计算存储分离:解耦了计算与存储之间的绑定关系,实现了资源的弹性利用。✓ 自定义集群环境:您可以通过引导操作和集群脚本灵活配置集群环境,将第三方优化和集 群管理工具部署到 EMR环境。✓ 自主运维:您可以登录 Master节点,查看集群日志和部署环境,优化...
来自: 最佳实践 | 相关产品:专有网络 VPC,E-MapReduce,云速搭CADT
自建Hadoop迁移到阿里云EMR
自建<em>Hadoop</em>迁移到阿里云EMR
场景描述 场景1:自建Hadoop集群数据(HDFS)迁移到 阿里云EMR集群的HDFS文件系统; 场景2:自建Hadoop集群数据(HDFS)迁移到 计算存储分离架构的阿里云EMR集群,以OSS 和JindoFS作为EMR集群的后端存储。 解决的问题 客户自建Hadoop迁移到阿里云EMR集群的 技术方案; 基于IPSecVPN隧道构建安全和低成本数据 传输链路 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
名词解释 E-MapReduce 阿里云 E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 HadoopSpark、HBase、Hive、Flink生态大数据 PaaS 产品。提供用户在云 上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学 习等场景下的大数据解决方案。详情请查看 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
自建Hadoop迁移MaxCompute
自建<em>Hadoop</em>迁移MaxCompute
场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
替换后效果为:文档版本:20210723 71 自建Hadoop迁移MaxCompute Azkaban定时任务迁移改造 步骤13 将替换后的脚本完整内容粘贴进数据集成任务编辑栏 步骤14 配置任务资源组独享资源组:步骤15 调度配置中设置自定义参数 步骤16 设置时间属性:文档版本:20210723 72 自建Hadoop迁移MaxCompute Azkaban定时任务迁移...
来自: 最佳实践 | 相关产品:云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭
中小企业自建Hadoop集群上云解决方案
中小企业自建 Hadoop 集群上云解决方案,助力自建 Hadoop 用户快速构建云上半托管开源大数据平台,在保持原组件使用习惯延续的同时,充分利用云上服务特点,更加便捷地迭代企业大数据平台架构,聚焦业务价值开发。
提供高性能、稳定版本 HadoopSpark、Hive、Flink、Kafka、Hbase、Presto、Impala、Hudi、ClickHouse 等开源大数据组件,可根据场景灵活搭配使用。采用 JindoFS+OSS,在保证数据可靠性的基础上,性能大幅提升.开源生态,性能优化.分钟级创建集群,支持对集群、节点服务进行监控运维操作,大幅提升运维工作效率,让数据...
来自: 解决方案
Spark on ECI大数据分析
<em>Spark</em> on ECI大数据分析
场景描述 方案优势 1.计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。 2.计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。 3.Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。 解决问题 1.计算资源弹性能力不足,计算资源成本管 控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离,大数据量分析时出 现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持 有限等缺点。 产品列表 容器服务Kubernetes版(ACK) 弹性容器实例(ECI) 文件存储HDFS 对象存储OSS 专有网络VPC 容器镜像服务ACR
应用范围 需要使用 Spark on Kubernetes解决方案的用户 对 Spark大数据分析平台计算资源成本控制考虑的用户 需要有灵活可扩展计算平台资源弹性及管控的用户 名词解释 文件存储 HDFS:阿里云文件存储 HDFS是面向阿里云 ECS实例及容器服务等计 算资源的文件存储服务,允许用户像在 Hadoop分布式文件系统中管理访问数 据,...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,容器服务 ACK,弹性容器实例 ECI,文件存储HDFS
EMR集群安全认证授权管理 
EMR集群安全认证<em>和</em>授权管理 
场景描述 阿里云EMR服务Kafka和Hadoop安全集群使 用Kerberos进行用户安全认证,通过Apache Ranger服务进行访问授权管理。本最佳实践中以 Apache Web服务器日志为例,演示基于Kafka 和Hadoop的生态组件构建日志大数据仓库,并 介绍在整个数据流程中,如何通过Kerberos和 Ranger进行认证和授权的相关配置。 解决问题 1.创建基于Kerberos的EMR Kafka和 Hadoop集群。 2.EMR服务的Kafka和Hadoop集群中 Kerberos相关配置和使用方法。 3.Ranger中添加Kafka、HDFS、Hive和 Hbase服务和访问策略。 4.Flume中和Kafka、HDFS相关的安全配 置。 产品列表:E-MapReduce、专有网络VPC、云服务器ECS、云数据库RDS版
名词解释 E-MapReduce:阿里云 E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 HadoopSpark、HBase、Hive、Flink生态大数据 PaaS 产品。提供 用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机 器 学 习 等 场 景 下 的 大 数 据 解 决 方 案。详 情 请 查 看 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,E-MapReduce
新版产品集合页
基于丰富的产品,将计算、存储、网络、数据库、大数据、人工智能等最新产品技术与场景深度融合,为开发者打造稳定可靠的云基础设施以及云原生的开发环境。
数据湖开源大数据平台 E-MapReduce免费试用云原生开源大数据平台,为客户提供简单易集成的 Hadoop、Hive、Spark、StarRocks、Presto 等开源大数据计算存储引擎数据湖构建 Data Lake Formation作为云原生数据湖架构核心组成部分,可帮助用户快速地构建云原生数据湖架构。数据应用与可视化DataV 数据可视化一款数据可视化...
来自: 云产品
SLS多云日志采集、处理及分析
SLS多云日志采集、处理及分析
场景描述 从第三方云平台或线下IDC服务器上采集 日志写入到阿里云日志服务,通过日志服务 进行数据分析,帮助提升运维、运营效率, 建立DT 时代海量日志处理能力。 针对未使用其他日志采集服务的用户,推荐 在他云或线下服务器安装logtail采集并使用 Https安全传输;针对已使用其他日志采集 工具并且已有日志服务需要继续服务的情 况,可以通过Log producer SDK写入日志 服务。 解决问题 1.第三方云平台或线下IDC客户需要使用 阿里云日志服务生态的用户。 2.第三方云平台或线下IDC服务器已有完 整日志采集、处理及分析的用户。 产品列表 E-MapReduce 专有网络VPC 云服务器ECS 日志服务LOG DCDN
ip和 topic名称):spark-submit-class com.aliyun.openservices.aliyun.log.producer.sample.SampleProducerWithCallback /home/hadoop/aliyun-log-producer-sample-0.0.1-SNAPSHOT-executable.jar accessKeyId accessKeySecret endpoint project logStore kafkaHost topic步骤6 执行后发现出错了,原因是作业中的 spark 集群上...
来自: 最佳实践 | 相关产品:云服务器ECS,日志服务(SLS),NAT网关,E-MapReduce,全站加速 DCDN,云速搭CADT
云消息队列 Kafka 版
云消息队列 Kafka 版是阿里云基于Apache Kafka构建的大数据消息中间件,广泛用于日志收集和分析、数据处理等场景。可提供全托管服务,用户无需部署运维,更专业、更可靠、更安全。
Kafka 性能高效,采集日志时业务无感知以及Hadoop/ODPS 等离线仓库存储 Storm/Spark 等实时在线分析对接的特性决定它非常适合作为\\.构建应用系统分析系统的桥梁,并将它们之间的关联解耦;应用与分析解耦.支持实时在线分析系统类似于Hadoop之类的离线分析系统;在线/离线分析系统.云消息队列 MQ.应用实时监控服务 ...
来自: 云产品
自建Hive数仓迁移到阿里云EMR
自建Hive数仓迁移到阿里云EMR
场景描述 客户在IDC或者公有云环境自建Hadoop集群构 建数据仓库和分析系统,购买阿里云EMR集群之 后,涉及到将数据仓库和Hive元数据的数据库迁 移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本),涉及到 数据订正更新步骤。 解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
深度整合 E-MapReduce 与阿里云其它产品(例如,OSS、MNS、RDS MaxCompute 等)进行了深度整合,支持以这些产品作为 Hadoop/Spark计算引擎的输入源或者 文档版本:20210721 1 自建Hive数据仓库跨版本迁移到阿里云 EMR 最佳实践概述 输出目的地。安全 E-MapReduce整合了阿里云 RAM资源权限管理系统,通过主子账号对服务...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
场景描述 客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。 方案优势 1. 全托管Spark集群免运维,节省人力成本。 2. Databricks数据洞察与阿里云其他产品(OSS、RDS、MaxCompute、EMR)进行深度整合,支持以这些产品为数据源的输入和输出。 3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。 解决问题 1. Hive数仓数据迁移OSS方案。 2. Hive元数据库迁移阿里云RDS方案。 3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。
tar-zxvf hadoop-2.10.1.tar.gz-C/usr/local/cd/usr/local/hadoop-2.10.1/ls 步骤6 设置 JAVA Hadoop环境变量。通过 yum安装的 JDK,安装目录在/usr/lib/jvm,通过 ls-l命令查看会发现很多的链 接。通过 vim命令将下面内容添加到/etc/profile文件末尾,保存后退出:1.编辑/etc/profile文件。文档版本:20210425 9 自建 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储HDFS,spark
湖仓一体架构EMR元数据迁移DLF
湖仓一体架构EMR元数据迁移DLF
通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF,通过统一的元数据管理,多种数据源入湖,搭建高效的数据湖解决方案。
EMR是云原生开源大数据平台,向客户提 供简单易集成的 Hadoop、Hive、Spark、Flink、Presto、ClickHouse、Delta、Hudi 等开源大数据计算存储引擎。EMR计算资源可以根据业务的需要调整。EMR可 以 部 署 在 阿 里 云 公 有 云 的 ECS ACK、专 有 云 平 台。(https://www.aliyun.com/product/emapreduce)。数据湖构建 ...
来自: 最佳实践 | 相关产品:E-MapReduce,数据湖构建
数据湖-在线学习场景数据分析
数据湖-在线学习场景数据分析
场景描述 本场景以在线教育中一个答题闯关类的应用为 例,使用WebServer来模拟演示这类日志数据 的分析处理。通过Nginx和Pythonflask搭建 WebServer,模拟应用中的关键页面,比如登 录、课程内容等,之后构造若干用户使用的模拟 日志数据,投递到数据湖进行分析后获取应用 PV、UV、课程内容访问排行、平均得分等等。 解决问题 基于数据湖(EMR+OSS)搭建大数据平台。 EMR和OSS使用和配置。 数据统一存储到OSS。 产品列表 E-MapReduce 对象存储OSS 云服务器ECS 访问控制RAM 专有网络VPC
借助EMR 可以简单快速的构建一个基于 HadoopSpark,Hive等大数据产品的计算集群,而且可以按需使用,其所有 Job完 文档版本:20200331 5数据湖-在线学习场景数据分析 数据湖 成之后,销毁集群,因为所有的数据都保存在OSS。此外,对于Hadoop集群上的任务,不同类型的任务对于机器配置的要求不同,比如 推荐算法业务可能...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,访问控制,E-MapReduce
云原生大数据计算服务MaxCompute
阿里云云原生大数据计算服务MaxCompute是面向分析的企业级云数仓,作为一体化大数据智能计算平台ODPS的大规模批量计算引擎,MaxCompute以 Serverless 架构提供快速、全托管的在线数据仓库服务,使您经济高效的分析处理海量数据,进行敏捷的业务洞察。
集成对数据湖(OSS或Hadoop HDFS)的访问分析,支持外表映射、Spark直接访问方式开展数据湖分析;在一套数仓服务用户接口下,实现湖与仓的关联分析.支持流式采集近实时分析.支持流式数据实时写入并在数据仓库中开展分析;与云上主要流式服务深度集成,轻松接入各种来源流式数据;高性能秒级弹性并发查询,满足近实时...
来自: 云产品
EMR HBase on OSS存算分离集群快速恢复
EMR HBase on OSS存算分离集群快速恢复
OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。
服务特性 OSS-HDFS服务支持的特性如下:HDFS兼容访问 OSS-HDFS 服务完全兼容 HDFS 接口,同时支持目录层级的操作,您只需集成 JindoSDK,即可为 Apache Hadoop的计算分析应用(例如 MapReduce、Hive、Spark、Flink等)提供了访问 HDFS服务的能力,像使用 Hadoop分布式文件系 统(HDFS)一样管理访问数据。POSIX能力支持 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,E-MapReduce,云速搭CADT
基于弹性供应组构建大数据分析集群
基于弹性供应组构建大数据分析集群
场景描述 基于弹性供应组(APG)搭建spark计算集 群,提供一键开启跨售卖方式、跨可用区、 跨实例规格的计算集群交付模式的实践。 方案优势 1.超低成本:跨售卖方式提供计算实 例,按秒计费,可全部使用spot实例 交付,最高可省90%成本。 2.稳定可靠:跨可用域、跨实例规格, 降低spot被集体释放的风险;自动托 管,分钟级巡检,动态保证集群的算 力。 3.快速交付:单次可在5分钟内交付 2000个实例。 4.多策略组合:可分别指定spot和按量 实例的交付策略,以及差额补足的策 略,包括成本最低、打散和折中。 解决问题 1.大规模计算集群成本高。 2.创建ECS实例方式单一,无法跨计费 方式、可用区及规格等核心参数。 3.当可用区资源紧张,无法自动保证基于 spot类型的稳定算力。 产品列表 专有网络VPC 云服务器ECS
基础配置:配置项 说明 付费模式 按量付费 地域及可用区 华东 1(杭州)可用区 H 实例 优先选择大数据型、本地 SSD等本地盘系列,由于像 HDFS本身 就是高可用的分布式文件系统,所以本地盘系列 D、I系列特别适 合 HadoopSpark等集群对高 IO的需求。架构:x86计算 分类:大数据型 实例规格:ecs.d1ne.2xlarge 购买实例数量...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,弹性公网IP
开源Flink迁移实时计算Flink全托管版最佳实践
开源Flink迁移实时计算Flink全托管版最佳实践
本方案介绍如何将自建开源Flink集群的流式任务(包含Datastream、Table/SQL、PyFlink任务)迁移至阿里云实时计算全托管版。
参见:https://www.aliyun.com/product/kafka E-MapReduce(简称“EMR”):是云原生开源大数据平台,向客户提供简单易集成 的 Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数 据计算存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在 阿里云公有云的 ECS ACK、专有云平台。参见:...
来自: 最佳实践 | 相关产品:专有网络 VPC,云数据库RDS MySQL 版,E-MapReduce,实时计算,消息队列 Kafka 版,云速搭CADT
E-MapReduce
阿里云E-MapReduce(简称EMR)是阿里云云原生数据湖的核心计算引擎,全面支持Hadoop、Spark、HBase、Hive、Flink等大数据组件,为客户提供企业级开源大数据平台服务。通过有效弹性伸缩和数据分层存储机制,相较于传统HDFS固定集群方式,可节省50%以上的费用,同时支持创建抢占式实例,相比按量付费的购买方式,可节省50%~80%的费用。
采集用户行为数据,通过EMR构建机器学习算法平台,通过Hive/Spark构建机器学习的特征库、模型库算法库,通过EMR Data Science集群TensorFlow/Pytorch实现模型训练,通过PAI EAS实现将模型在线推理服务.经过业内经大规模生产验证的推荐系统解决方案,实现CTR点击率大幅提升.适用于离线推荐实时推荐场景,用户可以根据...
来自: 云产品
MaxCompute湖仓一体方案
MaxCompute湖仓一体方案
场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 方案优势 1.业务无侵入性:现有业务无需改造。 2.性能优化:MaxCompute在SQL上做 了大量优化与能力沉淀,可提高SQL 运行性能,降低计算成本。 3.灵活管理:元数据实时同步,无需额外 管理数据同步任务。 4.资源弹性:利用MaxCompute计算池 弹性进行海量数据计算。 解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。 产品列表 专有网络VPC 云服务器ECS 访问控制RAM 运维编排OOS MaxCompute(原ODPS) 云企业网CEN
EMR:阿里云 E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 HadoopSpark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上 使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等 场 景 下 的 大 数 据 解 决 方 案。更 多 信 息,请 参 见:...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云企业网,E-MapReduce,大数据计算服务 MaxCompute,运维编排,云速搭
< 1 2 >
共有2页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用