大数据系统基准性能测试最佳实践
<em>大数据</em>系统基准性能测试最佳实践
本方案适用于在阿里云上进行大数据基准性能测试的场景,包括 Teragen和Terasort测试,TestDFSIO测试。本文采用CADT工具结合阿里云的E-MapReduce服务快速构建测试集群,并提供了Teragen和Terasort测试,TestDFSIO测试的测试脚本,便于迅速开展测试。
应用范围 使用阿里云 E-MapReduce服务进行基准性能测试 名词解释 E-MapReduce:(简称 EMR),是运行在阿里云平台上的一种大数据处理的系统 解决方案。EMR构建于云服务器 ECS上,基于开源的 Apache Hadoop和 Apache Spark,让您可以方便地使用 Hadoop和 Spark生态系统中的其他周边系统分析和 处理数据。EMR还可以与阿里云...
来自: 最佳实践 相关产品:专有网络 VPC,E-MapReduce,云速搭CADT
云原生大数据计算服务MaxCompute
阿里云云原生大数据计算服务MaxCompute是面向分析的企业级云数仓,作为一体化大数据智能计算平台ODPS的大规模批量计算引擎,MaxCompute以 Serverless 架构提供快速、全托管的在线数据仓库服务,使您经济高效的分析处理海量数据,进行敏捷的业务洞察。
玩物得志基于DataWorks+MaxCompute 框架,使用其核心存储、计算等组件快速搭建起自己的大数据平台.MaxCompute为高德带来一键资源扩容能力,使得集群扩容在小时级别内完成,并实现了核心数据“3点产出”的骄人成果.优酷从Hadoop迁到MaxCompute后,我们最大的体会是不用半夜起来去维护集群了,之前排几周的需求,现在可以马上...
来自: 云产品
阿里云最佳实践离线大数据workshop
阿里云最佳实践离线<em>大数据</em>workshop
本最佳实践,首先搭建一个简化的电商 demo 系统,然后为此 demo 系统构建一套离 线大数据分析系统。 实践目标 1. 学习搭建一个离线大数据分析系统,学习从数据采集到数据存储和业务分析的业 务流程。 2. 整个离线大数据分析系统全部基于阿里云产品进行搭建,学习掌运用各个服务组 件及各个组件之间如何联动。 背景知识要求 熟练掌握 SQL 语法 对大数据体系系统知识有一定的了解
阿里云技术框架 阿里云产品 简介 类比 ECS 弹性计算服务器 Linux服务器 RDS 关系型数据库 自有MySQL服务器 Dataworks 一站式数据开发平台 目前没有 MaxCompute 大数据计算服务 Hadoop系统 QuickBI 可视化数据平台 Tableau、Echarts、Kibana 1.3.2.系统架构设计 系统架构如下图所示:文档版本:20210802(发布日期)4离线...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,日志服务(SLS),大数据计算服务 MaxCompute,DataV数据可视化,数据总线,Quick BI,云速搭
云消息队列 Kafka 版
云消息队列 Kafka 版是阿里云基于Apache Kafka构建的大数据消息中间件,广泛用于日志收集和分析、数据处理等场景。可提供全托管服务,用户无需部署运维,更专业、更可靠、更安全。
消息队列 Kafka 版是阿里云基于 Apache Kafka 构建的高吞吐量、高可扩展性的分布式消息队列服务,广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等,是大数据生态中不可或缺的产品之一,阿里云提供全托管服务,用户无需部署运维,更专业、更可靠、更安全.消息队列 RocketMQ 版.消息队列 RabbitMQ 版.消息...
来自: 云产品
EMR HBase on OSS存算分离集群快速恢复
EMR HBase on OSS存算分离集群快速恢复
OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。
基于统一的元数据管理能力,在完全兼容 HDFS文件系统接口的同时,提供充分的 POSIX能力支持,能更好地 满足大数据和 AI 等 领 域 的 湖 计 算 场 景。详见:https://help.aliyun.com/document_detail/405089.html EMR:开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,E-MapReduce,云速搭CADT
大数据workshop
<em>大数据</em>workshop
大数据workshop
详见:https://www.aliyun.com/product/ecs DataHub:数据总线(DataHub)服务是阿里云提供的流式数据(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅(Subscribe)的功能,让您可以轻 松 构 建 流 式 的 分 析 和 应 用。详见:https://www.aliyun.com/product/datahub 实时计算 Flink 版:实时计算 ...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
MaxCompute湖仓一体方案
MaxCompute湖仓一体方案
场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 方案优势 1.业务无侵入性:现有业务无需改造。 2.性能优化:MaxCompute在SQL上做 了大量优化与能力沉淀,可提高SQL 运行性能,降低计算成本。 3.灵活管理:元数据实时同步,无需额外 管理数据同步任务。 4.资源弹性:利用MaxCompute计算池 弹性进行海量数据计算。 解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。 产品列表 专有网络VPC 云服务器ECS 访问控制RAM 运维编排OOS MaxCompute(原ODPS) 云企业网CEN
提供用户在云上 使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等 场 景 下 解 决 方 案。更 多 信 息,请 参 见:https://www.aliyun.com/product/emapreduce 文档版本:20220402 III MaxCompute湖仓一体方案 目录 目录 文档版本信息.I 法律声明.II 产品介绍.III 目录.IV 最佳实践...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云企业网,E-MapReduce,大数据计算服务 MaxCompute,运维编排,云速搭
金融专属大数据workshop
金融专属<em>大数据</em>workshop
实践目标 学习搭建一个实时数据仓库,掌握数据采集、存储、计算、输出、展示等整个业务流程。 整个实时数据仓库系统全部基于阿里云产品进行架构搭建,用户可以掌握并学会运用各个服务组件及各个组件之间如何联动。 理解阿里云原生实时离线一体数仓解决方案架构以及掌握交付落地的实践使用方法。 前置知识要求 熟练掌握SQL语法 对大数据体系系统知识有一定的了解
对结果进行可视化展示 例如用户通过手机APP购买基金,金融公司可以通过后台的大数据分析平台达到如下的 大屏分析效果:文档版本:20210803(发布日期)4阿里云最佳实践大数据WorkShop 最佳实践方案设计 文档版本:20210803(发布日期)5阿里云最佳实践大数据WorkShop 最佳实践方案设计 2.2.2.项目架构 2.2.2.1.阿里云技术...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
CDH迁移升级CDP最佳实践
CDH迁移升级CDP最佳实践
当前 CDH 免费版停止下载,终止服务,针对需要企业版服务能力并且CDH 升级过程对业务影响较小的客户,通过安装新的 CDP 集群,将现有数据拷贝至新集群,然后将新集群切换为生产集群,升级过程没有数据丢失风险,停机时间较短,适合大部分互联网客户升级使用。
CDP:Cloudera 对 hadoop 做了商业化版本,面向 IT 和企业的大数据平台 Cloudera Data Platform(CDP),是 CDH的升级版。云服务器 ECS(Elastic Compute Service):是一种弹性可伸缩的计算服务,助 您降低 IT 成本,提升运维效率,使您更专注核心业务创新。更多信息,请参 见 ECS简介...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云速搭
对象存储 OSS
阿里云对象存储 OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云备份服务,提供最高可达 99.995 % 的服务可用性。多种存储类型供选择,全面优化存储成本。
相关产品对象存储 OSS 本产品开源大数据平台 E-MapReduce文件存储 CPFS人工智能平台 PAI一键部署2023 杭州·云栖大会:计算,为了无法计算的价值云栖大会开始 2009 年,始终以引领云计算创新为宗旨,以坚持开放为姿态,承载着云计算的思想、突破、产业实践,推动了中国云计算产业的前.精彩回放云栖速递:面向规模数据...
来自: 云产品
表格存储Tablestore
表格存储Tablestore是阿里云自研的面向海量结构化数据存储的Serverless分布式数据库,它可提供低成本、高性能的存储方案,同时也可提供稳定与极致的数据服务。
单表PB级数据规模及千万级QPS让表格存储轻松满足IoT设备、监控系统等时序数据的存储需求,大数据分析SQL直读以及高效的增量流式读接口让数据轻松完成离线分析与实时流计算.超大规模IoT设备、监控系统等时序数据需要PB级数据存储.需要长期存储数据,要求能够监控查询与数据分析.需要高并发写入实时数据,对数据进行实时计算...
来自: 云产品
EMR集群安全认证和授权管理 
EMR集群安全认证和授权管理 
场景描述 阿里云EMR服务Kafka和Hadoop安全集群使 用Kerberos进行用户安全认证,通过Apache Ranger服务进行访问授权管理。本最佳实践中以 Apache Web服务器日志为例,演示基于Kafka 和Hadoop的生态组件构建日志大数据仓库,并 介绍在整个数据流程中,如何通过Kerberos和 Ranger进行认证和授权的相关配置。 解决问题 1.创建基于Kerberos的EMR Kafka和 Hadoop集群。 2.EMR服务的Kafka和Hadoop集群中 Kerberos相关配置和使用方法。 3.Ranger中添加Kafka、HDFS、Hive和 Hbase服务和访问策略。 4.Flume中和Kafka、HDFS相关的安全配 置。 产品列表:E-MapReduce、专有网络VPC、云服务器ECS、云数据库RDS版
提供 用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机 器 学 习 等 场 景 下 解 决 方 案。详 情 请 查 看 www.aliyun.com/product/emapreduce Kerberos:Kerberos是一种网络身份验证协议,它旨在通过使用密钥加密为客户 端/服务器应用程序提供强身份验证。它提供了网络上的身份...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,E-MapReduce
注册配置中心
注册配置相比开源版,Nacos 和 Zookeeper 商业版具有更强的性能和 SLA 保障,并提供了丰富完善的监控报警、简单易用的控制台运维操作。
对于 Hadoop、HBase、Kafka和Flink等大数据组件,可使用MSE ZooKeeper 实现 High Availability 方案.相比自建,MSE 注册配置中心帮助我们实现了性能提升达 50%,解决了业务高速发展中的扩展性问题,保障全国 200 多个城市、2000 多家医院体验业务的稳定性超 99.99%。在技术方向上,我们倾向云原生的技术架构演进方向,将...
来自: 云产品
块存储EBS
阿里云块存储EBS是为云服务器ECS提供的低时延、持久性、高可靠的块级随机存储,拥有丰富的产品类型,多元的存储特性,适用于自建数据库加速,快照数据保护等场景,ESSD PL3规格最高可提供100万IOPS以及4000MB/S吞吐能力,有效提升存储性能,大大降低成本。
大数据分析临时数据.¥0.4~0.8元/GB/月.孙慧颖,靖鑫,也树.单机实例,最高性价比,数据可靠性高达九个九,同时具备故障转移能力,可保障您的业务持续运行,支持 SQL Server Web版本.主备架构双机实例,主备节点位于不同服务器实现秒级高可用,支持链接服务器、分布式事务、变更数据捕获等高级特性,涵盖 SQL Server 标准版...
来自: 云产品
云存储解决方案
云存储解决方案面向大数据存储、多媒体存储(视频存储)、视频监控、基因生命科学、数据迁移、自动驾驶、在线教育、混合云存储、数据迁移、数据容灾备份等多个行业用户的多元化场景,提供更安全稳定、更优化、无缝上云的智能数据存储服务,为企业上云、实现数字化转型奠定数据基础。
成本高:样本与分析数据量级数据存储成本高.可靠性要求高:数据分析结果长期保存归档,需要高可靠性的存储系统.云端资源实时响应业务需求,支撑快速增长;数据分析流程优化,提高计算平台效率.按需付费,灵活扩展,节省开支;冷热数据分层存储,降低存储成本.对象存储 OSS 数据可靠性高达12个9,提供高可靠性服务.为...
来自: 解决方案
SLS多云日志采集、处理及分析
SLS多云日志采集、处理及分析
场景描述 从第三方云平台或线下IDC服务器上采集 日志写入到阿里云日志服务,通过日志服务 进行数据分析,帮助提升运维、运营效率, 建立DT 时代海量日志处理能力。 针对未使用其他日志采集服务的用户,推荐 在他云或线下服务器安装logtail采集并使用 Https安全传输;针对已使用其他日志采集 工具并且已有日志服务需要继续服务的情 况,可以通过Log producer SDK写入日志 服务。 解决问题 1.第三方云平台或线下IDC客户需要使用 阿里云日志服务生态的用户。 2.第三方云平台或线下IDC服务器已有完 整日志采集、处理及分析的用户。 产品列表 E-MapReduce 专有网络VPC 云服务器ECS 日志服务LOG DCDN
提供用户在云上 使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习 等场景下的大数据解决方案。更多信息,请参见专有 E-MapReduce简介(https://www.aliyun.com/product/emapreduce)。全站加速 DCDN:旨在提升动静态资源混合站点的访问体验,支持静态资源边缘 缓存,动态内容最优路由回源传输,...
来自: 最佳实践 | 相关产品:云服务器ECS,日志服务(SLS),NAT网关,E-MapReduce,全站加速 DCDN,云速搭CADT
微服务引擎MSE
微服务引擎 MSE 面向业界注册配置中心、分布式协调、云原生网关、微服务治理和分布式任务调度等主流开源项目,提供商业版服务。
基于 Akka 架构的分布式任务调度平台(兼容开源 XXL-JOB/ElasticJob/K8s Job/Spring Schedule),支持 Cron 定时、一次性任务、任务编排、分布式数据处理,具有高可用、可视化、可运维、低延时等能力.支持秒级别调度、轻量级分布式计算,可以助力您完成准实时的大数据跑批.通过分布式架构、数据三备份、消息 At-least-once ...
来自: 云产品
开源Flink迁移实时计算Flink全托管版最佳实践
开源Flink迁移实时计算Flink全托管版最佳实践
本方案介绍如何将自建开源Flink集群的流式任务(包含Datastream、Table/SQL、PyFlink任务)迁移至阿里云实时计算全托管版。
比如聚合任务按小时、天维度计算的聚合值,清洗任务加工的按天分区表等,在数据对比时就可以根据对应的时间周期来进对比,比如小时周期的任务实际已完整处理多个小时数据 后,就可以对比处理过的小时 ,而天维度的聚合值,一般就需要等待新任务处理完完整的一天 后才能对比。2、数据规模 中小数据规模:建议进行全量...
来自: 最佳实践 | 相关产品:专有网络 VPC,云数据库RDS MySQL 版,E-MapReduce,实时计算,消息队列 Kafka 版,云速搭CADT
云消息队列 RocketMQ 版
云消息队列 RocketMQ 版是基于 Apache RocketMQ 构建的分布式消息中间件,广泛用于异步解耦、削峰填谷等场景。可支撑千万级并发、万亿级数据洪峰,更稳定,更安全。
云消息队列 RocketMQ 版是阿里云基于 Apache RocketMQ 构建的低延迟、高并发、高可用、高可靠的分布式“消息、事件、流”统一处理平台。RocketMQ 自诞生以来一直服务阿里集团十余年,历经多次双十一万亿级数据洪峰稳定性验证.云消息队列 RocketMQ 版 Serverless 系列资源包,新用户专享 59 折优惠!RocketMQ 版 Serverless ...
来自: 云产品
云上成本优化workshop
云上成本优化workshop
某金融科技公司,它主要提供信贷,理财,电商等 服务,目前已经拥有千万级注册用户。该公司在将 在线业务系统和大数据业务从自建 IDC 机房迁移 到阿里云后,今年大数据集群经历过多次因为资 源不足导致弹性扩容失败的故障,运维负责人非 常苦恼。由于该公司从事互联网金融的借贷业务, 白天的催收非常依赖晚上大数据计算的结果,若 因为资源不足导致计算结果失败则意味着白天催 收业务员无事可做,会对公司业务造成严重影响。 后来,通过阿里云解决方案架构师建议的方案,将 大数据集群迁移到资源较充足的可用区以及配置 弹性伸缩多规格 ECS 选型增加交付成功率等方 法,目前已阶段性的解决因资源不足导致弹性扩 容失败的问题,但该方案在 Spot 计算资源不足 时,启用大量按量收费算力,带来了较高的成本, 并且抢占式实例和按量付费实例都不保证资源 100%交付,还是存在交付失败的可能性,特别是 在双 11 期间由于其他客户的资源需求上升带来 的资源挤兑客观上存在,就进一步增加了弹性扩 容失败的风险,从而影响业务正常运行。
抢占式实例的适用场景 抢占式实例适用无状态的应用场景,例如可弹性伸缩的 Web站点服务、图像渲染、大数据分析和大规模并行计算等。应用程序的分布度、可扩展性和容错能力越高,越 适合使用抢占式实例节省成本和提升吞吐量。有状态应用不宜使用抢占式实例,例如 数据库。因为竞价失败等原因导致抢占式实例被释放时,应用...
来自: 最佳实践 | 相关产品:云服务器ECS,负载均衡 SLB,弹性公网IP,容器服务 ACK,日志服务(SLS),NAT网关,函数计算,E-MapReduce,云数据库PolarDB,弹性容器实例 ECI,存储容量单位包,预留实例券,Hologres
< 1 2 3 4 5 >
共有5页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用