大数据workshop
大数据workshop
大数据workshop
在 HoloWeb控制台,选择 SQL编辑器,然后点击新增 SQL窗口,选择对应的 库,编辑填写相应的 DDL建表语句(默认数据表的属性是列存模式,列存模式更 适合 OLAP数据分析,数据表的行存模式更适合高 QPS点查询场景)。1.首先创建 ads_province_info表。文档版本:20210628(发布日期)42 阿里云最佳实践大数据 WorkShop ...
来自: 最佳实践 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
金融专属大数据workshop
金融专属大数据workshop
实践目标 学习搭建一个实时数据仓库,掌握数据采集、存储、计算、输出、展示等整个业务流程。 整个实时数据仓库系统全部基于阿里云产品进行架构搭建,用户可以掌握并学会运用各个服务组件及各个组件之间如何联动。 理解阿里云原生实时离线一体数仓解决方案架构以及掌握交付落地的实践使用方法。 前置知识要求 熟练掌握SQL语法 对大数据体系系统知识有一定的了解
在HoloWeb控制台,选择SQL编辑器,然后点击新增SQL窗口,选择对应的 库,编辑填写相应的DDL建表语句(默认数据表的属性是列存模式,列存模式更 适合OLAP数据分析,数据表的行存模式更适合高QPS点查询场景)。1.首先创建ads_province_info表。文档版本:20210803(发布日期)39阿里云最佳实践金融大数据WorkShop 最佳...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
云原生多模数据库Lindorm
云原生多模数据库Lindorm提供各规模、多模型的云原生数据库服务。可兼容HBase/Cassandra、OpenTSDB、Solr、SQL、HDFS等多种开源标准接口。支持海量数据的低成本存储处理和弹性按需付费,是互联网、IoT、车联网、广告、社交等场景首选数据库,也是为阿里核心业务提供支撑的数据库之一。
海量采测点数据高通量、高并发、低延迟写入,库内高效数据统计、计算、处理等分析任务执行.海量广告营销数据的实时存储.使用Lindorm存储广告营销中的画像特征、用户事件、点击流、广告物料等重要数据,提供高并发、低延迟、灵活可靠的能力,帮助您构建高效的实时竞价、广告定位投放等系统服务.千万并发下,仍可保持单个...
来自: 云产品
云数据库产品总览(瑶池)
阿里云提供完善的数据库解决方案,多款数据库产品,满足99%的业务场景,荣获Gartner、信通院等国内外多项认证。轻松满足高可靠、高可用性、高性能等数据库需求;运维工作量大幅减少,让企业一站式享受数据上云及分布式架构的技术红利!
同时基于AnalyticDB,支撑了十亿寄递数据和客户关系数据的多维分析.通过引入OLTP和OLAP型数据库,将在线数据与离线分析逻辑拆到两种数据库中,不再完全依赖Oracle.云原生数据库 PolarDB 分布式版方案极大地提升了公交运营效率和服务水平,助力启迪公交打造北京公交智能化业务系统,为首都人民提供了更加绿色和便利的公交...
来自: 云产品
CDH迁移升级CDP最佳实践
CDH迁移升级CDP最佳实践
当前 CDH 免费版停止下载,终止服务,针对需要企业版服务能力并且CDH 升级过程对业务影响较小的客户,通过安装新的 CDP 集群,将现有数据拷贝至新集群,然后将新集群切换为生产集群,升级过程没有数据丢失风险,停机时间较短,适合大部分互联网客户升级使用。
构造 Impala测试数据 由于 Impala不支持 date类型数据,所以讲原始 date数据转化为 varchar类型的 。Alter table call_center change column cc_rec_start_date cc_rec_start_date varchar(10);Alter table call_center change column cc_rec_end_date cc_rec_end_date varchar(10);Alter table date_dim change column...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云速搭
自建Hadoop迁移到阿里云EMR
自建Hadoop迁移到阿里云EMR
场景描述 场景1:自建Hadoop集群数据(HDFS)迁移到 阿里云EMR集群的HDFS文件系统; 场景2:自建Hadoop集群数据(HDFS)迁移到 计算存储分离架构的阿里云EMR集群,以OSS 和JindoFS作为EMR集群的后端存储。 解决的问题 客户自建Hadoop迁移到阿里云EMR集群的 技术方案; 基于IPSecVPN隧道构建安全和低成本数据 传输链路 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
VPN网关 VPN网关是一款基于 Internet的网络连接服务,通过加密通道的方式实现企业 中心、企业办公网络或 Internet终端与阿里云专有网络(VPC)安全可靠的连 接。VPN 网关提供 IPSec-VPN 连接和 SSL-VPN 连接。详情请查看 https://www.aliyun.com/product/vpn IPSec VPN 基于路由的 IPSec-VPN,不仅可以更方便的配置和...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
自建Hadoop迁移MaxCompute
自建Hadoop迁移MaxCompute
场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
将表 datahub_dataconnector_apache_logs 灌 入 odps_apache_logs 本实践方案中 Hive数据仓库中的原始表 apache_logs有一个分区字段 ds(日期值),每天生成一个分区。在使用 MMA工具迁移到 MaxCompute表 odps_apache_logs的 过程中,保留了该分区字段,因此在 MaxCompute上可以看到该表有一个分区字段:Datahub ...
来自: 最佳实践 | 相关产品:云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭
混合云自有K8S弹性使用ECI
混合云自有K8S弹性使用ECI
场景描述 本文介绍线下IDC与云端通过专线构建混合云架构,自有K8S利用虚拟节点弹性调用ECI承载业务高峰期资源需求的最佳实践。 解决问题 混合云环境下,自有K8S集群注册至ACK,实现云端纳管。纳管K8S集群部署Virtual Node,使集群具备ECI资源调度能力。在以上环境中部署Web及离线作业应用,并使用ECI资源作为弹性资源池满足业务波峰需求。 产品列表 云服务器ECS 云架构设计工具CADT 专有网络VPC 访问控制RAM 云企业网CEN 弹性容器实例ECI Nat网关NAT 容器镜像服务ACR 负载均衡SLB 容器服务Kubernetes版ACK 弹性公网IPEIP
注:实际当扩展 WordPress Pod实例时,需要使用统一的持久化存储来保证 一致性。本例中重点介绍 ECI的资源使用,故此处简化略去。步骤6 完成以上修改后,在 namespace blog下创建 WordPress应用。文档版本:20210520 49 混合云 IDC自有 K8S弹性使用 ECI ECI使用示例 步骤7 创建完成后,点击返回箭头确认应用状态。文档...
来自: 最佳实践 | 相关产品:块存储,专有网络 VPC,云服务器ECS,负载均衡 SLB,容器服务 ACK,访问控制,NAT网关,云企业网,容器镜像服务 ACR,弹性容器实例 ECI
MRACC加速倚天ECS实例Flink集群性能
MRACC加速倚天ECS实例Flink集群性能
希望了解Flink集群on倚天的部署架构。 通过神龙大数据加速引擎 Mracc 提升Flink集群性能。 希望实测了解倚天ECS实例运行Flink集群的性能 架构设计:利用阿里云官方架构设计模版,在此基础上二次定制(调整规格、资源数量、配置调整)。 快速完成PoC和生产环境的设计和部署
cd/opt/fastmr/nexmark nohup sh test.sh&步骤2 通过日志文件查看压测脚本执行情况 tail-f/opt/fastmr/nexmark/nexmark.out 文档版本:20230801 18 MRACC加速倚天 ECS实例 Spark集群性能 部署基础环境 步骤3 通过日志文件查看压测数据生成进度 测试一共会跑 22个查询,大概需要 50分钟左右,若日志显示了 q22的Nexmark结 果...
来自: 最佳实践 | 相关产品:云服务器ECS,云速搭
中小企业CDH集群上云升级CDP解决方案
中小企业 CDH 集群上云升级 CDP 解决方案,助力原 CDH/HDP 的用户快捷升级到企业级 CDP 环境,并链接阿里云相关产品服务。同时,基于阿里云便捷的基础网络设施和云网络服务,能够快速构建云上云下互联的混合云架构。
基于 Apache Kafka,构建高性能、高可用的流式消息平台,并集合流式场景的其他工具如 NiFi、Flink、Spark Streaming 等,统一通过 CDP 开展相关工作.准实时分析需要对变化中的数据提供快速分析能力,包括结合历史数据和实时流数据进行汇总分析、预测和明细查询。在 CDP 平台上通过使用 Kudu+Impala 的架构来提供准实时数据...
来自: 解决方案
云消息队列 RocketMQ 版
云消息队列 RocketMQ 版是基于 Apache RocketMQ 构建的分布式消息中间件,广泛用于异步解耦、削峰填谷等场景。可支撑千万级并发、万亿级数据洪峰,更稳定,更安全。
可对接 Storm/Spark 实时流计算引擎,亦可对接 Hadoop/ODPS 等离线数据仓库系统;通过消息实时推送的方式,让数据实时得以更新;大量并发访问商品数据库,减少页面响应时间.满足大规模访问需求.大促众多分会场,多缓存的架构设计,满足对商品变更的大量访问需求;天猫双11大促,各个分会场琳琅满目的商品需要实时感知价格...
来自: 云产品
大数据系统基准性能测试最佳实践
大数据系统基准性能测试最佳实践
本方案适用于在阿里云上进行大数据基准性能测试的场景,包括 Teragen和Terasort测试,TestDFSIO测试。本文采用CADT工具结合阿里云的E-MapReduce服务快速构建测试集群,并提供了Teragen和Terasort测试,TestDFSIO测试的测试脚本,便于迅速开展测试。
EMR构建于云服务器 ECS上,基于开源的 Apache Hadoop和 Apache Spark,让您可以方便地使用 Hadoop和 Spark生态系统中的其他周边系统分析和 处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿 里云 OSS和 RDS等)进行数据传输。EMR的 SmartData组件是 EMR Jindo引 擎的主要存储部分,为 EMR各个计算...
来自: 最佳实践 | 相关产品:专有网络 VPC,E-MapReduce,云速搭CADT
自建Hive数仓迁移到阿里云EMR
自建Hive数仓迁移到阿里云EMR
场景描述 客户在IDC或者公有云环境自建Hadoop集群构 建数据仓库和分析系统,购买阿里云EMR集群之 后,涉及到将数据仓库和Hive元数据的数据库迁 移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本),涉及到 数据订正更新步骤。 解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
步骤2 部署完成后,重启 Hive MetaStore和 HiveServer2 步骤3 由于在创建 EMR集群时我们指定了 RDS for MySQL实例的数据库作为 Hive的元 库,但是此时元数据库还未创建,因此在 EMR控制台可以看到 Hive MetaStore服 务异常停止。文档版本:20210721 25 自建Hive数据仓库跨版本迁移到阿里云 EMR 创建 EMR集群 通过查看 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
中小企业自建Hadoop集群上云解决方案
中小企业自建 Hadoop 集群上云解决方案,助力自建 Hadoop 用户快速构建云上半托管开源大数据平台,在保持原组件使用习惯延续的同时,充分利用云上服务特点,更加便捷地迭代企业大数据平台架构,聚焦业务价值开发。
提供高性能、稳定版本 Hadoop、Spark、Hive、Flink、Kafka、Hbase、Presto、Impala、Hudi、ClickHouse 等开源大数据组件,可根据场景灵活搭配使用。采用 JindoFS+OSS,在保证数据可靠性的基础上,性能大幅提升.便捷运维,成本节约.分钟级创建集群,支持对集群、节点和服务进行监控和运维操作,大幅提升运维工作效率,让数据...
来自: 解决方案
EMR HBase on OSS存算分离集群快速恢复
EMR HBase on OSS存算分离集群快速恢复
OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。
基于统一的元数据管理能力,在完全兼容 HDFS文件系统接口的同时,提供充分的 POSIX能力支持,能更好地 满足大数据和 AI 等 领 域 的 湖 计 算 场 景。详见:https://help.aliyun.com/document_detail/405089.html EMR:开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,E-MapReduce,云速搭CADT
MaxCompute湖仓一体方案
MaxCompute湖仓一体方案
场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 方案优势 1.业务无侵入性:现有业务无需改造。 2.性能优化:MaxCompute在SQL上做 了大量优化与能力沉淀,可提高SQL 运行性能,降低计算成本。 3.灵活管理:元数据实时同步,无需额外 管理数据同步任务。 4.资源弹性:利用MaxCompute计算池 弹性进行海量数据计算。 解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。 产品列表 专有网络VPC 云服务器ECS 访问控制RAM 运维编排OOS MaxCompute(原ODPS) 云企业网CEN
提供用户在云上 使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等 场 景 下 的 大 解 决 方 案。更 多 信 息,请 参 见:https://www.aliyun.com/product/emapreduce 文档版本:20220402 III MaxCompute湖仓一体方案 目录 目录 文档版本信息.I 法律声明.II 产品介绍.III 目录.IV 最佳实践...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云企业网,E-MapReduce,大数据计算服务 MaxCompute,运维编排,云速搭
多账号下企业分账
多账号下企业分账
场景描述 财务分账,是根据企业的成本中心,将云上资源的成本划分到给各个项目组/业务部门;助力企业快速梳理云上成本结构,搭建复杂组织架构下的成本关系,便捷地进行财务和云上成本的管理。 大型企业或集团公司,由于组织架构复杂,业务复杂等原因,通常拥有多个阿里云账号来管理规模庞大的云上资源。针对云上资源,如何建立有效的分账方案,是财务关注的重要问题。 解决问题 解决CIO/CTO最关心的云上IT治理,IT成本核算等问题。 弄清楚企业内各部门成本及云上IT成本结构。 让CIO/CTO准确地掌握云上资源成本情况,清楚业务与成本的关系。 让采购/运维轻松搞定每月的IT成本汇报。
多账号下企业分账 最佳实践 业务架构 场景描述 解决问题 财务分账,是根据企业的成本中心,将云上资源的成 解决 CIO/...cloud_essd 系统盘大小:120 数据盘配置:cloud_essd 数据盘大小:80 元数据选择 集群内置 MySQL-登录密码*-资源标识 project:project-1 为两个集群分别设置标签 project:project-2 文档版本:20210128 37
来自: 最佳实践 | 相关产品:资源管理,配置审计,云速搭CADT
EMR集群安全认证和授权管理 
EMR集群安全认证和授权管理 
场景描述 阿里云EMR服务Kafka和Hadoop安全集群使 用Kerberos进行用户安全认证,通过Apache Ranger服务进行访问授权管理。本最佳实践中以 Apache Web服务器日志为例,演示基于Kafka 和Hadoop的生态组件构建日志大数据仓库,并 介绍在整个数据流程中,如何通过Kerberos和 Ranger进行认证和授权的相关配置。 解决问题 1.创建基于Kerberos的EMR Kafka和 Hadoop集群。 2.EMR服务的Kafka和Hadoop集群中 Kerberos相关配置和使用方法。 3.Ranger中添加Kafka、HDFS、Hive和 Hbase服务和访问策略。 4.Flume中和Kafka、HDFS相关的安全配 置。 产品列表:E-MapReduce、专有网络VPC、云服务器ECS、云数据库RDS版
提供 用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机 器 学 习 等 场 景 下 的 大 解 决 方 案。详 情 请 查 看 www.aliyun.com/product/emapreduce Kerberos:Kerberos是一种网络身份验证协议,它旨在通过使用密钥加密为客户 端/服务器应用程序提供强身份验证。它提供了网络上的身份...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,E-MapReduce
微服务中心解决方案
注册中心和配置中心是 Dubbo 和 Spring Cloud 微服务架构中的重要组件,往往采用 ZooKeeper/Nacos/Eureka/Apollo 等开源方案进行自建,但因其依赖复杂,往往给客户带来的较高的建设和运维成本,同时,在 Hbase、Spark或Kafka 等大数据的环境下,会依赖 ZooKeeper 进行分布式系统的协调,此时,基于云上的托管服务,可以极大的降低运维复杂度,并提高应用可用性。
阿里云微服务中心解决了依赖 ZK/Nacos/Eureka 等开源注册和配置方案进行自建过程中引起的依赖复杂、建设和运维成本高的问题,同时,降低了在 Hbase、Spark或Kafka 等大数据的环境下的分布式系统协调难题,旨在打造云上微服务运维体系的闭环.谢赟辉,靖鑫,也树.微服务中心解决方案.本方案基于多源异构大数据的汇聚共享和交通...
来自: 解决方案
< 1 2 3 4 ... 8 >
共有8页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用