中小企业CDH集群上云升级CDP解决方案
中小企业 CDH 集群上云升级 CDP 解决方案,助力原 CDH/HDP 的用户快捷升级到企业级 CDP 环境,并链接阿里云相关产品服务。同时,基于阿里云便捷的基础网络设施和云网络服务,能够快速构建云上云下互联的混合云架构。
准实时分析需要对变化中的数据提供快速分析能力,包括结合历史数据和实时流数据进行汇总分析、预测和明细查询。在 CDP 平台上通过使用 Kudu+Impala 的架构来提供准实时数据分析,这里只使用一套系统,不再需要后台定时的批处理任务来同步数据,可以轻松应对数据延迟和数据修复工作,新数据可以立即用于分析和业务运营.数据...
来自: 解决方案
云数据库 SelectDB 版
阿里云数据库 SelectDB 是现代化实时数据仓库 SelectDB 在阿里云上的全托管服务,内核基于业界领先的开源分析型数据库 Apache Doris 研发,由阿里云和飞轮科技联合打造。阿里云数据库 SelectDB 聚焦于满足企业级大数据分析需求,广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景,致力于为客户提供极致性能、简单易用的数据分析服务。
提供简单高效的内置 ETL 能力,可通过 SQL 轻松进行数据处理转换。轻量级表结构变更支持轻量的表结构变更,可秒级在线完成表结构变更。提供丰富的半结构化类型(如Map、Array、Json等)、高性能的宽表处理能力(高达千列),充分满足业务的灵活多样性。秒级交互式分析提供丰富的即席分析函数(如留存分析函数、画像分析...
来自: 云产品
中小企业自建Hadoop集群上云解决方案
中小企业自建 Hadoop 集群上云解决方案,助力自建 Hadoop 用户快速构建云上半托管开源大数据平台,在保持原组件使用习惯延续的同时,充分利用云上服务特点,更加便捷地迭代企业大数据平台架构,聚焦业务价值开发。
本方案构建了安全的数据传输网络,基于 Apache Flink 官方产品Ververica,提供可选的实时计算平台半托管服务,在兼容开源 Flink 的基础上提供商业增值能力,可广泛用于实时 ETL、数据库 CDC、实时风控、实时入仓(湖)、实时机器学习等流式数据处理场景.多样化 OLAP 查询分析.多样化 OLAP 查询分析.OLAP 查询面向各类业务...
来自: 解决方案
云原生大数据计算服务MaxCompute
阿里云云原生大数据计算服务MaxCompute是面向分析的企业级云数仓,作为一体化大数据智能计算平台ODPS的大规模批量计算引擎,MaxCompute以 Serverless 架构提供快速、全托管的在线数据仓库服务,使您经济高效的分析处理海量数据,进行敏捷的业务洞察。
伊的家使用阿里云MaxCompute 交互式分析(Hologres),快速构建大数据处理中台,帮助线上运营人员精准、实时分析海量的用户和交易数据,快速调整运营决策,支持上百并发的查询,成为支撑线上运营的数据利器.伊的家CTO 刘松森.构建健壮、可扩展、安全、高效交互的大数据平台.行 业:.1.原来至少3个小时完成的任务,...
来自: 云产品
SLS多云日志采集、处理及分析
SLS多云日志采集、<em>处理</em>及分析
场景描述 从第三方云平台或线下IDC服务器上采集 日志写入到阿里云日志服务,通过日志服务 进行数据分析,帮助提升运维、运营效率, 建立DT 时代海量日志处理能力。 针对未使用其他日志采集服务的用户,推荐 在他云或线下服务器安装logtail采集并使用 Https安全传输;针对已使用其他日志采集 工具并且已有日志服务需要继续服务的情 况,可以通过Log producer SDK写入日志 服务。 解决问题 1.第三方云平台或线下IDC客户需要使用 阿里云日志服务生态的用户。 2.第三方云平台或线下IDC服务器已有完 整日志采集、处理及分析的用户。 产品列表 E-MapReduce 专有网络VPC 云服务器ECS 日志服务LOG DCDN
文档版本:20211203 55 SLS多云日志采集、处理及分析 Spark数据处理 Log producer写入日志服务 9.Spark数据处理 Log producer写入日志服务 9.1.Git 作业源码 说明:本节直接使用已经编译好的作业,作业代码使用 spark消费 kafka数据,经过 数据处理使用 log producer写入日志服务。(开发者可以直接阅读源码或参考附录编 译...
来自: 最佳实践 | 相关产品:云服务器ECS,日志服务(SLS),NAT网关,E-MapReduce,全站加速 DCDN,云速搭CADT
自建Hadoop迁移到阿里云EMR
自建Hadoop迁移到阿里云EMR
场景描述 场景1:自建Hadoop集群数据(HDFS)迁移到 阿里云EMR集群的HDFS文件系统; 场景2:自建Hadoop集群数据(HDFS)迁移到 计算存储分离架构的阿里云EMR集群,以OSS 和JindoFS作为EMR集群的后端存储。 解决的问题 客户自建Hadoop迁移到阿里云EMR集群的 技术方案; 基于IPSecVPN隧道构建安全和低成本数据 传输链路 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
VPN网关 VPN网关是一款基于 Internet的网络连接服务,通过加密通道的方式实现企业 中心、企业办公网络或 Internet终端与阿里云专有网络(VPC)安全可靠的连 接。VPN 网关提供 IPSec-VPN 连接和 SSL-VPN 连接。详情请查看 https://www.aliyun.com/product/vpn IPSec VPN 基于路由的 IPSec-VPN,不仅可以更方便的配置和...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
大数据近实时数据投递MaxCompute
大数据近实时<em>数据</em>投递MaxCompute
本文介绍离线大数据场景使MaxCompute构建云 上近实时数仓,打通云下数据上云链路,解决数据复杂类型支持和动态分区问题,满足高级数据处理需求的最佳实践。 l混合云环境下,现有业务系统零改造,打通数据上云链路。 l使用UDF实现复杂数据类型转换和数据动态分区。 l使用DataWorks配置周期调度业务流程,数据自动入仓。 l借助MaxCompute优化计算引擎,实现降本增效。 产品列表 云服务器ECS 专有网络VPC 访问控制RAM 数据总线DataHub E-MapReduceEMR DataWorks 大数据计算服务MaxCompute
名词解释 云服务器 ECS:Elastic Compute Service,简称 ECS,是一种简单高效、 能力可弹性伸缩的计算服务。详见:https://www.aliyun.com/product/ecs 专有网络 VPC:Virtual Private Cloud,简称 VPC,是基于阿里云创建的自定义 私有网络,不同的专有网络之间二层逻辑隔离。您可以在自己创建的专有网络 内创建和管理...
来自: 最佳实践 | 相关产品:块存储,专有网络 VPC,云服务器ECS,访问控制,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,数据总线,云速搭CADT
云原生数据仓库AnalyticDB MySQL数据仓库
阿里云云原生数据仓库AnalyticDB MySQL版(简称AnalyticDB)是融合数据库、大数据技术于一体的云原生企业级数据仓库平台。云原生数据仓库AnalyticDB MySQL版支持数据实时写入和同步更新、实时计算和实时服务,可用于构建企业级报表系统、数据仓库和数据服务引擎。
查询速度,支持对海量日志数据和业务进行即时的复杂关联计算,提高营销效果反馈及时性,快速调整投放策略.营销效果实时反馈.支持多业务数据源,结构化非结构化数据的实时同步.实时多源数据同步.云服务器ECS.云数据库RDS MySQL版.数据传输DTS.推荐搭配产品.广告:投放效果实时监控.业务精准营销,效果及时反馈.该场景要求...
来自: 云产品
云数据库MongoDB版
阿里云云数据库MongoDB版是完全兼容MongoDB协议、高度兼容DynamoDB协议的在线文档型数据库服务。支持单节点、双节点、副本集和分片集群四种部署架构,能够满足不同的业务场景需要。
数据处理无缝对接.MongoDB在线数据实时写入后端数据库,再由专用计算引擎进行数据计算分析,分析结果再写回源数据库,以便业务快速访问计算结果,高效解决大数据业务场景海量数据复杂计算的难题.可进行数据库源数据访问.对大数据进行计算分析.异构数据库产品之间的数据流动.云数据库MongoDB.云原生数据湖分析DLA.35A_行业...
来自: 云产品
表格存储Tablestore
表格存储Tablestore是阿里云自研的面向海量结构化数据存储的Serverless分布式数据库,它可提供低成本、高性能的存储方案,同时也可提供稳定与极致的数据服务。
搭配丰富的数据上下游生态,数据能够通过配置方式轻松流入,能够低门槛快速搭建与使用数据.Z字形图文-物联网存储.通用icon文字列表.弹性支持单表PB级存储,自动扩展服务能力,享受免运维、即开即用的使用体验。支持多级存储介质,配合冷热自动分层最大化优化存储成本.针对场景化优化提供多种数据模型,包括宽行模型、时序...
来自: 云产品
MaxCompute湖仓一体方案
MaxCompute湖仓一体方案
场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 方案优势 1.业务无侵入性:现有业务无需改造。 2.性能优化:MaxCompute在SQL上做 了大量优化与能力沉淀,可提高SQL 运行性能,降低计算成本。 3.灵活管理:元数据实时同步,无需额外 管理数据同步任务。 4.资源弹性:利用MaxCompute计算池 弹性进行海量数据计算。 解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。 产品列表 专有网络VPC 云服务器ECS 访问控制RAM 运维编排OOS MaxCompute(原ODPS) 云企业网CEN
3.减少跨平台数据处理的存储冗余。最佳实践频道 阿里云最佳实践分享群 云服务器 ECS(产品名称)文档模板(手册名称)/文档版本信息 阿里云 MaxCompute湖仓一体方案 最佳实践 文档版本:20220402 文档版本:20150122(发布日期)II MaxCompute湖仓一体方案 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云企业网,E-MapReduce,大数据计算服务 MaxCompute,运维编排,云速搭
湖仓一体架构EMR元数据迁移DLF
湖仓一体架构EMR元<em>数据</em>迁移DLF
通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF,通过统一的元数据管理,多种数据源入湖,搭建高效的数据湖解决方案。
湖仓一体架构 EMR元数据迁移 DLF最佳实践 业务架构 场景描述 解决的问题 通过 EMR+DLF数据湖方案,可以为企业提供数据 EMR元数据迁移至 DLF 湖内的统一的元数据管理,统一的权限管理,支持多 元数据迁移验证 源数据入湖以及一站式数据探索的能力。本方案支 数据一致性校验 持已有 EMR集群元数据库使用 RDS或内置 MySQL ...
来自: 最佳实践 | 相关产品:E-MapReduce,数据湖构建
自建Hive数仓迁移到阿里云EMR
自建Hive数仓迁移到阿里云EMR
场景描述 客户在IDC或者公有云环境自建Hadoop集群构 建数据仓库和分析系统,购买阿里云EMR集群之 后,涉及到将数据仓库和Hive元数据的数据库迁 移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本),涉及到 数据订正更新步骤。 解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
自建 Hive数据仓库跨版本迁移到阿里云 EMR 场景描述 解决的问题 客户在IDC或者公有云环境自建Hadoop集群构建 Hive数据仓库的数据迁移方案 数据仓库和分析系统,购买阿里云 EMR集群之后,Hive元数据库的迁移方案 涉及到将数据仓库和Hive元数据的数据库迁移上 Hive跨版本迁移后的数据订正 云。目前主流 Hive数据仓库迁移场景...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
EMR本地盘实例大规模数据集测试
场景描述 阿里云为了满足大数据场景下的存储需求,在云 上推出了本地盘D1机型,这个系列提供了本地 盘而非云盘作为存储,提高了磁盘的吞吐能力, 发挥Hadoop的就近计算优势。阿里云EMR 产品针对本地盘机型,推出了一整套的自动化运 维方案,帮助用户方便可靠地使用本地盘机型, 不需要关注整个运维过程同时数据的高可靠和 服务的高可用。 解决问题 1.云盘多份冗余数据导致成本高 2.磁盘吞吐量不高 3.节点的高可靠分布问题 4.本地盘与节点的故障监控问题 5.数据迁移时自动决策问题 6.自动故障节点迁移与数据平衡问题 产品列表 EMR(E-MapReduce) 本地盘 VPC
一般 进行 PT(Power Test,功耗测试)就可以衡量集群大数据处理性能,因此本实践也选用 pt测试,即一个工作流执行 99个 TPC-DS SQL查询任务 Hive-testbench 是 GitHub 上的一个开源项目,基于 TPC-DS 进行封装利用 MapReduce的方式快速生产 Hive基准测试数据,可以用于进行大数据集群性能测试。关于 hive-testbech 的更多...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce
大数据系统基准性能测试最佳实践
大数据系统基准性能测试最佳实践
本方案适用于在阿里云上进行大数据基准性能测试的场景,包括 Teragen和Terasort测试,TestDFSIO测试。本文采用CADT工具结合阿里云的E-MapReduce服务快速构建测试集群,并提供了Teragen和Terasort测试,TestDFSIO测试的测试脚本,便于迅速开展测试。
应用范围 使用阿里云 E-MapReduce服务进行基准性能测试 名词解释 E-MapReduce:(简称 EMR),是运行在阿里云平台上的一种大数据处理的系统 解决方案。EMR构建于云服务器 ECS上,基于开源的 Apache Hadoop和 Apache Spark,让您可以方便地使用 Hadoop和 Spark生态系统中的其他周边系统分析和 处理数据。EMR还可以与阿里云...
来自: 最佳实践 | 相关产品:专有网络 VPC,E-MapReduce,云速搭CADT
实时数仓Hologres
Hologres(原交互式分析)是一站式实时数据仓库引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议),支持PB级数据多维分析(OLAP)与自助分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),与MaxCompute、Flink、DataWorks深度融合,提供离在线一体化全栈数仓解决方案。
实时和离线整合成一套架构,共同使用一份数据,统一数据服务出口,数据处理时效性提升,减少架构冗余.互联网服务:数据中台和实时大屏.基于业务日志的实时大屏和数据中台.某互联网服务公司原先通过Greenplum、EMR离线架构来搭建实时数仓,但数据更新时效性差,无法实时掌握业务动态。为实现全场景的用户增长需求,采用Flink...
来自: 云产品
微服务引擎MSE
微服务引擎 MSE 面向业界注册配置中心、分布式协调、云原生网关、微服务治理和分布式任务调度等主流开源项目,提供商业版服务。
基于 Akka 架构的分布式任务调度平台(兼容开源 XXL-JOB/ElasticJob/K8s Job/Spring Schedule),支持 Cron 定时、一次性任务、任务编排、分布式数据处理,具有高可用、可视化、可运维、低延时等能力.支持秒级别调度、轻量级分布式计算,可以助力您完成准实时的大数据跑批.通过分布式架构、数据三备份、消息 At-least-once ...
来自: 云产品
云数据库ClickHouse
云数据库ClickHouse 是阿里云提供的分布式实时分析型列式数据库服务。具有高性能、开箱即用、企业特性支持。广泛应用于流量分析、广告营销分析、行为分析、人群划分、客户画像、敏捷BI、数据集市、网络监控、分布式服务和链路监控等业务场景。
查看数据库全部产品 云数据库 ClickHouse 云数据库 ClickHouse 版是全托管云原生 Serverless 实时...查看详情文档与工具快速开始 实例创建,白名单设置和数据导入 用户指南 集群变配扩容,数据查询,资源监控,慢SQL处理 开发指南 使用限制,引擎选择,资源队列 数据导入 MaxComputer,MySQL,OSS,SLS,Spark,Flink 数据导入
来自: 云产品
云消息队列 RocketMQ 版
云消息队列 RocketMQ 版是基于 Apache RocketMQ 构建的分布式消息中间件,广泛用于异步解耦、削峰填谷等场景。可支撑千万级并发、万亿级数据洪峰,更稳定,更安全。
数据可靠性 99.99999999%,同步双写、超三副本数据冗余与快速切换技术确保数据可靠;历年双 11 购物狂欢节零点千万级 TPS、万亿级数据洪峰,创造了全球最大的业务消息并发以及流转纪录(日志类消息除外);在始终保证高性能前提下,支持亿级消息堆积,不影响集群的正常服务,在削峰填谷(蓄洪)、微服务解耦的场景下尤为...
来自: 云产品
< 1 2 3 >
共有3页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用