云消息队列 Kafka 版
云消息队列 Kafka 版是阿里云基于Apache Kafka构建的大数据消息中间件,广泛用于日志收集和分析、数据处理等场景。可提供全托管服务,用户无需部署运维,更专业、更可靠、更安全。
近 10 年来,诸如:KV存储(HBase)、搜索(ElasticSearch)、流式处理(Storm/Spark Streaming/Samza)、时序数据库(OpenTSDB)等等专用系统应运而生,这些系统生而为了单一的目标,因为其简单性在商业硬件上构建分布式系统变得容易且性价比更高。通常,同一份数据集需要被注入到多个专用系统内。例如,当应用日志用于...
来自: 云产品
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
场景描述 客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。 方案优势 1. 全托管Spark集群免运维,节省人力成本。 2. Databricks数据洞察与阿里云其他产品(OSS、RDS、MaxCompute、EMR)进行深度整合,支持以这些产品为数据源的输入和输出。 3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。 解决问题 1. Hive数仓数据迁移OSS方案。 2. Hive元数据库迁移阿里云RDS方案。 3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。
将订正后的转储文件导入到 RDS for MySQL实例中中,我们在 Databricks 洞察集群的 Hive元数据库中导入了客户 Hive元数据库的转储文件,创建了一系列 的数据表并插入了数据。在本实践方案中,Hive版本从客户 IDC的 1.2.2变更为阿里云 Databrickes数据洞察 集群的 2.3.5,但是 Databricks 数据洞察集群 Hive 元数据库中的...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储HDFS,spark
大数据workshop
大数据workshop
大数据workshop
在 HoloWeb控制台,选择 SQL编辑器,然后点击新增 SQL窗口,选择对应的 据库,编辑填写相应的 DDL建表语句(默认数据表的属性是列存模式,列存模式更 适合 OLAP数据分析,数据表的行存模式更适合高 QPS点查询场景)。1.首先创建 ads_province_info表。文档版本:20210628(发布日期)42 阿里云最佳实践大数据 WorkShop ...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
金融专属大数据workshop
金融专属大数据workshop
实践目标 学习搭建一个实时数据仓库,掌握数据采集、存储、计算、输出、展示等整个业务流程。 整个实时数据仓库系统全部基于阿里云产品进行架构搭建,用户可以掌握并学会运用各个服务组件及各个组件之间如何联动。 理解阿里云原生实时离线一体数仓解决方案架构以及掌握交付落地的实践使用方法。 前置知识要求 熟练掌握SQL语法 对大数据体系系统知识有一定的了解
在HoloWeb控制台,选择SQL编辑器,然后点击新增SQL窗口,选择对应的 据库,编辑填写相应的DDL建表语句(默认数据表的属性是列存模式,列存模式更 适合OLAP数据分析,数据表的行存模式更适合高QPS点查询场景)。1.首先创建ads_province_info表。文档版本:20210803(发布日期)39阿里云最佳实践金融大数据WorkShop 最佳...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
湖仓一体架构EMR元数据迁移DLF
湖仓一体架构EMR元数据迁移DLF
通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF,通过统一的元数据管理,多种数据源入湖,搭建高效的数据湖解决方案。
说明:这个 case下由于我在 DLF里面创建了其他数据库,所以和 EMR集群的数据 不一致,实际是正常的。2.4.元数据服务切换到 DLF 步骤1 为了避免在迁移过程中元数据发生变化,建议在业务低峰期时先停止 HiveServer2和 Hive MetaStore,再进行切换(在正式开始迁移之前,建议先拿测试跑所有流程,没 文档版本:20220125 24 ...
来自: 最佳实践 | 相关产品:E-MapReduce,数据湖构建
云原生企业级数据湖解决方案
云原生企业级数据湖解决方案,数据湖解决方案,无缝对接多种计算分析平台,数据湖中的数据可以直接进行数据分析、处理。
OSS能支撑 EB 规模的数据湖,支持多种数据通道,全面覆盖日志、消息、数据库、HDFS 各种数据源•OSS 无缝对接EMR Hive、Spark、Presto、Impala 等大数据处理引擎,消除数据孤岛•阿里云 EMR 大数据专家级服务支持•阿里云 Data Lake Formation 提供数据湖元数据管理、数据湖加速等服务;EMR大数据专家级服务支持.构建全...
来自: 解决方案
云服务器 ECS
阿里云服务器ECS是一种处理能力可弹性伸缩的云主机虚拟服务器,它使服务器托管更安全稳定,可降低开发运维成本,支持包年包月、按量付费等模式,方便财务更好管理
相关产品云服务器ECS本产品专有网络 VPC弹性公网 IP负载均衡SLB云数据库RDS一键部署电商行业业务及数据库上云电商行业业务及数据库上云的常见架构,推荐使用通用型u1实例,提供充足的库存和算力保障降本增效将电商业务和数据库上云,减少了硬件投入和运维成本;同时ECS的弹性伸缩和自动化运维能力,可以根据业务需求自动...
来自: 云产品
自建Hive数仓迁移到阿里云EMR
自建Hive数仓迁移到阿里云EMR
场景描述 客户在IDC或者公有云环境自建Hadoop集群构 建数据仓库和分析系统,购买阿里云EMR集群之 后,涉及到将数据仓库和Hive元数据的数据库迁 移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本),涉及到 数据订正更新步骤。 解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
步骤2 部署完成后,重启 Hive MetaStore和 HiveServer2 步骤3 由于在创建 EMR集群时我们指定了 RDS for MySQL实例的数据库作为 Hive的元 据库,但是此时元数据库还未创建,因此在 EMR控制台可以看到 Hive MetaStore服 务异常停止。文档版本:20210721 25 自建Hive数据仓库跨版本迁移到阿里云 EMR 创建 EMR集群 通过查看 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
基于Flink+ClickHouse构建实时游戏数据分析
基于Flink+ClickHouse构建实时游戏数据分析
在互联网、游戏行业中,常常需要对用户行为日志进行分析,通过数据挖掘,来更好地支持业务运营,比如用户轨迹,热力图,登录行为分析,实时业务大屏等。当业务数据量达到千亿规模时,常常导致分析不实时,平均响应时间长达10分钟,影响业务的正常运营和发展。 本实践介绍如何快速收集海量用户行为数据,实现秒级响应的实时用户行为分析,并通过实时流计算Flink/Blink、云数据库ClickHouse等技术进行深入挖掘和分析,得到用户特征和画像,实现个性化系统推荐服务。 通过云数据库ClickHouse替换原有Presto数仓,对比开源Presto性能提升20倍。 利用云数据库ClickHouse极致分析性能,千亿级数据分析从10分钟缩短到30秒。 云数据库ClickHouse批量写入效率高,支持业务高峰每小时230亿的用户数据写入。 云数据库ClickHouse开箱即用,免运维,全球多Region部署,快速支持新游戏开服。 Flink+ClickHouse+QuickBI
关键技术选型 1.1.ClickHouse vs Presto 面对海量的数据,我们如何进行数据库的选项,这里对比了开源的两种常见分析性 据库。ClickHouse对数据采用有序存储的方式,其核心思想是充分利用了磁盘批量顺序读写 的性能要远远高于随机读写的特征,并且结合 LSM tree的设计进一步进行优化,使得 写性能达到最优(可达到 200MB/S...
来自: 最佳实践 | 相关产品:云服务器ECS,弹性公网IP,实时计算,Quick BI,消息队列 Kafka 版,云数据库 ClickHouse
CDH迁移升级CDP最佳实践
CDH迁移升级CDP最佳实践
当前 CDH 免费版停止下载,终止服务,针对需要企业版服务能力并且CDH 升级过程对业务影响较小的客户,通过安装新的 CDP 集群,将现有数据拷贝至新集群,然后将新集群切换为生产集群,升级过程没有数据丢失风险,停机时间较短,适合大部分互联网客户升级使用。
除了 Navigator能够集成的那些数据源之外,Atlas还支持 NiFi和 Kafka元 。业务术语表:Atlas提供了一个 Web界面,用于创建和管理业务术语表,这些术 语可以帮助组织通过标准化来识别和使用数据。Data Profiling:“Data Catalog”提供自动数据标记功能,用于列出常见的数据类 型,也允许用户通过正则表达式标记其他数据...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云速搭
自建Hadoop迁移MaxCompute
自建Hadoop迁移MaxCompute
场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
VPN网关 VPN网关是一款基于 Internet的网络连接服务,通过加密通道的方式实现企业 中心、企业办公网络或 Internet终端与阿里云专有网络(VPC)安全可靠的连 接。VPN 网关提供 IPSec-VPN 连接和 SSL-VPN 连接。详情请查看 https://www.aliyun.com/product/vpn IPSec VPN 基于路由的 IPSec-VPN,不仅可以更方便的配置和...
来自: 最佳实践 | 相关产品:云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭
数据湖构建 Data Lake Formation
数据湖构建服务是阿里云上数据湖架构中的核心部分,助力用户构建数据湖系统。支持多数据源实时入湖,实现湖上元数据统一管理,提供企业级权限控制,无缝对接多种计算引擎,打破孤岛,洞察业务价值
企业级数据权限管理 用户可以针对、表、字段分别设置权限.支持上游多种计算引擎 轻松构建全链路数据湖服务.兼容Hive Metastore 提供多语言Open API,易集成.独有JindoFS数据加速功能 提供高性能数据湖分析加速能力.谢赟辉,靖鑫,也树.开源生态构建数据湖.开源生态构建数据湖.数据湖构建支持自动采集发现多引擎元数据,可...
来自: 云产品
云消息队列 RocketMQ 版
云消息队列 RocketMQ 版是基于 Apache RocketMQ 构建的分布式消息中间件,广泛用于异步解耦、削峰填谷等场景。可支撑千万级并发、万亿级数据洪峰,更稳定,更安全。
常规数据源 更丰富数据源 本地数据库(局域网)本地部署版用户可以连接本地数据库进行数据分析。查看更多组件 常规图表组件 添加地图组件 ECharts组件.API 请求资源包,更优惠.资源包,更优惠.专享实例,更稳定,更可靠,专家保驾护航.唐家哲,靖鑫,也树.旧商品卡片,建议使用「轻量商品卡片」.消息队列 RabbitMQ 版.完全...
来自: 云产品
电商网站数据埋点及分析
电商网站数据埋点及分析
场景描述 数据埋点是数据产品经理、数据运营以及数据分 析师,基于业务需求(例如:CPC点击付费广 告中统计每一个广告位的点击次数),产品需求 (例如:推荐系统中推荐商品的曝光次数以及点 击的人数)对用户行为的每一个事件对应的位置 进行开发埋点,并通过SDK上报埋点的数据结 果,记录数据汇总后进行分析,推动产品优化或 指导运营。 解决问题 1.电商网站广告位效果统计分析 2.电网网站推荐商品曝光、点击、购买等行为统 计分析 3.电商网站用户分布分析 4.电商网站页面热点图分析等 产品列表 日志服务SLS Dataworks 云服务器ECS 云数据库RDS版 负载均衡SLB 专有网络VPC
更多信息,请参见专有网络 VPC简介 https://www.aliyun.com/product/vpc 关系型数据库 RDS:Relational Database Service,简称 RDS,是一种稳定可靠、可弹性伸缩的在线数据库服务。RDS基于阿里云分布式文件系统和 SSD盘高性 能存储,支持 MySQL、SQL Server、PostgreSQL、PPAS和 MariaDB引擎,提 供了容灾、备份、恢复、...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,日志服务(SLS),DataWorks,云速搭CADT
大数据系统基准性能测试最佳实践
大数据系统基准性能测试最佳实践
本方案适用于在阿里云上进行大数据基准性能测试的场景,包括 Teragen和Terasort测试,TestDFSIO测试。本文采用CADT工具结合阿里云的E-MapReduce服务快速构建测试集群,并提供了Teragen和Terasort测试,TestDFSIO测试的测试脚本,便于迅速开展测试。
EMR构建于云服务器 ECS上,基于开源的 Apache Hadoop和 Apache Spark,让您可以方便地使用 Hadoop和 Spark生态系统中的其他周边系统分析和 处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿 里云 OSS和 RDS等)进行数据传输。EMR的 SmartData组件是 EMR Jindo引 擎的主要存储部分,为 EMR各个计算...
来自: 最佳实践 | 相关产品:专有网络 VPC,E-MapReduce,云速搭CADT
日志服务sls
日志服务(Log Service,简称Log)是针对实时数据一站式服务,在阿里集团经历大量大数据场景锤炼而成。无需开发就能快捷完成数据采集、消费、投递以及查询分析等功能,帮助提升运维、运营效率,建立DT时代海量日志处理能力。
企业级设计,多租户隔离,PB级容量设计,万企业用户选择.经过阿里经济体实践的AIOps能力,支持智能异常巡检与根因分析.具备丰富的可视化组件,可创建所见即所得的交互式分析大盘。同时支持实时可编排的告警功能,可随时随地掌握业务动向.丰富的可视化组件,可交互式分析报表,灵活告警与多样的通知能力.支持灵活监控规则...
来自: 云产品
EMR集群安全认证和授权管理 
EMR集群安全认证和授权管理 
场景描述 阿里云EMR服务Kafka和Hadoop安全集群使 用Kerberos进行用户安全认证,通过Apache Ranger服务进行访问授权管理。本最佳实践中以 Apache Web服务器日志为例,演示基于Kafka 和Hadoop的生态组件构建日志大数据仓库,并 介绍在整个数据流程中,如何通过Kerberos和 Ranger进行认证和授权的相关配置。 解决问题 1.创建基于Kerberos的EMR Kafka和 Hadoop集群。 2.EMR服务的Kafka和Hadoop集群中 Kerberos相关配置和使用方法。 3.Ranger中添加Kafka、HDFS、Hive和 Hbase服务和访问策略。 4.Flume中和Kafka、HDFS相关的安全配 置。 产品列表:E-MapReduce、专有网络VPC、云服务器ECS、云数据库RDS版
详见:https://web.mit.edu/kerberos/krb5-1.4/krb5-1.4.1/doc/krb5- admin/domain_realm.html [capaths]为了执行直接(非分层)跨领域身份验证,需要一个数据库来构造领域 之间的 身份 验 证路径,本节用于定 义该 据库。详见:https://web.mit.edu/kerberos/krb5-1.4/krb5-1.4.1/doc/krb5-admin/capaths.html 文档版本...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,E-MapReduce
MaxCompute湖仓一体方案
MaxCompute湖仓一体方案
场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 方案优势 1.业务无侵入性:现有业务无需改造。 2.性能优化:MaxCompute在SQL上做 了大量优化与能力沉淀,可提高SQL 运行性能,降低计算成本。 3.灵活管理:元数据实时同步,无需额外 管理数据同步任务。 4.资源弹性:利用MaxCompute计算池 弹性进行海量数据计算。 解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。 产品列表 专有网络VPC 云服务器ECS 访问控制RAM 运维编排OOS MaxCompute(原ODPS) 云企业网CEN
提供用户在云上 使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等 场 景 下 的 大 解 决 方 案。更 多 信 息,请 参 见:https://www.aliyun.com/product/emapreduce 文档版本:20220402 III MaxCompute湖仓一体方案 目录 目录 文档版本信息.I 法律声明.II 产品介绍.III 目录.IV 最佳实践...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云企业网,E-MapReduce,大数据计算服务 MaxCompute,运维编排,云速搭
< 1 2 3 4 ... 9 >
共有9页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用