数仓分析工具_数仓分析工具相关产品

E-MapReduce

阿里云E-MapReduce(简称EMR)是阿里云云原生数据湖的核心计算引擎，全面支持Hadoop、Spark、HBase、Hive、Flink等大数据组件，为客户提供企业级开源大数据平台服务。通过有效弹性伸缩和数据分层存储机制，相较于传统HDFS固定集群方式，可节省50%以上的费用，同时支持创建抢占式实例，相比按量付费的购买方式，可节省50%~80%的费用。

为了减轻现有集群的压力，数禾使用阿里云EMR落地了适合数禾当前业务的数据湖，可以任意规模存储结构化和非结构化数据，运用不同类型的引擎进行分析，为业务发展提供了更好的决策依据.凯叔讲故事是中国知名的儿童内容教育品牌。刚开始凯叔讲故事使用第三方SAAS平台作为运营支撑，周期长、展示死板，个性化开发受到很大局限，...

来自：云产品

云原生数据库

PolarDB是阿里云自研的云原生数据库，在存储计算分离架构下，利用了软硬件结合的优势，为用户提供秒级弹性、高性能、海量存储、安全可靠的数据库服务。100%兼容MySQL和PostgreSQL生态，支持分布式扩展，高度兼容Oracle语法。

通过PolarDB多主集群、HTAP和透明冷热数据分层的方案，升级了SaaS数据库架构，解决了易仓跨境SaaS遇到的单实例海量表维护困难，租户资源调配和利用低效，数据量大存储成本高，数据库实例多数据集成成本高，店铺和商品多维统计分析性能差等一系列数据库痛点。不仅大幅提升数据库资源调配效率和利用率，而且实现了持续降本...

来自：云产品

自建Hive数仓迁移到阿里云EMR

场景描述客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统，购买阿里云EMR集群之后，涉及到将数据仓库和Hive元数据的数据库迁移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本），涉及到数据订正更新步骤。解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正产品列表 E-MapReduce，VPC，ECS，OSS，VPN网关。

底层数据迁移保存在 HDFS的数据可通过 Hadoop原生的 DistCp工具进行迁移，详细迁移方案请参考：《自建 Hadoop数据迁移到阿里云 EMR》最佳实践（https://www.aliyun.com/acts/best-practice/preview?id=162538）Hive元数据库迁移 Hive元数据信息通常保存在客户自建的 MySQL数据库中，可通过 mysqldump工具将数据库进行...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭

自建ElasticSearch迁移阿里云

场景描述以ElasticSearch为例，演示搭建模拟业务系统、 VPN网关和IPSecVPN隧道，介绍如何通过快照的方式，将ElasticSearch索引数据安全备份到阿里云OSS存储空间，以及介绍如何将备份在 OSS的快照仓库恢复到阿里云ElasticSearch实例，进一步达到ElasticSearch迁移上云的目的。解决的问题 自建ElasticSearch的云上/跨云备份需求。 自建ElasticSearch迁移到阿里云 ElasticSearch服务实例。产品列表 VPC，ECS，VPN网关，OSS，阿里云ElasticSearch，云速搭CADT

最后介绍如果将备份在 OSS的快照仓库恢复到阿里云 ElasticSearch实例目标客户：IDC/公有云客户对自建 ELK日志系统有云上、跨云备份、迁移到阿里云的 ElasticSearch的客户。技术架构本实践基于如下图所示的技术架构和主要流程。方案优势安全性基于 IPSec VPN/专线的方式进行数据安全传输低成本可以在 OSS Bucket设置...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,Elasticsearch,云速搭

云原生大数据计算服务MaxCompute

阿里云云原生大数据计算服务MaxCompute是面向分析的企业级云数仓，作为一体化大数据智能计算平台ODPS的大规模批量计算引擎，MaxCompute以 Serverless 架构提供快速、全托管的在线数据仓库服务，使您经济高效的分析处理海量数据，进行敏捷的业务洞察。

在一套数仓服务和用户接口下，实现湖与仓的关联分析.支持流式采集和近实时分析.支持流式数据实时写入并在数据仓库中开展分析；与云上主要流式服务深度集成，轻松接入各种来源流式数据；高性能秒级弹性并发查询，满足近实时分析场景需求.提供持续的SaaS化云上数据保护.为云上企业提供从基础设施、数据中心、网络、供电到平台...

来自：云产品

云原生数据仓库AnalyticDB PostgreSQL版

阿里云MPP架构的云原生数据仓库，可提供PB级海量数据在线/离线分析服务，是面向各行各业的有竞争力的数仓方案，真正做到“人人可用的数据分析服务”。

通过支持数仓建设和行为日志的数据采集，入库，清洗，分析和洞察的全链路，对游戏内重点行为事件进行提取并结构化用户信息，订单信息，运营推广等主要维度数据资产，通过关联分析，甄别关键链路并打造实时可视化运营工具；可整体构建完善的游戏运营平台.离线生成的海量日志加载并利用AnalyticDB的海量数据处理能力进行高效...

来自：云产品

数据可视化DataV

数据可视化DataV是阿里云一款数据可视化应用搭建工具，旨让更多的人看到数据可视化的魅力，帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用，满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。

生产全流程动态模拟.DataV在数据智能分析领域，通过AI智能分析与数据可视化的结合，为高频数据处理场景提供了一套简单易用的可视化分析工具，通过具象、生动、有趣的方式快速理解数据，让更多用户能便捷高效地利用数据可视化技术获得信息表达的优势和乐趣、获得全新数据互动体验；自动化数据洞察能力，利用智能AI推荐，帮助...

来自：云产品

阿里云最佳实践离线大数据workshop

本最佳实践，首先搭建一个简化的电商 demo 系统，然后为此 demo 系统构建一套离线大数据分析系统。实践目标 1. 学习搭建一个离线大数据分析系统，学习从数据采集到数据存储和业务分析的业务流程。 2. 整个离线大数据分析系统全部基于阿里云产品进行搭建，学习掌运用各个服务组件及各个组件之间如何联动。背景知识要求熟练掌握 SQL 语法对大数据体系系统知识有一定的了解

阿里云最佳实践离线大数据分析WorkShop 文档版本：20210802（发布日期）离线大数据分析WorkShop 文档版本信息文档版本信息文本信息属性内容文档名称离线大数据分析WorkShop 文档版本 V1.1 版本日期 2021-08-02 文档状态对外发布制作人敬海审阅人游士文档变更记录版本编号日期作者审核人说明 V1.0 2021-...

来自：最佳实践 | 相关产品：云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,日志服务（SLS）,大数据计算服务 MaxCompute,DataV数据可视化,数据总线,Quick BI,云速搭

实时数仓Hologres

Hologres（原交互式分析）是一站式实时数据仓库引擎，支持海量数据实时写入、实时更新、实时分析，支持标准SQL（兼容PostgreSQL协议），支持PB级数据多维分析（OLAP）与自助分析（Ad Hoc），支持高并发低延迟的在线数据服务（Serving），与MaxCompute、Flink、DataWorks深度融合，提供离在线一体化全栈数仓解决方案。

使用大规模并行处理架构，分布式处理SQL，高资源利用率，实现海量数据极速分析，分析服务一体化(Hybrid Serving/Analytical Processing,HSAP)最佳实践.多场景查询分析.高吞吐实时写入与更新.与Flink、Spark等计算框架原生集成，通过内置Connector，支持高通量数据实时写入与更新，支持源表、结果表、维度表多种场景，支持多...

来自：云产品

Databricks数据洞察

阿里云Databricks数据洞察是基于Apache Spark的全托管数据分析平台, 内核采用更高效、稳定的商业版Databricks Runtime和Delta Lake。可满足数据分析师、数据工程师和数据科学家在大数据场景下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等需求

支持Ad hoc查询，无缝对接多种BI分析工具.BI数据分析.支持机器学习.AI数据探索.流批一体数据仓库.流批一体数据仓库.简化机器学习生命周期，快速进行模型测试、实验、以及生产部署，并可视化结果.Spark SQL/Data Frame进行的分布式的数据预处理，EDA和特征工程.利于Spark ML、ML相关模块做特征处理，进行ML/DL模型分布式训练...

| 产品优势 | 应用场景 | 文档与工具

来自：云产品

云原生数据库 PolarDB PostgreSQL 版

阿里云自研数据库 PolarDB PostgreSQL，100%兼容 PostgreSQL，高度兼容 Oracle。

并行查询框架，在存储层将数据分片到不同的线程上，多个线程并行计算，将结果流水线汇总到总线程，最后总线程做些简单归并返回给用户，提高查询效率.最多可增加15个只读节点，通过控制台打开事务拆分功能，可把事务中的部分查询路由到只读节点，提升查询速度.HTAP混合负载，分析加速.海量数据，快速查询.关于Ganos.PolarDB...

来自：云产品

DTS数据同步集成MaxCompute数仓

场景描述本文Step by Step介绍了通过数据传输服务 DTS实现从云数据库RDS到MaxCompute的数据同步集成，并介绍如何使用DTS和 MaxCompute数仓联合实现数据ETL幂等和数据生命周期快速回溯。解决问题 1.实现大数据实时同步集成。 2.实现数据ETL幂等。 3.实现数据生命周期快速回溯。产品列表 MaxCompute 数据传输服务DTS DataWorks 云数据库RDS MySQL 版

DTS数据同步集成 MaxCompute数仓最佳实践业务架构场景描述本文 Step by Step 介绍了通过数据传输服务 DTS实现从云数据库 RDS到 MaxCompute的数据同步集成，并介绍如何使用 DTS 和 MaxCompute数仓联合实现数据 ETL幂等和数据生命周期快速回溯。解决问题 1.实现大数据实时同步集成。2.实现数据 ETL幂等。3.实现数据生命...

来自：最佳实践 | 相关产品：专有网络 VPC,云数据库RDS MySQL 版,数据传输,DataWorks,大数据计算服务 MaxCompute

在线教育流量洪峰

1. 通过Tair缓存的性能增强型解决高并发读的性能问题，通过持久内存型解决大并发写性能及数据可靠性问题。 2. PolarDB作为主数据库保存业务的交易数据，通过弹性能力和并发SQL解决性能瓶颈。 3. ADB+QuickBI提供的数据仓库方案通过分时弹性能力和实时业务展现能力。

Cloud Serving Benchmark(YCSB)是开源压测工具，本最佳实践将使用该工具压测 Tair数据库。YCSB的 github地址：https://github.com/brianfrankcooper/YCSB 步骤1 下载 YCSB源码。在测试 ecs（redis-client）上安装 git。yum-y install git git clone https://github.com/brianfrankcooper/YCSB.git 可以在本最佳实践 GIT...

来自：最佳实践 | 相关产品：云数据库 Redis 版,云数据库PolarDB,云原生数据仓库AnalyticDB My,Quick BI

大数据workshop

式分析产品，它与 MaxCompute无缝打通，支持数据实时写入，支持 PB级数据进行高并发、低延时的分析处理，兼容 PostgreSQL协议，可以使用您最熟悉的 BI 工具对海量数据进行自助的多维分析透视和业务探索，同时也支持超高 QPS 点查能力，满足数仓分析、服务一体化需求。详见：...

来自：最佳实践 | 相关产品：块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres

云Clickhouse冷热数据分层存储

基于云ClickHouse可以给电商、游戏、互联网以及其他行业提供高性能、高稳定性、低维护成本、高性价比的实时数据分析、精准营销、业务运营、业务分析、业务预警、业务营销、数仓加速等场景化方案，本实践会向客户提供数据库低维护成本、数据库链路构建、冷热分层存储、快熟分析等操作实践。解决问题 1. 维护成本低不用建设维护体系，稳定性高，数据倾斜自动均衡。 2. 完善的数据同步链路，可以平滑将业务库、大数据、日志服务的数据同步到Clickhouse，降低研发成本。 3. 平滑升级版本，业务中断小。冷热分层后透明读取，帮客户节约整体数据存储成本。

云 ClickHouse冷热数据分层存储最佳实践技术架构场景描述基于云 ClickHouse可以给电商、游戏、互联网以及其他行业提供高性能、高稳定性、低维护成本、高性价比的实时数据分析、精准营销、业务运营、业务分析、业务预警、业务营销、数仓加速等场景化方案，本实践会向客户提供数据库低维护成本、数据库链路构建、冷热...

来自：最佳实践 | 相关产品：云数据库RDS MySQL 版,数据传输,日志服务（SLS）,云数据库 ClickHouse

自建Hadoop迁移MaxCompute

场景描述客户基于ECS、IDC自建或在友商云平台自建了大数据集群，为了降低企业大数据计算平台的成本，提高大数据应用开发效率，更有效保障数据安全，把大数据集群的数据、作业、调度任务以及业务数据库整体迁移到MaxCompute和其他云产品。解决的问题自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务产品列表 MaxCompute，Dataworks、云数据库Hbase版、Datahub、VPC，ECS。

关于 HiveSQL修改为 ODPS SQL的过程，目前暂未提供自动化工具进行修改，但是根据经验大部分的 HiveSQL关键字、数据类型、自建函数，都可以在 ODPS SQL中找到，有少部分需要进行语法改造。关于 ODPS SQL 的详细介绍，请参考：MaxCompute>开发>SQL 及函数（https://help.aliyun.com/document_detail/27860.html）步骤2 创建...

来自：最佳实践 | 相关产品：云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭

数据集成 Data Integration

阿里云数据集成 Data Integration是跨异构数据、低成本、弹性扩展的数据采集同步平台，为DataX的商业版，支持ETL，支持50+数据源跨网络离线(全量/增量)同步。

随着金融行业发展，传统的离线数仓已经越来越难以满足业务的实时诉求，通过DataWorks构建实时数据仓库，推动行业大数据业务化运营转型.实时客户分析及精准推荐.实时营销活动分析及监控.构建客群标签画像，直观描述群体特征.减少重复营销成本，提高ROI.实时计算Flink版.数据总线DataHub.推荐搭配使用.为了快速数智化转型，...

来自：云产品

自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察

场景描述客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统，购买阿里云Databricks数据洞察集群之后，涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。方案优势 1. 全托管Spark集群免运维，节省人力成本。 2. Databricks数据洞察与阿里云其他产品（OSS、RDS、MaxCompute、EMR）进行深度整合，支持以这些产品为数据源的输入和输出。 3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。解决问题 1. Hive数仓数据迁移OSS方案。 2. Hive元数据库迁移阿里云RDS方案。 3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。

自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察业务架构场景描述客户在 IDC或者公有云环境自建 Hadoop集群构建数据仓库和分析系统，购买阿里云 Databricks数据洞察集群之后，涉及到数仓数 据和元数据的迁移以及 Hive版本的订正更新。方案优势 1.全托管 Spark集群免运维，节省人力成本。2.Databricks数据洞察...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储HDFS,spark

PolarDB 应对大并发复杂查询实践

MySQL架构是单线程处理SQL，遇到大并发复杂查询时，需要排队长时间等待，容易形成慢查询，影响业务。PolarDB并发查询能力可以很好解决此问题。

适用场景多条件查询、多表关联等容易形成慢查询的业务场景高并发，业务耦合性较强等无法快速拆分复杂查询业务到数仓的场景轻度分析场景，不希望使用较重的架构搭建数仓或大数据环境技术架构本实践方案基于如下图所示的技术架构和主要流程编写操作步骤：文档版本：20210412 1 PolarDB如何应对大并发复杂查询最佳实践...

来自：最佳实践 | 相关产品：云服务器ECS,云数据库PolarDB,云速搭CADT

大数据近实时数据投递MaxCompute

本文介绍离线大数据场景使MaxCompute构建云上近实时数仓，打通云下数据上云链路，解决数据复杂类型支持和动态分区问题，满足高级数据处理需求的最佳实践。 l混合云环境下，现有业务系统零改造，打通数据上云链路。 l使用UDF实现复杂数据类型转换和数据动态分区。 l使用DataWorks配置周期调度业务流程，数据自动入仓。 l借助MaxCompute优化计算引擎，实现降本增效。产品列表云服务器ECS 专有网络VPC 访问控制RAM 数据总线DataHub E-MapReduceEMR DataWorks 大数据计算服务MaxCompute

上近实时数仓，打通云下数据上云链路，解决数据复使用 UDF实现复杂数据类型转换和数据动态分杂类型支持和动态分区问题，满足高级数据处理需求区。的最佳实践。使用 DataWorks配置周期调度业务流程，数据自产品列表动入仓。借助 MaxCompute优化计算引擎，实现降本增云服务器 ECS 效。云消息队列 Kafka 最佳实践频道 ...

来自：最佳实践 | 相关产品：块存储,专有网络 VPC,云服务器ECS,访问控制,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,数据总线,云速搭CADT

数仓分析工具_相关内容

新品推荐