自建Hive数仓迁移到阿里云EMR
自建Hive数仓迁移到阿里云EMR
场景描述 客户在IDC或者公有云环境自建Hadoop集群构 建数据仓库和分析系统,购买阿里云EMR集群之 后,涉及到将数据仓库和Hive元数据的数据库迁 移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本),涉及到 数据订正更新步骤。 解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
敬海、游士 审阅人 子、期会、游圣 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2019-12-20 云魁 子、期会、游圣 创建 V1.1 2019-12-25 筱晖 云魁 文档优化 V1.2 2020-01-09 云魁、子 增加附录 使用 CADT创 V1.3 2021-07-21 游士 建资源,更新部 分命令 文档版本:20210721 I 自建Hive数据仓库跨版本迁移...
来自: 最佳实践 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
这样的 背景之下,阿里云MaxCompute率先提出湖仓一体,为业 界和用户展现了种数据湖和数据仓湖互相补充,协同工 作的架构。这样的架构同时为用户提供了数据湖的灵活性 和数据仓库的诸多企业级特性,将用户使用大数据的总体 拥有成本进一步降低。方案优势 1.融合数据湖和数据仓库优势,灵活性和效率上找 到最佳平衡。2...
来自: 最佳实践 | 相关产品:对象存储 OSS,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,API网关,数据湖构建,云速搭
< 1 2 3 4 ... 21 >
共有21页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用