湖仓一体架构EMR元数据迁移DLF
湖仓一体架构EMR元数据迁移DLF
通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF,通过统一的元数据管理,多种数据源入湖,搭建高效的数据湖解决方案。
命令参考:文档版本:20220125 22 湖仓一体架构 EMR元数据迁移DLF 元数据迁移 create table validate_database_result(leftResult string,rightResult string,status boolean,errorMessage string,fixResult string)stored as parquet location 'oss:/testbp-106/validate/Databases';create table validate_table_result...
来自: 最佳实践 相关产品:E-MapReduce,数据湖构建
互联网、电商Elasticsearch搜索
互联网、电商Elasticsearch搜索
场景描述 每一个生活在互联网中的用户,每天都在经 历各种各样的“搜索”,查找电商网站商品、 信用卡账单、查电子发票、查附近的餐厅酒 店、查偶像、查交通等等。相对于传统的关 系型数据库,Elasticsearch只需要几毫秒的 时间,即可查询PB级数据并从中找到匹配 信息。利用Elasticsearch高可用性和易用 性,能够快速处理网站、APP丢给它的文本、 数字、日期、IP以及地理数据。 解决问题 1.电商网站商品、订单、物流等搜索 2.保险行业保单查询 3.互联网教育行业课程搜索 4.O2O行业地理位置搜索等 产品列表 云服务器ECS 专有网络VPC 负载均衡SLB 云数据库RDSMySQL版 Dataworks Elasticsearch 数据传输服务DTS
关系型数据库 RDS:Relational Database Service,简称 RDS,是一种稳定可靠、可弹性伸缩的在线数据库服务。RDS基于阿里云分布式文件系统和 SSD盘高性 能存储,支持 MySQL、SQL Server、PostgreSQL、PPAS和 MariaDB引擎,提 供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,彻底解决数据库运维 的烦恼。更多信息,...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,数据传输,DataWorks,Elasticsearch
基于Elasticsearch的订单检索加速最佳实践
基于Elasticsearch的订单检索加速最佳实践
随着企业信息化程度越来越高,核心业务数据存储在传统关系型数据库中不可避免地会遇到一个问题:单表记录不断增多,数据检索速度会变慢,尤其是对中文的模糊查询(建立普通索引完全不起作用)。虽然数据库自身在不断完善,但效果有限且没办法灵活扩展,复杂场景无法应对。 本方案基于阿里云Elasticsearch作为二级索引库,数据集成产品提供Binlog实时订阅,实时解析、增量数据实时更新及二级索引库之间进行数据实时同步,为数据库提供“能力增益”, 不仅能从根本解决主库抗压问题,提升稳定性;同时支持高效率、高性能、高弹性、低成本、多复杂场景的检索加速服务。
步骤11 回到 rds的 dms界面中,对表 trading_order插入数据,再到 Elasticsearch中查看 。(dms登录方式本可查看文档章节 2.4创建 rds订单表”。在上图 dms中使用 insert into语句插入一条数据到 trading_order表中:insert into trading_order(order_amount,source_type,consignee_ada,order_type,company,consignee_...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,DataWorks,Elasticsearch
大数据workshop
大数据workshop
大数据workshop
在 HoloWeb控制台,选择 SQL编辑器,然后点击新增 SQL窗口,选择对应的 据库,编辑填写相应的 DDL建表语句(默认数据表的属性是列存模式,列存模式更 适合 OLAP数据分析,数据表的行存模式更适合高 QPS点查询场景)。1.首先创建 ads_province_info表。文档版本:20210628(发布日期)42 阿里云最佳实践大数据 WorkShop ...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
Dubbo应用上云
Dubbo应用上云
场景描述 本最佳实践适用于企业自建 Dubbo 应用上云, 应 用采用 docker 方式部署, 降低部署成本。同时利 用 MSE 提供 Zookeeper 服务注册管理。 通过阿 里云的 ARMS 和 AHAS 服务提供应用监控和服务 限流管理,简化运维并提供服务的全生命周期管 理。 解决问题 1. 自建 dubbo 应用迁移上阿里云。 2. 应用部署在容器内降低成本。 3. 通过 MSE 提供 ZK 服务,提高稳定性。 4. 通过 ARMS/AHAS 提供监控和服务限流能力 产品列表 容器服务 Kubernetes 版(ACK) 微服务引擎(MSE) 关系数据库服务(RDS) 应用高可用服务(AHAS) 应用实时监控服务(ARMS)
创建数据库 步骤1 进入 RDS控制台,单击实例 ID,进入实例管理页面。步骤2 在左侧导航栏选择数据库管理,并单击创建数据库。步骤3 在创建数据库页面,完成以下配置,并单击创建。数据库(DB)名称:自定义,本实践设置为 dubbo。支持字符集:utf8 文档版本:20220208 18 Dubbo应用上云 部署 Dubbo云应用 创建账号 步骤1 在...
来自: 最佳实践 | 相关产品:云数据库RDS MySQL 版,容器服务 ACK,应用实时监控服务 ARMS ,应用高可用服务 AHAS,微服务引擎,云速搭
自建Hadoop迁移MaxCompute
自建Hadoop迁移MaxCompute
场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
将表 datahub_dataconnector_apache_logs odps_apache_logs 本实践方案中 Hive数据仓库中的原始表 apache_logs有一个分区字段 ds(日期值),每天生成一个分区。在使用 MMA工具迁移到 MaxCompute表 odps_apache_logs的 过程中,保留了该分区字段,因此在 MaxCompute上可以看到该表有一个分区字段:Datahub ...
来自: 最佳实践 | 相关产品:云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭
金融专属大数据workshop
金融专属大数据workshop
实践目标 学习搭建一个实时数据仓库,掌握数据采集、存储、计算、输出、展示等整个业务流程。 整个实时数据仓库系统全部基于阿里云产品进行架构搭建,用户可以掌握并学会运用各个服务组件及各个组件之间如何联动。 理解阿里云原生实时离线一体数仓解决方案架构以及掌握交付落地的实践使用方法。 前置知识要求 熟练掌握SQL语法 对大数据体系系统知识有一定的了解
在HoloWeb控制台,选择SQL编辑器,然后点击新增SQL窗口,选择对应的 据库,编辑填写相应的DDL建表语句(默认数据表的属性是列存模式,列存模式更 适合OLAP数据分析,数据表的行存模式更适合高QPS点查询场景)。1.首先创建ads_province_info表。文档版本:20210803(发布日期)39阿里云最佳实践金融大数据WorkShop 最佳...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
游戏数据运营融合分析
游戏数据运营融合分析
场景描述 1.游戏行业有结构化和非结构化数据融合分 析需求的客户。 2.游戏行业有数据实时分析需求的客户,无法 接受T+1延迟。 3.对数据成本有一定诉求的客户,希望物尽其 用尽量优化成本。 4.其他行业有类似需求的客户。 方案优势/解决问题 1.秒级实时分析:依托ADB计算密集型实例, 秒级监控DAU等数据,为广告投放效果提 供有力的在线决策支撑。 2.高效数据融合分析:打通结构化和非结构化 数据,支撑产品体验分析;广告买量投放效 果实时(分钟级)分析,渠道的评估更准确。 3.低成本:DLA融合冷数据分析+ADB存储密 集型温数据分析+ADB计算密集型热数据分 析,在满足各种分析场景需求的同时,有效 地降低的客户的总体使用成本。 4.学习成本低:DLA和ADB兼容标准SQL语 法,无需额外学习其他技术。 产品列表 专有网络VPC、负载均衡SLB、NAT网关、弹性公网IP 云服务器ECS、日志服务SLS、对象存储OSS 数据库RDSMySQL、数据传输服务DTS、数据管理DMS 分析型数据库MySQL版ADS 数据湖分析DLA、QuickBI
创建 ADB高性能 步骤1 通过产品与服务导航,定位到分析型数据库 MySQL版,单击进入 AnalyticDB控 制台。步骤2 切换地域为华东 2(上海),在左侧导航栏选择集群列表,并单击新建集群。步骤3 选择按量付费模式,完成以下配置,并单击立即购买。文档版本:20210224 37 游戏数据运营融合分析 部署 RDS-ADB高性能数据采集 ...
来自: 最佳实践 | 相关产品:云数据库RDS MySQL 版,对象存储 OSS,云原生数据仓库AnalyticDB My,数据湖分析,Quick BI
电商网站数据埋点及分析
电商网站数据埋点及分析
场景描述 数据埋点是数据产品经理、数据运营以及数据分 析师,基于业务需求(例如:CPC点击付费广 告中统计每一个广告位的点击次数),产品需求 (例如:推荐系统中推荐商品的曝光次数以及点 击的人数)对用户行为的每一个事件对应的位置 进行开发埋点,并通过SDK上报埋点的数据结 果,记录数据汇总后进行分析,推动产品优化或 指导运营。 解决问题 1.电商网站广告位效果统计分析 2.电网网站推荐商品曝光、点击、购买等行为统 计分析 3.电商网站用户分布分析 4.电商网站页面热点图分析等 产品列表 日志服务SLS Dataworks 云服务器ECS 云数据库RDS版 负载均衡SLB 专有网络VPC
配置日志服务 Logstore 步骤1 CADT架构图双击 sls实例(sls-bp-magento),单击前往控制台,进入日志控制台。步骤2 为 bp-magento日志开启索引。1.在 magento-sls日志页面,单击开启索引。文档版本:20220127 X 电商网站数据埋点及分析 电商网站数据埋点 2.在查询分析侧边页,单击确定。3.在查询分析设置对话框中,...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,日志服务(SLS),DataWorks,云速搭CADT
基于Flink+ClickHouse构建实时游戏数据分析
基于Flink+ClickHouse构建实时游戏数据分析
在互联网、游戏行业中,常常需要对用户行为日志进行分析,通过数据挖掘,来更好地支持业务运营,比如用户轨迹,热力图,登录行为分析,实时业务大屏等。当业务数据量达到千亿规模时,常常导致分析不实时,平均响应时间长达10分钟,影响业务的正常运营和发展。 本实践介绍如何快速收集海量用户行为数据,实现秒级响应的实时用户行为分析,并通过实时流计算Flink/Blink、云数据库ClickHouse等技术进行深入挖掘和分析,得到用户特征和画像,实现个性化系统推荐服务。 通过云数据库ClickHouse替换原有Presto数仓,对比开源Presto性能提升20倍。 利用云数据库ClickHouse极致分析性能,千亿级数据分析从10分钟缩短到30秒。 云数据库ClickHouse批量写入效率高,支持业务高峰每小时230亿的用户数据写入。 云数据库ClickHouse开箱即用,免运维,全球多Region部署,快速支持新游戏开服。 Flink+ClickHouse+QuickBI
关键技术选型 1.1.ClickHouse vs Presto 面对海量的数据,我们如何进行数据库的选项,这里对比了开源的两种常见分析性 据库。ClickHouse对数据采用有序存储的方式,其核心思想是充分利用了磁盘批量顺序读写 的性能要远远高于随机读写的特征,并且结合 LSM tree的设计进一步进行优化,使得 写性能达到最优(可达到 200MB/S...
来自: 最佳实践 | 相关产品:云服务器ECS,弹性公网IP,实时计算,Quick BI,消息队列 Kafka 版,云数据库 ClickHouse
新零售商超基于Serverless服务化改造
新零售商超基于Serverless服务化改造
某零售商超行业龙头企业,主要业务涵盖购物中心、大卖场、综合超市、标准超市、精品超市、便利店、无人值守智慧商店等零售业态,涉及全渠道零售、仓储物流、餐饮、消费服务、数据服务、金融业务、跨境贸易等领域。为了持续支持业务高速且稳定地发展,其在快速上云后,将核心业务改造为全Serverless架构的中台模式,采用函数计算 + API网关 + 表格存储OTS 作为计算网络存储核心,弹性支撑日常和大促峰谷所需资源,轻松支撑618/双11/双12大促。 核心价值 l 全 Serverless 架构:FC + API 网关 + OTS Serverless 解决方案。 l 弹性高可用:毫秒级弹性扩容、充足的资源池水位、跨可用区高可用。 l 敏捷开发免运维:函数式极简编程可专注于业务创新,无采购和部署成本、提供监控报警等完备的可观测能力。
比如数据是否要做到无状态,无状态的话水平 文档版本:20210519 3 新零售商超基于 Serverless服务化改造 前置条件 扩展会比较容易,而如果是有状态,数据可能就需要做缓存,这就会涉及到 据库相关的问题,例如数据过期、一致性等。如果对这些了解不够透彻,做水 平扩展就会比较困难。ᅳ 水位监控 许多开发者在水位监控上...
来自: 最佳实践 | 相关产品:云数据库RDS MySQL 版,数据传输,函数计算,API网关,表格存储
Function Compute构建高弹性大数据采集系统
Function Compute构建高弹性大数据采集系统
当前互联网很多场景都存在需要将大量的数据信息采集起来然后传输到后端的各类系统服务中,对数据进行处理、分析,形成业务闭环。比如游戏行业中的游戏发行、游戏运营,产互行业中的数字营销,物联网、车联网行业中的硬件、车辆信息上报等等。这些场景普遍存在数据采集量大、数据传输需要稳定且吞吐量大的特点,给整个数据采集传输系统带来很大的挑战。在这个场景中,有三个关键的环节,数据采集、数据传输、数据处理。该最佳实践主要涉
post 填写压测的 URL,压测地址可以从 fun01控制台中查询到 单击 Body定义,进入如下页面:选择 raw,选择 JSON,填如下 json文件 {"action":"readarticle","articleTitle":"BestPractice001","articleAuthorId":"1","articleAuthorName":"zhangsan","ts":"14238472847238"} 步骤3 设置施压配置。根据需要设置图中参数,...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,日志服务(SLS),函数计算,消息队列 Kafka 版,云速搭CADT
CDH迁移升级CDP最佳实践
CDH迁移升级CDP最佳实践
当前 CDH 免费版停止下载,终止服务,针对需要企业版服务能力并且CDH 升级过程对业务影响较小的客户,通过安装新的 CDP 集群,将现有数据拷贝至新集群,然后将新集群切换为生产集群,升级过程没有数据丢失风险,停机时间较短,适合大部分互联网客户升级使用。
1.当进程用户和 Kerberos principal不匹配时,Ranger的 Import Sentry Policies 不起作用。因此,需要先将 rangeradmin置为 Admin角色,因为 ranger.keytab 中的 Kerberos principal为 rangeradmin。添加 rangeradmin用户 文档版本:20211029 92 CDH迁移升级 CDP最佳实践 组件迁移 2.单击 save,创建 rangeradmin用户。...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云速搭
基于HBR云上统一备份
基于HBR云上统一备份
场景描述 混合云备份(简称HBR)是一种简单易用且高性价 比的在线备份服务,可以为阿里云ECS,NAS,OSS 以及自建机房内的各类数据提供安全,高效的保护。 本文介绍如何通过HBR对云上数据进行统一备份管 理。 解决问题 1.备份阿里云云上数据。 2.备份数据中心数据。 适用云资源 ECS文件系统 NAS文件 OSS文件 ECS上自建的MySQL、Oracle、SQLServer数据库 ESC上自建的SAPHANA数据库 产品列表 1.HBR备份服务 2.云服务器ECS 3.文件系统NAS 4.对象存储OSS 云上统一备份 云下统一备份 上云备份 备份上云
SELECT Count(*)FROM[AdventureWorksDW2017].[dbo].[DimCustomer]文档版本:20210402 137 HBR云上统一备份 ECS自建SQL Server备份 步骤10 重复步骤 5到步骤 9,将数据库恢复到第一次执行全量备份时的状态(18484条 ),观测结果符合预期。文档版本:20210402 138 HBR云上统一备份 ECS自建SQL Server备份 文档版本:...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储NAS,混合云备份,云速搭
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测实践 业务架构 场景描述 数据湖和数据仓库是当前大数据技术条件下构建分布式系 统的两种数据架构设计取向,数据湖偏向灵活性,数据仓 侧重成本、性能、安全、治理等企业级特性。但是数据 湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理能 力、数据仓库延伸到外部...
来自: 最佳实践 | 相关产品:对象存储 OSS,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,API网关,数据湖构建,云速搭
基于Flink的资讯场景实时数仓
基于Flink的资讯场景实时数仓
场景描述 本实践针对资讯聚合类业务场景,Step by Step介绍 如何搭建实时数仓。 解决问题 1.如何搭建实时数仓。 2.通过实时计算Flink实现实时ETL和数据流。 3.通过实时计算Flink实现实时数据分析。 4.通过实时计算Flink实现事件触发。 产品列表 实时计算 专有网络VPC 云数据库RDSMySQL版 分析型数据库MySQL版 消息队列Kafka 对象存储OSS NAT网关 DataV数据可视化
3.数据加工:消息队列收到的原始数据,往往存在格式不齐或内容不全,需要经过 清洗(ETL)之后,才能更好的被下游业务使用。而整个 ETL过程,是实时数 仓架构设计上非常重要的一环,该环节要做到延时小,成本低,可扩展性好,业务 指标计算准确。在系统选型上,推荐使用实时计算 Flink对数据进行处理,因为 Flink具有...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,NAT网关,云原生数据仓库AnalyticDB My,云速搭CADT
EMR集群安全认证和授权管理 
EMR集群安全认证和授权管理 
场景描述 阿里云EMR服务Kafka和Hadoop安全集群使 用Kerberos进行用户安全认证,通过Apache Ranger服务进行访问授权管理。本最佳实践中以 Apache Web服务器日志为例,演示基于Kafka 和Hadoop的生态组件构建日志大数据仓库,并 介绍在整个数据流程中,如何通过Kerberos和 Ranger进行认证和授权的相关配置。 解决问题 1.创建基于Kerberos的EMR Kafka和 Hadoop集群。 2.EMR服务的Kafka和Hadoop集群中 Kerberos相关配置和使用方法。 3.Ranger中添加Kafka、HDFS、Hive和 Hbase服务和访问策略。 4.Flume中和Kafka、HDFS相关的安全配 置。 产品列表:E-MapReduce、专有网络VPC、云服务器ECS、云数据库RDS版
详见:https://web.mit.edu/kerberos/krb5-1.4/krb5-1.4.1/doc/krb5- admin/domain_realm.html [capaths]为了执行直接(非分层)跨领域身份验证,需要一个数据库来构造领域 之间的 身份 验 证路径,本节用于定 义该 据库。详见:https://web.mit.edu/kerberos/krb5-1.4/krb5-1.4.1/doc/krb5-admin/capaths.html 文档版本...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,E-MapReduce
企业应用(酒店PMS)混合云组网最佳实践
企业应用(酒店PMS)混合云组网最佳实践
酒店上云是分阶段实施,线下和云上的混合云是长期 状态,需要保证线下多地域多分支、云上多地域之间 互相访问,且需要满足不同类型的企业节点的服务要 求,比如总部 IDC 要求带宽大,对安全可靠性要求 高等。
前言 前言 概述 本实践重点提供一种简单且具备成本效益的混合云网络解决方案,通过云服务器和数 据库来搭建云上应用系统,通过部署 SLB提供后续业务发展的横向扩展性以及应用容 灾。产品介绍 VPC:专有网络(Virtual Private Cloud),是用户基于阿里云创建的自定义私有网 络,不同的专有网络之间二层逻辑隔离,用户可以在...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,负载均衡 SLB,云企业网,智能接入网关,云速搭
开源Flink迁移实时计算Flink全托管版最佳实践
开源Flink迁移实时计算Flink全托管版最佳实践
本方案介绍如何将自建开源Flink集群的流式任务(包含Datastream、Table/SQL、PyFlink任务)迁移至阿里云实时计算全托管版。
比如聚合任务按小时、天维度计算的聚合值,清洗任务加工的按天分区表等,在数据对比时就可以根据对应的时间周期来对比,比如小时周期的任务实际已完整处理多个小时数据 后,就可以对比处理过的小时 ,而天维度的聚合值,一般就需要等待新任务处理完完整的一天 后才能对比。2、数据规模 中小数据规模:建议进行全量...
来自: 最佳实践 | 相关产品:专有网络 VPC,云数据库RDS MySQL 版,E-MapReduce,实时计算,消息队列 Kafka 版,云速搭CADT
Exchange Server云上部署最佳实践
Exchange Server云上部署最佳实践
阿里云提供基础设施服务,能够以高可用、高容错且经济实惠的方式将Exchange Server部署在云上。通过在 阿里云上部署,可以获得Exchange Server的功能以及阿里云天然灵活性和安全性。
步骤2 选择新建>官方模版新建 进入接官方模板。步骤3 通过搜索找到“Exchange_on_Aliyun”模版,选择基于应用新建。步骤4 在架构编辑界面,根据架构部署提示,双击 ECS实例,设置其登录密码。文档版本:20220119 6 Exchange Server云上部署最佳实践 资源环境部署 步骤5 点击保存,设定应用名称后点击确认。步骤6 应用...
来自: 最佳实践 | 相关产品:云服务器ECS,负载均衡 SLB,弹性公网IP,NAT网关,SSL证书,云速搭CADT
< 1 2 3 4 ... 8 >
共有8页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用