自建Hadoop迁移MaxCompute
自建Hadoop迁移MaxCompute
场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
自建 Hadoop迁移 MaxCompute 场景描述 解决的问题 客户基于ECS、IDC自建或友商自建了大数据集群,自建Hadoop集群搬迁到 MaxCompute 为了降低企业大数据计算平台的成本,提高大数 自建Hbase集群搬迁到云 Hbase 据应用开发效率,更有效保障数据安全,把大数据 自建 Kafka 或服务器数据实时同步到 集群的数据、作业、...pip wget ...
来自: 最佳实践 相关产品:云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭
DataWorks
大数据开发治理平台 DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台。每天阿里巴巴集团内部有数万名数据/算法工程师正在使用DataWorks,承担集团99%数据业务构建。
DataWorks作为ODPS统一开发治理平台提供服务.满分通过中国信通院云原生数据湖评测.依托于EMR、OSS、DataWorks产品组合的数据湖,满分通过了信通院云原生数据湖评测,评测分数排名第一,解决方案全面兼容HDFS,湖权限和生命周期管理能力升级。DataWorks on EMR全链路数据湖治理解决方案提供了基于EMR数据湖的一站式湖开发、...
来自: 云产品
MaxCompute湖仓一体方案
MaxCompute湖仓一体方案
场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 方案优势 1.业务无侵入性:现有业务无需改造。 2.性能优化:MaxCompute在SQL上做 了大量优化与能力沉淀,可提高SQL 运行性能,降低计算成本。 3.灵活管理:元数据实时同步,无需额外 管理数据同步任务。 4.资源弹性:利用MaxCompute计算池 弹性进行海量数据计算。 解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。 产品列表 专有网络VPC 云服务器ECS 访问控制RAM 运维编排OOS MaxCompute(原ODPS) 云企业网CEN
执行过程如下:文档版本:20220402 22 MaxCompute湖仓一体方案 DataWorks执行 4.DataWorks执行 湖仓一体环境搭建完成之后,Hadoop集群中的元数据 DB直接映射为 MaxCompute 的 Project,可以基于 DataWorks强大的数据开发/管理/治理能力,提供统一的湖仓开 发体验,降低两套系统的管理成本。步骤1 选择创建的工作空间,点击 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云企业网,E-MapReduce,大数据计算服务 MaxCompute,运维编排,云速搭
大数据近实时数据投递MaxCompute
大数据近实时数据投递MaxCompute
本文介绍离线大数据场景使MaxCompute构建云 上近实时数仓,打通云下数据上云链路,解决数据复杂类型支持和动态分区问题,满足高级数据处理需求的最佳实践。 l混合云环境下,现有业务系统零改造,打通数据上云链路。 l使用UDF实现复杂数据类型转换和数据动态分区。 l使用DataWorks配置周期调度业务流程,数据自动入仓。 l借助MaxCompute优化计算引擎,实现降本增效。 产品列表 云服务器ECS 专有网络VPC 访问控制RAM 数据总线DataHub E-MapReduceEMR DataWorks 大数据计算服务MaxCompute
详见:https://www.aliyun.com/product/odps DataWorks:是一个提供了大数据 OS能力、并以 all in one box的方式提供专 业高效、安全可靠的一站式大数据智能云研发平台。同时能满足用户对数据治 理、质量管理需求,赋予用户对外提供数据服务的能力。详见:https://www.aliyun.com/product/bigdata/ide 文档版本:20240419 ...
来自: 最佳实践 | 相关产品:块存储,专有网络 VPC,云服务器ECS,访问控制,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,数据总线,云速搭CADT
互联网电商行业离线大数据分析
互联网电商行业离线大数据分析
电商网站销售数据通过大数据分析后将业务指标数据在大屏幕上展示,如销售指标、客户指标、销售排名、订单地区分布等。大屏上销售数据可视化动态展示,效果震撼,触控大屏支持用户自助查询数据,极大地增强数据的可读性。
 大数据开发治理平台DataWorks:基于阿里云ODPS/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,互联网电商行业离线大数据分析 最佳实践概述 DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与数万名政务/金融/零售/互联网/...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,API网关,云速搭CADT
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
 数据糊DLF 3.MaxCompute云原生的弹性资源和EMR集群资源  云原生大数据计算服务MaxCompute 形成互补,两套体系之间进行资源的削峰填谷,不  大数据开发治理平台DataWorks 仅减少作业排队,且降低整体成本。 机器学习PAI  E-MapReduceEMR 最佳实践频道  对象存储OSS http://bp.aliyun.com  日志服务SLS 阿里云...
来自: 最佳实践 | 相关产品:对象存储 OSS,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,API网关,数据湖构建,云速搭
基于MaxCompute的大数据BI分析
基于MaxCompute的大数据BI分析
场景描述 本文以电商行业为例,将业务数据和日志数据使用 MaxCompute做ETL之后,同步到ADB进行实时 分析,之后通过QuickBI进行快速可视化展示。 解决问题 1.互联网行业、电商、游戏行业等网站、App、 小程序应用内BI分析场景。 2.可扩展到各类网站BI分析场景使用。 产品列表 1.MaxCompute 2.分析型数据MySQL版 3.日志服务SLS 4.QuickBI 5.云服务器ECS 6.RDSMySQL版
步骤3 双击数据集成任务 sls2mc_weblog,选择数据源,左边 LogHub/magento_sls/weblog,右边选择 ODPS/odps_first,点击一键生成目标表;步骤4 输入表名称,增加 ip字段和 receive_time字段,点击新建表,SQL语句详见附件 democode。文档版本:20211213 67 基于 MaxCompute的大数据 BI分析 DataWorks大数据处理 步骤5 字段...
来自: 最佳实践 | 相关产品:日志服务(SLS),大数据计算服务 MaxCompute,云原生数据仓库AnalyticDB My,Quick BI,云速搭CADT
利用交互式分析(Hologres)进行数据查询
利用交互式分析(Hologres)进行数据查询
场景描述:随着收集数据的方式不断丰富,企业信息化 程度越来越高,企业掌握的数据量呈TB、 PB或EB级别增长。同时,数据中台的快 速推进,使数据应用主要为数据支撑、用户 画像、实时圈人及广告精准投放等核心业务 服务。高可靠和低延时地数据服务成为企业 数字化转型的关键。 Hologres致力于低成本和高性能地大规模 计算型存储和强大的查询能力,为您提供海 量数据的实时数据仓库解决方案和实时交 互式查询服务。 解决问题 1.加速查询MaxCompute数据 2.快速搭建实时数据仓库 3.无缝对接主流BI工具 产品列表 MaxCompute Hologres 实时计算Flink 专有网络VPC DataWorks DataV
数据处理与存储 本节将分别通过dataworks(建议)和客户端(odpscmd)两种方式介绍如何使用 ODPSSQL进行数据的ETL操作处理以及数据存储。您可以任选一种方式进行开发。2.6.3.1.基于DataWorks进行开发(推荐)步骤1 登录DataWorks控制台,进入数据开发界面。步骤2 创建业务流程,自定义流程名称为:log。步骤3 创建表:本...
来自: 最佳实践 | 相关产品:大数据计算服务 MaxCompute,DataV数据可视化,实时计算,Hologres,云速搭CADT
DTS数据同步集成MaxCompute数仓
DTS数据同步集成MaxCompute数仓
场景描述 本文Step by Step介绍了通过数据传输服务 DTS实现从云数据库RDS到MaxCompute的 数据同步集成,并介绍如何使用DTS和 MaxCompute数仓联合实现数据ETL幂等和数 据生命周期快速回溯。 解决问题 1.实现大数据实时同步集成。 2.实现数据ETL幂等。 3.实现数据生命周期快速回溯。 产品列表 MaxCompute 数据传输服务DTS DataWorks 云数据库RDS MySQL 版
产品列表 最佳实践频道 阿里云最佳实践分享群 MaxCompute 数据传输服务 DTS DataWorks 云数据库 RDS MySQL 版 云速搭 CADT 云服务器 ECS(产品名称)文档模板(手册名称)/文档版本信息 阿里云 DTS数据同步集成 MaxCompute数仓 最佳实践 文档版本:20220126(发布日期)文档版本:20150122(发布日期)I DTS数据同步集成 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云数据库RDS MySQL 版,数据传输,DataWorks,大数据计算服务 MaxCompute
云原生大数据计算服务MaxCompute
阿里云云原生大数据计算服务MaxCompute是面向分析的企业级云数仓,作为一体化大数据智能计算平台ODPS的大规模批量计算引擎,MaxCompute以 Serverless 架构提供快速、全托管的在线数据仓库服务,使您经济高效的分析处理海量数据,进行敏捷的业务洞察。
唐家哲,靖鑫,也树.ODPS统一开发与治理平台.ODPS实时交互式计算引擎.人工智能平台 PAI.可基于PAI的算法组件进行模型训练等操作.消息队列 Kafka 版.便捷地对离线数据进行分析加工.实现MaxCompute表数据的可视化分析.与MaxCompute集成,实现可视化分析.帆软 FineBI.联合发布企业级BI分析解决方案.基于Kettle的MaxC插件数据上云...
来自: 云产品
阿里云最佳实践离线大数据workshop
阿里云最佳实践离线大数据workshop
本最佳实践,首先搭建一个简化的电商 demo 系统,然后为此 demo 系统构建一套离 线大数据分析系统。 实践目标 1. 学习搭建一个离线大数据分析系统,学习从数据采集到数据存储和业务分析的业 务流程。 2. 整个离线大数据分析系统全部基于阿里云产品进行搭建,学习掌运用各个服务组 件及各个组件之间如何联动。 背景知识要求 熟练掌握 SQL 语法 对大数据体系系统知识有一定的了解
每天阿里巴巴集团 内部有数万名数据/算法工程师正在使用DataWorks,承担集团99%数据业务构建。详见:https://www.aliyun.com/product/bigdata/ide  QuickBI:数据可视化分析平台,阿里云上客户都在用的BI产品——无缝对接各 类云上数据库和自建数据库,大幅提升数据分析和报表开发效率,0代码鼠标拖拽 式操作交互,让业务...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,日志服务(SLS),大数据计算服务 MaxCompute,DataV数据可视化,数据总线,Quick BI,云速搭
DataWorks数据安全合规服务
DataWorks数据安全合规服务是基于蚂蚁安全实验室核心能力,结合已获取多项专利的AI检测能力,对App进行隐私安全合规分析的专家服务,助力客户全面、准确、高效地规避合规风险。
DataWorks数据安全合规服务.DataWorks数据安全合规服务可对App进行隐私安全合规分析,支持敏感权限风险识别、个人信息采集行为检测、三方SDK风险检测、隐私政策合规检测等多项检测,助力企业和开发者全面、准确、高效地规避合规风险.谢赟辉,靖鑫,也树.孙慧颖,靖鑫,也树.MySQL低至1折起,前往限时优惠活动!1元体验简单易用...
来自: 云产品
基于DataWorks的大数据一站式开发及数据治理
基于<em>DataWorks</em>的大数据一站式开发及数据治理
概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
基于 DataWorks的大数据一站式开发及数据治理 最佳实践 业务架构 场景描述 解决问题 本实践基于 Dataworks做大数据一站式开发,包含 日志采集、处理及分析 数据实时采集到 kafka 通过实时计算对数据进行 日志使用 Flink实时写入 HDFS ETL写入 HDFS,使用 Hive进行数据分析。通过 日志数据实时 ETL Dataworks进行数据治理,...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭
互联网、电商Elasticsearch搜索
互联网、电商Elasticsearch搜索
场景描述 每一个生活在互联网中的用户,每天都在经 历各种各样的“搜索”,查找电商网站商品、 信用卡账单、查电子发票、查附近的餐厅酒 店、查偶像、查交通等等。相对于传统的关 系型数据库,Elasticsearch只需要几毫秒的 时间,即可查询PB级数据并从中找到匹配 信息。利用Elasticsearch高可用性和易用 性,能够快速处理网站、APP丢给它的文本、 数字、日期、IP以及地理数据。 解决问题 1.电商网站商品、订单、物流等搜索 2.保险行业保单查询 3.互联网教育行业课程搜索 4.O2O行业地理位置搜索等 产品列表 云服务器ECS 专有网络VPC 负载均衡SLB 云数据库RDSMySQL版 Dataworks Elasticsearch 数据传输服务DTS
对数据实时性要求不高场景 采用 Dataworks进行同步,Dataworks的离线同步功能最短同步周期为 5分钟。Demo 测试可以选择其中一种方案进行模拟。3.1.使用 DTS进行数据实时同步 步骤1 登录阿里云 DTS控制台(https://dts.console.aliyun.com/),在华北 2区域,选择通过 CADT创建的同步作业,点击配置同步链路。步骤2 配置源库...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,数据传输,DataWorks,Elasticsearch
基于Elasticsearch的订单检索加速最佳实践
基于Elasticsearch的订单检索加速最佳实践
随着企业信息化程度越来越高,核心业务数据存储在传统关系型数据库中不可避免地会遇到一个问题:单表记录不断增多,数据检索速度会变慢,尤其是对中文的模糊查询(建立普通索引完全不起作用)。虽然数据库自身在不断完善,但效果有限且没办法灵活扩展,复杂场景无法应对。 本方案基于阿里云Elasticsearch作为二级索引库,数据集成产品提供Binlog实时订阅,实时解析、增量数据实时更新及二级索引库之间进行数据实时同步,为数据库提供“能力增益”, 不仅能从根本解决主库抗压问题,提升稳定性;同时支持高效率、高性能、高弹性、低成本、多复杂场景的检索加速服务。
DataWorks 实时计算 Flink(选配)阿里云最佳实践技术分享群 最佳实践频道 如二维码过期,请搜索群号:31852400 云服务器 ECS(产品名称)文档模板(手册名称)/文档版本信息 阿里云 基于Elasticsearch的 订单检索加速 最佳实践 文档版本:20210517 文档版本:20150122(发布日期)II 基于 Elasticsearch的订单检索加速最佳...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,DataWorks,Elasticsearch
电商网站数据埋点及分析
电商网站数据埋点及分析
场景描述 数据埋点是数据产品经理、数据运营以及数据分 析师,基于业务需求(例如:CPC点击付费广 告中统计每一个广告位的点击次数),产品需求 (例如:推荐系统中推荐商品的曝光次数以及点 击的人数)对用户行为的每一个事件对应的位置 进行开发埋点,并通过SDK上报埋点的数据结 果,记录数据汇总后进行分析,推动产品优化或 指导运营。 解决问题 1.电商网站广告位效果统计分析 2.电网网站推荐商品曝光、点击、购买等行为统 计分析 3.电商网站用户分布分析 4.电商网站页面热点图分析等 产品列表 日志服务SLS Dataworks 云服务器ECS 云数据库RDS版 负载均衡SLB 专有网络VPC
电商网站页面热点图分析等 产品列表 最佳实践频道 阿里云最佳实践分享群 日志服务 SLS Dataworks 云服务器 ECS 云数据库 RDS版 负载均衡 SLB 专有网络 VPC 云速搭 CADT 云服务器 ECS(产品名称)文档模板(手册名称)/文档版本信息 阿里云 企业上云实践 电商网站数据埋点及分析 最佳实践 文档版本:20220127 文档版本:...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,日志服务(SLS),DataWorks,云速搭CADT
金融专属大数据workshop
金融专属大数据workshop
实践目标 学习搭建一个实时数据仓库,掌握数据采集、存储、计算、输出、展示等整个业务流程。 整个实时数据仓库系统全部基于阿里云产品进行架构搭建,用户可以掌握并学会运用各个服务组件及各个组件之间如何联动。 理解阿里云原生实时离线一体数仓解决方案架构以及掌握交付落地的实践使用方法。 前置知识要求 熟练掌握SQL语法 对大数据体系系统知识有一定的了解
阿里云技术框架 阿里云产品 简介 类比 ECS 弹性计算服务器 Linux服务器 RDS 关系型数据库 自有MySQL服务器 DataHub 数据总线 Kafka+各种服务接口 实时计算Flink版 实时计算 Spark、Flink Dataworks 一站式数据开发平台 目前没有 Hologres 交互式查询分析产品 PostgreSQL DataV 可视化数据展示工具 Tableau、Echarts、Kibana...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
大数据workshop
大数据workshop
大数据workshop
阿里云 最佳实践 大数据 WorkShop 文档版本:20210628(发布日期)阿里云最佳实践大数据 WorkShop 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 阿里云最佳实践大数据 WorkShop 文档版本 V1.8 版本日期 2021-06-28 文档状态 对外发布 制作人 明誉、弦望、川知、衾影 审阅人-文档变更记录 版本编号 日期 作者 ...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
阿里云大数据&AI
阿里云大数据和AI产品服务。开放数据处理服务ODPS提供强大的数据分析和管理功能;开源大数据产品支持更加灵活地构建大数据平台;AI和机器学习产品提供AI工程平台和智算服务。
开放数据处理服务ODPS系列产品提供强大的数据分析和管理功能;开源大数据系列产品支持更加灵活地构建大数据平台;AI和机器学习系列产品提供完整的AI工程平台和稳定的智算服务.机器学习平台PAI.频道页banner.谢赟辉,靖鑫,也树.使用阿里云大数据平台,更快速地解决海量数据计算问题,有效降低企业成本,并保障数据安全.通用...
来自: 云产品
云上大数据仓库解决方案
阿里云云原生大数据仓库,包含离线实时一体化数仓和实时数仓解决方案,为企业提供一站式云上智能开发、调度、服务、质量、安全的全链路服务。
阿里云云上大数据仓库是集数据计算、存储和开发的整体大数据解决方案,是阿里云一体化大数据平台 ODPS 的重要组成部分,提供离线实时一体化数仓和实时数仓等热门架构,帮助企业降本增效,让企业能更专注于自身业务发展.谢赟辉,靖鑫,也树.离线实时一体化数仓架构.离线实时一体化数仓.基于云上提供的近乎无限计算和存储资源,...
来自: 解决方案
< 1 2 3 >
共有3页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用