基于DataWorks的大数据一站开发及数据治理
<em>基于</em>DataWorks的大数据一站<em>式</em>开发及数据治理
概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
名词解释 HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分 布式文件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分 布式文件系统的区别也是很明显的。HDFS 是一个高度容错性的系统,适合部署 在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上 的应用。...
来自: 最佳实践 相关产品:块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭
飞天企业版
阿里云飞天企业版是基于阿里云飞天云计算操作系统,为政企客户专属构建的资源和云管完全独立的企业级云平台,阿里云专有云与公共云同根同源,支持私有化部署。
纳管Hadoop大数据平台支持对异构大数据平台的统一纳管,实现异构平台的联邦计算,无需在MaxCompute平台重复存储Hadoop平台的数据,利旧现网已有平台,降低成本和异构平台对接复杂度。外部表存储和访问MaxCompute支持使用外部表功能查询和分析存储OSS/Hologres/OTS等外部存储系统的数据,使用户可以无需将数据导入到...
来自: 云产品
自建Hadoop迁移MaxCompute
自建<em>Hadoop</em>迁移MaxCompute
场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
名词解释 HDFS Hadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文 件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式 文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉 价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应 用。VPN...
来自: 最佳实践 | 相关产品:云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭
自建Hadoop迁移到阿里云EMR
自建<em>Hadoop</em>迁移到阿里云EMR
场景描述 场景1:自建Hadoop集群数据(HDFS)迁移到 阿里云EMR集群的HDFS文件系统; 场景2:自建Hadoop集群数据(HDFS)迁移到 计算存储分离架构的阿里云EMR集群,以OSS 和JindoFS作为EMR集群的后端存储。 解决的问题 客户自建Hadoop迁移到阿里云EMR集群的 技术方案; 基于IPSecVPN隧道构建安全和低成本数据 传输链路 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
详情请查看 https://www.aliyun.com/product/emapreduce HDFS Hadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文 件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式 文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉 价的机器上。HDFS能提供高吞吐量的...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
存储解决方案
云存储解决方案面向大数据存储、多媒体存储(视频存储)、视频监控、基因生命科学、数据迁移、自动驾驶、在线教育、混合云存储、数据迁移、数据容灾备份等多个行业用户的多元化场景,提供更安全稳定、更优化、无缝上云的智能数据存储服务,为企业上云、实现数字化转型奠定数据基础。
阿里云云存储解决方案是面向多个行业用户的多元化场景,提供更安全稳定、更优化、无缝上云的智能数据存储服务,为企业上云、实现数字化转型奠定数据基础。2020年4月,《阿里云存储产品及应用白皮书》正式发布.频道页banner.谢赟辉,靖鑫,也树.通过与多种实时、离线计算框架、计算服务的对接方式,满足结构化、半结构化、非...
来自: 解决方案
存储EBS
阿里云块存储EBS是为云服务器ECS提供的低时延、持久性、高可靠的块级随机存储,拥有丰富的产品类型,多元的存储特性,适用于自建数据库加速,快照数据保护等场景,ESSD PL3规格最高可提供100万IOPS以及4000MB/S吞吐能力,有效提升存储性能,大大降低成本。
单盘最高提供 300 万 IOPS.ESSD 最高提供 300 万 IOPS 以及4000MB/S吞吐能力,能满足核心交易系统、自建数据库等重 IO 密集型场景.ESSD 性能变配 秒级生效.ESSD PL1/2/3 规格云盘修改性能等级秒级生效,业务无需等待.ESSD 云盘是阿里云目前性能强劲的企业级云盘规格,基于新一代分布式存储架构,提供单盘高达 300 万的随机...
来自: 云产品
对象存储 OSS
阿里云对象存储 OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云备份服务,提供最高可达 99.995 % 的服务可用性。多种存储类型供选择,全面优化存储成本。
阿里云分布式存储技术获中国发明专利金奖产品优势稳定可靠提供稳定、可靠的数据存储能力业内领先的 99.995%的可用性 SLA 以及 99.9999999999%(12个9)的数据可靠性。支持同城冗余的数据冗余存储机制,当某个可用区不可用时,仍然能够保障数据的正常访问。安全合规提供多维度的数据安全合规能力支持多维度的访问控制能力,...
来自: 云产品
表格存储Tablestore
表格存储Tablestore是阿里云自研的面向海量结构化数据存储的Serverless分布式数据库,它可提供低成本、高性能的存储方案,同时也可提供稳定与极致的数据服务。
分布式存储架构,单点故障快速检测快速恢复,按照99.99%可用性设计.企业级服务,稳定安全.多维度、多层次的安全防护与访问控制,保障数据安全.能够满足不同场景不同类型数据存储.无需结构定义,属性列能够灵活动态扩展。适用非强事务、海量在线数据存储与查询.针对时间序列数据的特点进行设计,提供更高压缩比,支持数据...
来自: 云产品
基于弹性供应组构建大数据分析集群
<em>基于</em>弹性供应组构建大数据分析集群
场景描述 基于弹性供应组(APG)搭建spark计算集 群,提供一键开启跨售卖方式、跨可用区、 跨实例规格的计算集群交付模式的实践。 方案优势 1.超低成本:跨售卖方式提供计算实 例,按秒计费,可全部使用spot实例 交付,最高可省90%成本。 2.稳定可靠:跨可用域、跨实例规格, 降低spot被集体释放的风险;自动托 管,分钟级巡检,动态保证集群的算 力。 3.快速交付:单次可在5分钟内交付 2000个实例。 4.多策略组合:可分别指定spot和按量 实例的交付策略,以及差额补足的策 略,包括成本最低、打散和折中。 解决问题 1.大规模计算集群成本高。 2.创建ECS实例方式单一,无法跨计费 方式、可用区及规格等核心参数。 3.当可用区资源紧张,无法自动保证基于 spot类型的稳定算力。 产品列表 专有网络VPC 云服务器ECS
基础配置:配置项 说明 付费模式 按量付费 地域及可用区 华东 1(杭州)可用区 H 实例 优先选择大数据型、本地 SSD等本地盘系列,由于像 HDFS本身 就是高可用的分布式文件系统,所以本地盘系列 D、I系列特别适 合 Hadoop、Spark等集群对高 IO的需求。架构:x86计算 分类:大数据型 实例规格:ecs.d1ne.2xlarge 购买实例数量...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,弹性公网IP
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
<em>基于</em>湖仓一体架构使用MaxCompute对OSS湖数据分析预测
本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测实践 业务架构 场景描述 数据湖和数据仓库是当前大数据技术条件下构建分布式系 统的两种数据架构设计取向,数据湖偏向灵活性,数据仓 库侧重成本、性能、安全、治理等企业级特性。但是数据 湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理能 力、数据仓库延伸到外部...
来自: 最佳实践 | 相关产品:对象存储 OSS,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,API网关,数据湖构建,云速搭
Spark on ECI大数据分析
Spark on ECI大数据分析
场景描述 方案优势 1.计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。 2.计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。 3.Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。 解决问题 1.计算资源弹性能力不足,计算资源成本管 控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离,大数据量分析时出 现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持 有限等缺点。 产品列表 容器服务Kubernetes版(ACK) 弹性容器实例(ECI) 文件存储HDFS 对象存储OSS 专有网络VPC 容器镜像服务ACR
应用范围 需要使用 Spark on Kubernetes解决方案的用户 对 Spark大数据分析平台计算资源成本控制考虑的用户 需要有灵活可扩展计算平台资源弹性及管控的用户 名词解释 文件存储 HDFS:阿里云文件存储 HDFS是面向阿里云 ECS实例及容器服务等计 算资源的文件存储服务,允许用户像在 Hadoop分布式文件系统中管理和访问数 据,...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,容器服务 ACK,弹性容器实例 ECI,文件存储HDFS
中间件
阿里云中间件产品支撑了淘宝、天猫、盒马、菜鸟、高德等阿里巴巴集团核心业务,整合了阿里云计算、存储、网络等基础产品,服务百万企业与开发者,助力系统稳定高效运行。
分布式协调 MSE ZooKeeper 提供了丰富的分布式锁,分布式队列等功能。可为 Hadoop、HBase、Kafka、Flink 等大数据系统提供分布式协调组件,提升高可用能力,快速高效地实现分布式应用系统的构建。推荐搭配使用 容器服务 ACK 容器服务 Serverless 版 企业级分布式应用服务 EDAS Serverless 应用引擎 SAE客户案例 中间件相关...
来自: 云产品
注册配置中心
注册配置相比开源版,Nacos 和 Zookeeper 商业版具有更强的性能和 SLA 保障,并提供了丰富完善的监控报警、简单易用的控制台运维操作。
通过动态配置,您可以敏捷地管理分布式架构,也可在DevOps流程中充分优化运维效率.MSE ZooKeeper提供了丰富的分布式锁、分布式队列等功能,可为自建分布式应用提供多种分布式协调解决方案。对于 Hadoop、HBase、Kafka和Flink等大数据组件,可使用MSE ZooKeeper 实现 High Availability 方案.相比自建,MSE 注册配置中心...
来自: 云产品
微服务引擎MSE
微服务引擎 MSE 面向业界注册配置中心、分布式协调、云原生网关、微服务治理和分布式任务调度等主流开源项目,提供商业版服务。
基于 Akka 架构的分布式任务调度平台(兼容开源 XXL-JOB/ElasticJob/K8s Job/Spring Schedule),支持 Cron 定时、一次性任务、任务编排、分布式数据处理,具有高可用、可视化、可运维、低延时等能力.支持秒级别调度、轻量级分布式计算,可以助力您完成准实时的大数据跑批.通过分布式架构、数据三备份、消息 At-least-once ...
来自: 云产品
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
场景描述 客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。 方案优势 1. 全托管Spark集群免运维,节省人力成本。 2. Databricks数据洞察与阿里云其他产品(OSS、RDS、MaxCompute、EMR)进行深度整合,支持以这些产品为数据源的输入和输出。 3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。 解决问题 1. Hive数仓数据迁移OSS方案。 2. Hive元数据库迁移阿里云RDS方案。 3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。
详见:https://www.aliyun.com/product/oss Hive:Apache Hive是基于 Hadoop的一个数据仓库工具,可以将结构化的数据 文件映射为一张数据库表,并提供简单的 SQL查询功能,可以将 SQL语句转换 为 MapReduce任务进行运行。其优点是学习成本低,可以通过类 SQL语句快速 实现简单的 MapReduce统计,不必开发专门的 MapReduce...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储HDFS,spark
EMR HBase on OSS算分离集群快速恢复
EMR HBase on OSS<em>存</em>算分离集群快速恢复
OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。
服务特性 OSS-HDFS服务支持的特性如下:HDFS兼容访问 OSS-HDFS 服务完全兼容 HDFS 接口,同时支持目录层级的操作,您只需集成 JindoSDK,即可为 Apache Hadoop的计算分析应用(例如 MapReduce、Hive、Spark、Flink等)提供了访问 HDFS服务的能力,像使用 Hadoop分布式文件系 统(HDFS)一样管理和访问数据。POSIX能力支持 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,E-MapReduce,云速搭CADT
云原生企业级数据湖解决方案
云原生企业级数据湖解决方案,数据湖解决方案,无缝对接多种计算分析平台,数据湖中的数据可以直接进行数据分析、处理。
OSS存储海量非结构化和半结构化数据,表格存储OTS服务化的分布式NoSQL服务存储海量结构化数据•PAI DLC分布式训练加速,提升训练速度,缩短训练时长;在推理场景中,借助PAI Blade和EAS组合,大幅提升资源利用率.谢赟辉,靖鑫,也树.在线教育数据湖实践.用户数过亿的某在线教育平台.客户需求 课件素材、应用日志、学习采样...
来自: 解决方案
云原生大数据计算服务MaxCompute
阿里云云原生大数据计算服务MaxCompute是面向分析的企业级云数仓,作为一体化大数据智能计算平台ODPS的大规模批量计算引擎,MaxCompute以 Serverless 架构提供快速、全托管的在线数据仓库服务,使您经济高效的分析处理海量数据,进行敏捷的业务洞察。
MaxCompute 提供完善的数据导入方案以及多种经典的分布式计算模型,可快速解决克拉克拉所面临的海量数据的计算问题,有效降低企业成本并保障数据安全。对于使用方的我们不必关心分布式计算和维护细节便可轻松完成大数据业务的分析与应用,最终我们采用阿里云 MaxCompute 方案进行数据上云.大数据团队负责人 田亮.二维火...
来自: 云产品
自建Hive数仓迁移到阿里云EMR
自建Hive数仓迁移到阿里云EMR
场景描述 客户在IDC或者公有云环境自建Hadoop集群构 建数据仓库和分析系统,购买阿里云EMR集群之 后,涉及到将数据仓库和Hive元数据的数据库迁 移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本),涉及到 数据订正更新步骤。 解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
名词解释 Hive Apache Hive是基于 Hadoop的一个数据仓库工具,可以将结构化的数据文件映 射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce任务进行运行。其优点是学习成本低,可以通过类 SQL语句快速实 现简单的 MapReduce统计,不必开发专门的 MapReduce应用,十分适合数据仓 库的统计分析...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
云消息队列 Kafka 版
云消息队列 Kafka 版是阿里云基于Apache Kafka构建的大数据消息中间件,广泛用于日志收集和分析、数据处理等场景。可提供全托管服务,用户无需部署运维,更专业、更可靠、更安全。
消息队列 Kafka 版是阿里云基于 Apache Kafka 构建的高吞吐量、高可扩展性的分布式消息队列服务,广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等,是大数据生态中不可或缺的产品之一,阿里云提供全托管服务,用户无需部署运维,更专业、更可靠、更安全.消息队列 RocketMQ 版.消息队列 RabbitMQ 版.消息...
来自: 云产品
< 1 2 3 4 ... 9 >
共有9页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用