基于湖一体架构使用MaxCompute对OSS湖数据分析预测
基于湖<em>仓</em>一体架构使用MaxCompute对OSS湖<em>数据</em>分析预测
本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测实践 业务架构 场景描述 数据湖和数据仓库是当前大数据技术条件下构建分布式系 统的两种数据架构设计取向,数据湖偏向灵活性,数据 侧重成本、性能、安全、治理等企业级特性。但是数据 湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理能 力、数据仓库延伸到外部...
来自: 最佳实践 相关产品:对象存储 OSS,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,API网关,数据湖构建,云速搭
利用交互式分析(Hologres)进行数据查询
利用交互式分析(Hologres)进行<em>数据</em>查询
场景描述:随着收集数据的方式不断丰富,企业信息化 程度越来越高,企业掌握的数据量呈TB、 PB或EB级别增长。同时,数据中台的快 速推进,使数据应用主要为数据支撑、用户 画像、实时圈人及广告精准投放等核心业务 服务。高可靠和低延时地数据服务成为企业 数字化转型的关键。 Hologres致力于低成本和高性能地大规模 计算型存储和强大的查询能力,为您提供海 量数据的实时数据仓库解决方案和实时交 互式查询服务。 解决问题 1.加速查询MaxCompute数据 2.快速搭建实时数据仓库 3.无缝对接主流BI工具 产品列表 MaxCompute Hologres 实时计算Flink 专有网络VPC DataWorks DataV
同时, 据中台的快速推进,使数据应用主要为数据支撑、用户画 像、实时圈人及广告精准投放等核心业务服务。高可靠 低延时地数据服务成为企业数字化转型的关键。Hologres致力于低成本高性能地大规模计算型存储 强大的查询能力,为您提供海量数据的实时数据仓库解决 方案实时交互式查询服务。解决问题 1.加速查询...
来自: 最佳实践 | 相关产品:大数据计算服务 MaxCompute,DataV数据可视化,实时计算,Hologres,云速搭CADT
大数据近实时数据投递MaxCompute
大数据近实时<em>数据</em>投递MaxCompute
本文介绍离线大数据场景使MaxCompute构建云 上近实时数仓,打通云下数据上云链路,解决数据复杂类型支持和动态分区问题,满足高级数据处理需求的最佳实践。 l混合云环境下,现有业务系统零改造,打通数据上云链路。 l使用UDF实现复杂数据类型转换和数据动态分区。 l使用DataWorks配置周期调度业务流程,数据自动入仓。 l借助MaxCompute优化计算引擎,实现降本增效。 产品列表 云服务器ECS 专有网络VPC 访问控制RAM 数据总线DataHub E-MapReduceEMR DataWorks 大数据计算服务MaxCompute
提供用户在云上使用开 源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场 景下的大数据解决方案。详见:https://www.aliyun.com/product/emapreduce 大数据计算服务 MaxCompute:是一项大数据计算服务,它能提供快速、完全 托管的 PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。详见...
来自: 最佳实践 | 相关产品:块存储,专有网络 VPC,云服务器ECS,访问控制,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,数据总线,云速搭CADT
数据传输服务DTS
阿里云数据传输服务集数据迁移、订阅及实时同步功能于一体,能够解决公共云、混合云场景下,远距离、毫秒级异步数据传输难题,支持关系型数据库、NoSQL、大数据(OLAP)等数据源,其底层基础设施采用阿里双11异地多活架构,为数千下游应用提供实时数据流,已在线上稳定运行7年之久。
可以将源端数据库数据实时同步到数据仓库,构建实时分析数仓,也可以根据调度策略的配置,定期地将源库中的结构存量数据迁移至目标库中,构建更加灵活的数据仓库(例如构建T+1的周期性数仓).实时同步功能支持将并发粒度缩小到事务级别,能够并发同步同张表的更新数据,提升同步性能;支持多并发压缩传输,降低传输链路对...
来自: 云产品
多媒体数据存储与分发
以搭建一个多媒体数据存储与分发服务为例,搭建一个多媒体数据存储与分发服务。
产品解决方案文档与社区权益中心定价云市场合作伙伴支持与服务了解阿里云备案控制台多媒体数据存储与分发方案介绍方案优势应用场景方案部署方案权益多媒体数据存储与分发视频、图文类多媒体数据量快速增长,内容不断丰富,多媒体数据存储与分发解决方案融合对象存储 OSS、内容分发 CDN、智能媒体管理 IMM 等产品能力,解决...
来自: 解决方案
数据湖构建 Data Lake Formation
数据湖构建服务是阿里云上数据湖架构中的核心部分,助力用户构建数据湖系统。支持多数据源实时入湖,实现湖上元数据统一管理,提供企业级权限控制,无缝对接多种计算引擎,打破孤岛,洞察业务价值
随着用户业务的逐渐清晰与沉淀,用户面临着数据湖和数据仓库架构的融合,依托于阿里云数据仓库(MaxCompute、Hologres、ADB等产品)数据湖构建产品,帮助用户打造湖一体的数据系统,让数据计算在湖和仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系.数据湖构建产品提供用户全托管服务,仅需简单点击操作...
来自: 云产品
应用日志数据归档
方案为企业提供云上日志数据的存储成本优化。提供了访问日志数据采集、自动压缩、持久化存储,满足企业的网站访问日志数据的归档需求。具有低成本、免运维、弹性扩容的优势。
相关产品云服务器 ECS日志服务 SLS对象存储 OSS专有网络 VPC在线咨询方案优势大规模采集支持高吞吐量的日志数据采集,每秒可达百万条日志数据,可满足大规模应用的日志采集需求。自动化压缩提供自动化压缩功能,可对采集到的日志数据进行压缩处理,减少存储空间占用,节省存储资源。持久化存储支持将日志数据归档到对象...
来自: 解决方案
Databricks数据洞察
阿里云Databricks数据洞察是基于Apache Spark的全托管数据分析平台, 内核采用更高效、稳定的商业版Databricks Runtime和Delta Lake。可满足数据分析师、数据工程师和数据科学家在大数据场景下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等需求
Databricks数据洞察是基于Apache Spark的全托管数据分析平台,内核采用更高效稳定的商业版Databricks RuntimeDelta Lake,满足用户对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。...自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察.使用Databricks的Notebook进行机器学习开发.
来自: 云产品
数据总线Datahub
数据总线(DataHub)服务是阿里云提供的流式数据(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅(Subscribe)的功能,拥有高吞吐量、高稳定性、低成本等特点,与阿里云大数据生态系统完美打通,让您可以轻松构建基于流式数据的分析和应用。
实时数据仓库.数据总线替换传统数据库,构建实时数仓.查看全部日志.提供多种SDK、APIFlume、Logstash等第三方插件,让您高效便捷的把数据接入到数据总线.提供DataConnector模块,稍作配置即可把接入的数据实时同步到下游MaxCompute、OSS、TableStore等存储分析系统,极大减轻了数据链路的工作量.灵活的缓存时间,下游可...
来自: 云产品
数据安全中心
敏感数据保护(Sensitive Data Discovery and Protection),在满足等保v2.0“安全审计”、等保v3.0及“个人信息保护”的合规要求的基础上,为客户提供敏感数据识别、分级分类、数据安全审计、数据脱敏、智能异常检测等数据安全能力,形成一体化的数据安全解决方案。
从海量数据中发现锁定保护对象,通过内置算法规则自定义敏感数据识别规则,对其存储的数据库类型数据以及非数据库类型文件进行整体扫描、分类、分级,并根据结果做进一步的安全防护,如细粒度访问控制、加密保存等.敏感数据识别.细粒度行为审计追溯的能力,可审计用户终端信息、使用工具、数据信息、返回结果等详细信息...
来自: 云产品
数据传输解决方案
数据传输解决方案支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。 它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共云、混合云场景下,解决远距离、毫秒级异步数据传输难题。
实时数据仓库、实时搜索、数据汇总.跨境实时同步.轻量级业务解耦.架构覆盖场景.RPO:0-亚秒级.数据传输特性.数据传输服务DTS业务架构.根据您提交的需求,将有售前专家免费服务!根据您提交的需求,将有售前专家免费服务!售前专家免费服务.从RDS向后端数据汇总,获得全局业务的实时统计、BI报表分析.数据传输DTS.云数据库...
来自: 解决方案
数据管理与服务
数据管理与服务作为阿里云产品六大版块之一,面向不同业务场景,阿里云提供数据存储、分析、应用等全链路能力,满足企业客户全方位的数据处理需求,实现计算和存储分离、资源解耦、数据移动减化,用以满足行业快速发展的需求和趋势,利用数据重塑其业务。
图计算及其应用.DataWorks智能数据建模沉淀阿里巴巴数据中台建模方法论,以维度建模为基础,从数仓规划、数据标准、维度建模、数据指标四个方面,以业务视角对业务的数据进行诠释,让数据仓库的建设向规范化,可持续发展方向演进。通过本书,你可以学习到:1.数据建模理论与规范 2.菜鸟、大淘系数据建模实践 3.工业、汽车...
来自: 云产品
企业上云数据安全
企业上云<em>数据</em>安全
场景描述 企业是否选择上公共云,或者哪些系统或数据上 公共云,对数据安全的关心是重要因素之一。本 最佳实践重点在于介绍狭义的数据加密存储安 全范畴,即首先使用SDDP产品进行敏感数据发 现和分级分类,然后对高级别敏感数据进行按 需、不同类型的全链路加密存储。 解决问题 1.帮助客户发现敏感数据 2.对敏感数据进行分类、分级 3.对不同级别的数据如何选择加密方式 4.具体如何进行加密 产品列表 敏感数据识别SDDP 密钥管理服务KMS 云数据库RDS 对象存储OSS
本最佳实践重点在于介绍狭义的数据加密 存储安全范畴,即首先使用 SDDP产品进行敏 感数据发现分级分类,然后对高级别敏感 进行按需、不同类型的全链路加密存储。解决问题 1.帮助客户发现敏感数据 2.对敏感数据进行分类、分级 3.对不同级别的数据如何选择加密方式 4.具体如何进行加密 产品列表 敏感数据识别 SDDP 密钥...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,密钥管理服务,敏感数据保护,云速搭CADT
互联网电商行业离线大数据分析
互联网电商行业离线大<em>数据</em>分析
电商网站销售数据通过大数据分析后将业务指标数据在大屏幕上展示,如销售指标、客户指标、销售排名、订单地区分布等。大屏上销售数据可视化动态展示,效果震撼,触控大屏支持用户自助查询数据,极大地增强数据的可读性。
 大数据开发治理平台DataWorks:基于阿里云ODPS/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,互联网电商行业离线大数据分析 最佳实践概述 DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与万名政务/金融/零售/互联网/...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,API网关,云速搭CADT
本地数据中心基于SMB/NFS协议访问对象存储最佳实践
本地<em>数据</em>中心基于SMB/NFS协议访问对象存储最佳实践
1. 云存储扩容和迁移 集成智能缓存算法,自动识别冷热数据,将热数据保留在本地缓存,保证数据访问体验,无感知的将海量云存储数据接入本地数据中心,拓展存储空间。同时在云端 保留全量数据(冷+热)保证数据的一致性 2.云容灾 随着云计算的普及,越来越多的用户把自己的业务放到了云上。但是随着业务的发展,如何提高业务的可靠性和连续性,跨云容灾是一个比较热门的话题。借助云存 储网关对虚拟化的全面支持,可以轻松应对各种第三方云厂商对接阿里云的数据容灾。 3. 多地数据共享和分发 通过多个异地部署的文件网关实例,对接同一个阿里云OSS Bucket,可以实现快速的异地文件共享和分发,非常适合多个分支机构之间互相同步和共享数据。 4. 适配传统应用 有很多用户在云上的业务是新老业务的结合,老业务是从数据中心迁移过来的使用的是标准的存储协议,例如: NFS/SMB/iSCSI。新的应用往往采用比较新的技 术,支持对象访问的协议。如何沟通两种业务之间的数据是一个比较麻烦的事情,云存储网关正好起到一个桥梁的作用,可以便捷的沟通新旧业务,进行数据交换。 5. 替代 ossfs 和 ossftp ossfs 和 ossftp 都是基于文件协议的开源工具,用户可以通过它们直接上传文件到OSS。但是这两个开源文件都不建议在生产环境使用(POSIX 兼容度低),同时挂 载在用户的客户端需要额外的配置和缓存资源,对于多个客户端的情况安装配置繁琐。通过文件网关的服务可以完美替代 ossfs 和 ossftp。通过创建文件网关,用 户只需要执行简单的挂载(NFS)和映射(Windows SMB)就可以像使用本地文件系统一样使用 OSS。
云上网络环境不同于数据中 心,后续章节在配置 Hyper-V网络会有些差别。通过裸金属服务器的模拟也说明 了只要第三方云厂商的计算也有二次虚拟化能力,同样可以使用本地云存储网关 服务,实现第三方云厂商对接阿里云的数据容灾。2.本地数据中心的云存储网关默认通过公网就可以访问阿里云对象存储 OSS,若专 线打通的情况下也...
来自: 最佳实践 | 相关产品:对象存储 OSS,云存储网关
数据集成 Data Integration
阿里云数据集成 Data Integration是跨异构数据、低成本、弹性扩展的数据采集同步平台,为DataX的商业版,支持ETL,支持50+数据源跨网络离线(全量/增量)同步。
为了加快建设“三型两网、世界一流”发展战略,通过整体电力解决方案,进行数据中台规划与建设,构建电力行业新一代信息基础平台,带动公司IT和数据资源建设、应用及运维向企业级转变.一云多Region数据中台架构.统一运营运维管理.建设电力一朵云,形成“IT资源服务中心”数据服务中心”,实现运营“两级协同”,满足...
来自: 云产品
数据管理DMS
数据管理DMS是基于阿里巴巴集团十余年的数据库服务平台的云版本,提供免安装、免运维、即开即用、多种数据库类型与多种环境统一的web数据库管理终端;可以为企业用户快速复制搭建与阿里集团同等安全、高效、规范的数据库DevOps研发流程解决方案。
覆盖主流的关系型数据库、NoSQL数据库、数据仓库、消息队列的迁移、订阅与同步;支持多种引擎,客户通过统一的方式对这些引擎进行开发,无需考虑引擎的差异性.多场景与服务支持.支持定期全量/增量的周期性集成(最细调度周期可低至5分钟间隔)、秒级实时集成;流批一体:支持流式数据加工、批量数据加工,数据实时性/处理...
来自: 云产品
异地双活场景下的数据双向同步
异地双活场景下的<em>数据</em>双向同步
概述 随着客户业务规模的扩大,对系统高可用性要求越来越高,越来越多用户采用异地双活/多活架构,多活架构往往涉及业务侧做单元化改造,本方案仅模拟用户已做单元化改造后的数据双向同步,数据库采用双主架构,本地写本地读,同时又保证双库的数据一致性,为业务增加可用性和灵活性。 适用场景 数据库双向同步 数据库全局ID不冲突 双活架构的数据库建设问题 技术架构 本实践方案基于如下图所示的技术架构和主要流程编写操作步骤: 方案优势 DTS双向同步,采用独立模块避免数据同步占用系统资源。 奇偶ID涉及,避免数据冲突。 DTS多种处理冲突的方式供业务选择。 安全:原生的多租户系统,以项目进行隔离,所有计算任务在安全沙箱中运行。
对系统高可用性要求越 数据库双向同步 来越高,越来越多用户采用异地双活/多活架构,多 数据库全局 ID不冲突 活架构往往涉及业务侧做单元化改造,本方案仅模 双活架构的数据库建设问题 拟用户已做单元化改造后的数据双向同步,数据库 采用双主架构,本地写本地读,同时又保证双 一致性,为业务增加可用性灵活性。...
来自: 最佳实践 | 相关产品:云数据库RDS MySQL 版,负载均衡 SLB,容器服务 ACK,数据传输,云企业网,容器镜像服务 ACR,云解析DNS
基于DataWorks的大数据一站式开发及数据治理
基于DataWorks的大数据一站式开发及<em>数据</em>治理
概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
详情请查看 www.aliyun.com/product/emapreduce DataWorks: 基于 MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户提 供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万名 数据/算法工程师正在使用 DataWorks,承担集团 ...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭
DTS数据同步集成MaxCompute数仓
DTS<em>数据</em>同步集成MaxCompute数仓
场景描述 本文Step by Step介绍了通过数据传输服务 DTS实现从云数据库RDS到MaxCompute的 数据同步集成,并介绍如何使用DTS和 MaxCompute数仓联合实现数据ETL幂等和数 据生命周期快速回溯。 解决问题 1.实现大数据实时同步集成。 2.实现数据ETL幂等。 3.实现数据生命周期快速回溯。 产品列表 MaxCompute 数据传输服务DTS DataWorks 云数据库RDS MySQL 版
数据抽取不幂等或容错率低,如凌晨 0:00启动的 ETL任务因为各种原因(数据库 HA切换、网络抖动或 MAXC写入失败等)失败后,再次抽取无法获取 0:00时的 状态。2.针对不规范设计表,如没有 create_time/update_time的历史遗留表,传统 ETL需 全量抽取。3.实时性差,抽取数据+重试任务往往需要 1-3小时。另外数据库的数据...
来自: 最佳实践 | 相关产品:专有网络 VPC,云数据库RDS MySQL 版,数据传输,DataWorks,大数据计算服务 MaxCompute
< 1 2 3 4 5 >
共有5页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用