云Clickhouse冷热数据分层存储
云Clickhouse冷热<em>数据</em>分层存储
基于云ClickHouse可以给电商、游戏、互联网以及其他行业提供高性能、高稳定性、低维护成本、高性价比的实时数据分析、精准营销、业务运营、业务分析、业务预警、业务营销、数仓加速等场景化方案,本实践会向客户提供数据库低维护成本、数据库链路构建、冷热分层存储、快熟分析等操作实践。 解决问题 1. 维护成本低不用建设维护体系,稳定性高,数据倾斜自动均衡。 2. 完善的数据同步链路,可以平滑将业务库、大数据、日志服务的数据同步到Clickhouse,降低研发成本。 3. 平滑升级版本,业务中断小。 冷热分层后透明读取,帮客户节约整体数据存储成本。
热存可存储数据物理大小=云 ClickHouse集群磁盘 空间*(1- 移 动 因 子),关 于 移 动 因 子描述 参 考:https://help.aliyun.com/document_detail/202879.html 通过该步骤创建一个宽并写入大量数据,突破“热存可存储数据物理大小”,触发部 文档版本:20210416 42 云 ClickHouse冷热数据分层存储最佳实践 ...
来自: 最佳实践 相关产品:云数据库RDS MySQL 版,数据传输,日志服务(SLS),云数据库 ClickHouse
影视数据分发汇集与传输加速
影视<em>数据</em>分发汇集与传输加速
场景描述 使用阿里云对象存储服务OSS及OSSBrowser 工具,实现影视数据多用户多地域分发、汇集, 以及传输加速的最佳实践。 解决问题 1.跨地域、多角色、分权限文件上传、下载。 2.基于OSS及其客户端实现Serverless文件 分发服务(可替换传统FTP服务)。 3.OSS文件传输全球加速。 产品列表 lOSS lRAM
影视数据分发汇集与传输加速 场景描述 业务架构 使用阿里云对象存储服务 OSS及 OSSBrowser 工具,实现影视数据多用户多地域分发、汇集,以及传输加速的最佳实践。解决问题 1.跨地域、多角色、分权限文件上传、下载。2.基于 OSS及其客户端实现 Serverless文件 分发服务(可替换传统 FTP服务)。3.OSS文件传输全球加速。产品...
来自: 最佳实践 | 相关产品:对象存储 OSS,访问控制
大数据近实时数据投递MaxCompute
大数据近实时<em>数据</em>投递MaxCompute
本文介绍离线大数据场景使MaxCompute构建云 上近实时数仓,打通云下数据上云链路,解决数据复杂类型支持和动态分区问题,满足高级数据处理需求的最佳实践。 l混合云环境下,现有业务系统零改造,打通数据上云链路。 l使用UDF实现复杂数据类型转换和数据动态分区。 l使用DataWorks配置周期调度业务流程,数据自动入仓。 l借助MaxCompute优化计算引擎,实现降本增效。 产品列表 云服务器ECS 专有网络VPC 访问控制RAM 数据总线DataHub E-MapReduceEMR DataWorks 大数据计算服务MaxCompute
文档版本:20240419(发布日期)文档版本:20150122(发布日期)I 大数据近实时数据投递 MaxCompute 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 大数据近实时数据投递 MaxCompute 文档编号 166 文档版本 V1.3 版本日期 2024-04-19 文档状态 对外发布 制作人 厉博 审阅人 文档变更记录 版本编号 日期 作者 审核...
来自: 最佳实践 | 相关产品:块存储,专有网络 VPC,云服务器ECS,访问控制,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,数据总线,云速搭CADT
湖仓一体架构EMR元数据迁移DLF
湖仓一体架构EMR元<em>数据</em>迁移DLF
通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF,通过统一的元数据管理,多种数据源入湖,搭建高效的数据湖解决方案。
湖仓一体架构 EMR元数据迁移 DLF最佳实践 业务架构 场景描述 解决的问题 通过 EMR+DLF数据湖方案,可以为企业提供数据 EMR元数据迁移至 DLF 湖内的统一的元数据管理,统一的权限管理,支持多 元数据迁移验证 源数据入湖以及一站式数据探索的能力。本方案支 数据一致性校验 持已有 EMR集群元数据库使用 RDS或内置 MySQL ...
来自: 最佳实践 | 相关产品:E-MapReduce,数据湖构建
互联网电商行业离线大数据分析
互联网电商行业离线大<em>数据</em>分析
电商网站销售数据通过大数据分析后将业务指标数据在大屏幕上展示,如销售指标、客户指标、销售排名、订单地区分布等。大屏上销售数据可视化动态展示,效果震撼,触控大屏支持用户自助查询数据,极大地增强数据的可读性。
互联网电商行业离线大数据分析 最佳实践 II 文档版本:20150122(发布日期)文档版本:20240417(发布日期)互联网电商行业离线大数据分析 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 互联网电商行业离线大数据分析 文档编号 060 文档版本 V1.9 版本日期 2024-04-17 文档状态 外部发布 制作人 六稻,阿瑟 审阅...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,API网关,云速搭CADT
电商网站数据埋点及分析
电商网站<em>数据</em>埋点及分析
场景描述 数据埋点是数据产品经理、数据运营以及数据分 析师,基于业务需求(例如:CPC点击付费广 告中统计每一个广告位的点击次数),产品需求 (例如:推荐系统中推荐商品的曝光次数以及点 击的人数)对用户行为的每一个事件对应的位置 进行开发埋点,并通过SDK上报埋点的数据结 果,记录数据汇总后进行分析,推动产品优化或 指导运营。 解决问题 1.电商网站广告位效果统计分析 2.电网网站推荐商品曝光、点击、购买等行为统 计分析 3.电商网站用户分布分析 4.电商网站页面热点图分析等 产品列表 日志服务SLS Dataworks 云服务器ECS 云数据库RDS版 负载均衡SLB 专有网络VPC
文档版本:20220127 XVI 电商网站数据埋点及分析 电商网站数据埋点 步骤3 找到 customer_entity这张表(即用户),执行 SQL操作,发现当前仅一条示例数据(如果有数据可以先删除,再执行数据生成)。文档版本:20220127 XVII 电商网站数据埋点及分析 电商网站数据埋点 步骤4 执行数据生成,构建假数据。文档版本:...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,日志服务(SLS),DataWorks,云速搭CADT
DTS数据同步集成MaxCompute数仓
DTS<em>数据</em>同步集成MaxCompute数仓
场景描述 本文Step by Step介绍了通过数据传输服务 DTS实现从云数据库RDS到MaxCompute的 数据同步集成,并介绍如何使用DTS和 MaxCompute数仓联合实现数据ETL幂等和数 据生命周期快速回溯。 解决问题 1.实现大数据实时同步集成。 2.实现数据ETL幂等。 3.实现数据生命周期快速回溯。 产品列表 MaxCompute 数据传输服务DTS DataWorks 云数据库RDS MySQL 版
数据抽取不幂等或容错率低,如凌晨 0:00启动的 ETL任务因为各种原因(数据库 HA切换、网络抖动或 MAXC写入失败等)失败后,再次抽取无法获取 0:00时的 状态。2.针对不规范设计,如没有 create_time/update_time的历史遗留,传统 ETL需 全量抽取。3.实时性差,抽取数据+重试任务往往需要 1-3小时。另外数据库的数据...
来自: 最佳实践 | 相关产品:专有网络 VPC,云数据库RDS MySQL 版,数据传输,DataWorks,大数据计算服务 MaxCompute
利用交互式分析(Hologres)进行数据查询
利用交互式分析(Hologres)进行<em>数据</em>查询
场景描述:随着收集数据的方式不断丰富,企业信息化 程度越来越高,企业掌握的数据量呈TB、 PB或EB级别增长。同时,数据中台的快 速推进,使数据应用主要为数据支撑、用户 画像、实时圈人及广告精准投放等核心业务 服务。高可靠和低延时地数据服务成为企业 数字化转型的关键。 Hologres致力于低成本和高性能地大规模 计算型存储和强大的查询能力,为您提供海 量数据的实时数据仓库解决方案和实时交 互式查询服务。 解决问题 1.加速查询MaxCompute数据 2.快速搭建实时数据仓库 3.无缝对接主流BI工具 产品列表 MaxCompute Hologres 实时计算Flink 专有网络VPC DataWorks DataV
Hologres常见使用场景 联邦分析实时数据和离线数据 业务数据分为冷数据和热数据,冷数据存储在离线数据仓库MaxCompute中,热 存储在Hologres中。Hologres可以联邦分析实时数据和离线数据,对接BI分析 工具,快速响应简单查询与复杂查询的业务需求。图1.联邦分析架构图 实时数据仓库 实时写入业务数据至实时计算,使用...
来自: 最佳实践 | 相关产品:大数据计算服务 MaxCompute,DataV数据可视化,实时计算,Hologres,云速搭CADT
基于DataWorks的大数据一站式开发及数据治理
基于DataWorks的大数据一站式开发及<em>数据</em>治理
概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
基于 DataWorks的大数据一站式开发及数据治理 最佳实践 业务架构 场景描述 解决问题 本实践基于 Dataworks做大数据一站式开发,包含 日志采集、处理及分析 数据实时采集到 kafka 通过实时计算对数据进行 日志使用 Flink实时写入 HDFS ETL写入 HDFS,使用 Hive进行数据分析。通过 日志数据实时 ETL Dataworks进行数据治理,...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭
Spark on ECI大数据分析
Spark on ECI大<em>数据</em>分析
场景描述 方案优势 1.计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。 2.计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。 3.Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。 解决问题 1.计算资源弹性能力不足,计算资源成本管 控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离,大数据量分析时出 现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持 有限等缺点。 产品列表 容器服务Kubernetes版(ACK) 弹性容器实例(ECI) 文件存储HDFS 对象存储OSS 专有网络VPC 容器镜像服务ACR
Spark on Kubernetes解决方案的用户 对 Spark大数据分析平台计算资源成本控制考虑的用户 需要有灵活可扩展计算平台资源弹性及管控的用户 名词解释 文件存储 HDFS:阿里云文件存储 HDFS是面向阿里云 ECS实例及容器服务等计 算资源的文件存储服务,允许用户像在 Hadoop分布式文件系统中管理和访问 ,无需对数据分析应用做...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,容器服务 ACK,弹性容器实例 ECI,文件存储HDFS
利用低成本链路完成业务数据迁移上云
利用低成本链路完成业务<em>数据</em>迁移上云
场景描述 随着云计算被越来越多的客户所接受,除业务系 统上云外,很多客户已经把业务数据搬迁上云。 业务数据量一般都比较大,迁移上云需要大量的 网络带宽,BGP费用比较高。阿里云对用户开 放所需地域购买静态单线共享带宽包的权限(移 动/联通/电信均可),可用为迁移数据有效降低 成本。 解决问题 1.业务数据上云网络成本高 产品列表 专有网络VPC 云服务器ECS 网络存储NAS 共享带宽包
文档版本信息 文本信息 属性 内容 文档名称 利用低成本链路完成业务数据迁移上云 文档编号 033 文档版本 V1.3 版本日期 2020/6/30 文档状态 外部发布 制作人 毕役 审阅人-文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2019/04/16 连辙-创建 V1.1 2019/10/10 筱晖-文档优化 V1.2 2019/12/30 云滴-增加详情页 V1.3 2020...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,文件存储NAS
EMR本地盘实例大规模数据集测试
场景描述 阿里云为了满足大数据场景下的存储需求,在云 上推出了本地盘D1机型,这个系列提供了本地 盘而非云盘作为存储,提高了磁盘的吞吐能力, 发挥Hadoop的就近计算优势。阿里云EMR 产品针对本地盘机型,推出了一整套的自动化运 维方案,帮助用户方便可靠地使用本地盘机型, 不需要关注整个运维过程同时数据的高可靠和 服务的高可用。 解决问题 1.云盘多份冗余数据导致成本高 2.磁盘吞吐量不高 3.节点的高可靠分布问题 4.本地盘与节点的故障监控问题 5.数据迁移时自动决策问题 6.自动故障节点迁移与数据平衡问题 产品列表 EMR(E-MapReduce) 本地盘 VPC
Master节点 通常可以生成 1TB的数据进行基准性能测试,首先进入 hive-testbench目录下执行如 下脚本并加载测试数据 参数说明:数据集规模参数单位为 GB,1000表示生成的数据量为 1TB/tpcdata/tpcds 为表数据生成的目录,目录不存在就自动生成,如果不指定目录, 目录就默认生成到/tmp/tpcds目录下 cd hive-testbench#如果...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
基于湖仓一体架构使用MaxCompute对OSS湖<em>数据</em>分析预测
本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测实践 业务架构 场景描述 数据湖和数据仓库是当前大数据技术条件下构建分布式系 统的两种数据架构设计取向,数据湖偏向灵活性,数据仓 库侧重成本、性能、安全、治理等企业级特性。但是数据 湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理能 力、数据仓库延伸到外部...
来自: 最佳实践 | 相关产品:对象存储 OSS,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,API网关,数据湖构建,云速搭
本地数据中心基于SMB/NFS协议访问对象存储最佳实践
本地<em>数据</em>中心基于SMB/NFS协议访问对象存储最佳实践
1. 云存储扩容和迁移 集成智能缓存算法,自动识别冷热数据,将热数据保留在本地缓存,保证数据访问体验,无感知的将海量云存储数据接入本地数据中心,拓展存储空间。同时在云端 保留全量数据(冷+热)保证数据的一致性 2.云容灾 随着云计算的普及,越来越多的用户把自己的业务放到了云上。但是随着业务的发展,如何提高业务的可靠性和连续性,跨云容灾是一个比较热门的话题。借助云存 储网关对虚拟化的全面支持,可以轻松应对各种第三方云厂商对接阿里云的数据容灾。 3. 多地数据共享和分发 通过多个异地部署的文件网关实例,对接同一个阿里云OSS Bucket,可以实现快速的异地文件共享和分发,非常适合多个分支机构之间互相同步和共享数据。 4. 适配传统应用 有很多用户在云上的业务是新老业务的结合,老业务是从数据中心迁移过来的使用的是标准的存储协议,例如: NFS/SMB/iSCSI。新的应用往往采用比较新的技 术,支持对象访问的协议。如何沟通两种业务之间的数据是一个比较麻烦的事情,云存储网关正好起到一个桥梁的作用,可以便捷的沟通新旧业务,进行数据交换。 5. 替代 ossfs 和 ossftp ossfs 和 ossftp 都是基于文件协议的开源工具,用户可以通过它们直接上传文件到OSS。但是这两个开源文件都不建议在生产环境使用(POSIX 兼容度低),同时挂 载在用户的客户端需要额外的配置和缓存资源,对于多个客户端的情况安装配置繁琐。通过文件网关的服务可以完美替代 ossfs 和 ossftp。通过创建文件网关,用 户只需要执行简单的挂载(NFS)和映射(Windows SMB)就可以像使用本地文件系统一样使用 OSS。
本地数据中心基于 SMB/NFS协议访问对象存储 最佳实践 业务架构 场景描述 本地数据中心在本地存储有限的情况下可以基 于云存储网关搭建一个海量文件系统的文件存 储服务,实现多个数据中心互相之间高效的同步 和共享数据。云存储网关以对象存储 OSS为后 端存储,为云上和云下应用提供业界标准的文件 服务(NFS和 SMB)和块...
来自: 最佳实践 | 相关产品:对象存储 OSS,云存储网关
数据管理与服务
数据管理与服务作为阿里云产品六大版块之一,面向不同业务场景,阿里云提供数据存储、分析、应用等全链路能力,满足企业客户全方位的数据处理需求,实现计算和存储分离、资源解耦、数据移动减化,用以满足行业快速发展的需求和趋势,利用数据重塑其业务。
本篇全域数据集成向开发者介绍通过DataWorks数据集成在多、多到单、单到单等场景下,进行实时或离线同步的技术选型与核心能力,并以MaxCompute与Hologres引擎为例,演示云上数据同步操作步骤最佳实践.全链路数据治理-全域数据集成.2021年10月20日,阿里云正式开源云原生分布式数据库PolarDB-X的源代码,将自...
来自: 云产品
智能数据标注PAI-iTAG
智能数据标注PAI-iTAG是一款智能化数据标注平台,支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注。智能标注PAI-iTAG提供了丰富的标注内容组件和题目组件,可以直接使用平台预置的标注模板,也可以根据场景自定义模板进行数据标注。
智能数据标注 PAI-iTAG 是一款智能化数据标注平台,支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注。智能数据标注 PAI-iTAG 提供了丰富的标注内容组件和题目组件,可以直接使用平台预置的标注模板,也可以根据场景自定义模板进行数据标注.智能数据标注 PAI-iTAG.查看PAI-iTAG产品文档.快速入门PAI-...
来自: 云产品
数据资源平台
阿里云数据资源平台是构建数据智能的全流程平台,提供数据汇聚、数据加工与治理、数据分析、资产管理和统一服务等功能,帮助金融、政府及企业客户实现数据资源管理,潜在规律挖掘,业务决策优化。
数据同步-新建离线数据同步任务.数据同步-新建实时数据同步任务.数据同步-新建配置化数据同步任务.视频跳转链接.查看更多教程.统一服务-连接云计算资源.统一服务-创建并管理应用.统一服务-数据查询.统一服务-创建API.统一服务-测试API.统一服务-编辑并上线API.统一服务-调用API.统一服务-API主动授权.统一服务-查看已获授权...
来自: 云产品
数据总线Datahub
数据总线(DataHub)服务是阿里云提供的流式数据(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅(Subscribe)的功能,拥有高吞吐量、高稳定性、低成本等特点,与阿里云大数据生态系统完美打通,让您可以轻松构建基于流式数据的分析和应用。
提供DataConnector模块,稍配置即可把接入的数据实时同步到下游MaxCompute、OSS、TableStore等存储分析系统,极大减轻了数据链路的工作量.灵活的缓存时间,下游可重复消费,自动多备份,保障数据高可靠性.既有适合人交互的Web控制台,也有适合程序交互的API和SDK,满足各种使用需求.多样化的数据接入和同步能力,灵活的...
来自: 云产品
数据管理DMS
数据管理DMS是基于阿里巴巴集团十余年的数据库服务平台的云版本,提供免安装、免运维、即开即用、多种数据库类型与多种环境统一的web数据库管理终端;可以为企业用户快速复制搭建与阿里集团同等安全、高效、规范的数据库DevOps研发流程解决方案。
快速了解建仓、ETL、数据报表的使用.DMS构建企业极致数据安全管控.全面了解DMS核心功能及使用场景.研发流程解决方案.详细介绍研发规范、研发流程、审批流程的设计与实践.数据安全解决方案.详细介绍数据安全中权限相关的管理实践.数据开发解决方案.详细介绍数仓开发相关功能的实践.配置数据迁移任务.助力用户实现平滑快速的...
来自: 云产品
云原生数据仓库AnalyticDB MySQL数据仓库
阿里云云原生数据仓库AnalyticDB MySQL版(简称AnalyticDB)是融合数据库、大数据技术于一体的云原生企业级数据仓库平台。云原生数据仓库AnalyticDB MySQL版支持数据实时写入和同步更新、实时计算和实时服务,可用于构建企业级报表系统、数据仓库和数据服务引擎。
支持数据和分区级别分为热数据和冷数据,热数据存储在高性能介质,加快查询计算速度;冷数据存储在便宜的HDD介质上,节约存储成本.冷热数据分层.查询速度快,支持对海量日志数据和业务进行即时的复杂关联计算,提高营销效果反馈及时性,快速调整投放策略.营销效果实时反馈.支持多业务数据源,结构化非结构化数据的实时...
来自: 云产品
< 1 2 3 4 5 >
共有5页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用