EMR本地盘实例大规模数据集测试
场景描述 阿里云为了满足大数据场景下的存储需求,在云 上推出了本地盘D1机型,这个系列提供了本地 盘而非云盘作为存储,提高了磁盘的吞吐能力, 发挥Hadoop的就近计算优势。阿里云EMR 产品针对本地盘机型,推出了一整套的自动化运 维方案,帮助用户方便可靠地使用本地盘机型, 不需要关注整个运维过程同时数据的高可靠和 服务的高可用。 解决问题 1.云盘多份冗余数据导致成本高 2.磁盘吞吐量不高 3.节点的高可靠分布问题 4.本地盘与节点的故障监控问题 5.数据迁移时自动决策问题 6.自动故障节点迁移与数据平衡问题 产品列表 EMR(E-MapReduce) 本地盘 VPC
Master节点 通常可以生成 1TB的数据进行基准性能测试,首先进入 hive-testbench目录下执行如 下脚本并加载测试数据 参数说明:数据集规模参数单位为 GB,1000表示生成的数据量为 1TB/tpcdata/tpcds 为表数据生成的目录,目录不存在就自动生成,如果不指定目录, 目录就默认生成到/tmp/tpcds目录下 cd hive-testbench#如果...
来自: 最佳实践 相关产品:块存储,云服务器ECS,E-MapReduce
数据传输解决方案
数据传输解决方案支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。 它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共云、混合云场景下,解决远距离、毫秒级异步数据传输难题。
支持更安全、可靠、快速、灵活的数据传输服务.DTS数据隔离和加密技术、断点续传和容灾守护机制、并行抓取、合并提交、智能分片、SQL数据过滤技术,为用户提供更安全、可靠、快速、灵活的数据传输服务.谢赟辉,靖鑫,也树.从RDS向后端数据汇总,获得全局业务的实时统计、BI报表和分析.云数据库MySQL.其业务系统的数据变化,...
来自: 解决方案
DBS通过IPSec VPN备份自建数据库
DBS通过IPSec VPN<em>备份</em>自建数据库
场景描述 客户业务系统部署在IDC或者公有云环境,对业 务数据有云上备份需求。在客户交流过程中,基 于数据高可用和灾备需求,要求将数据备份至阿 里云OSS的存储空间,同时备份数据流基于 IPSecVPN/专线进行安全传输。 解决的问题 自建数据库的云上/跨云备份需求 DBS提供了完善的备份机制和API OSS的分层存储机制降低备份集储存成本 基于IPSecVPN/专线进行安全传输。 产品列表 VPC,ECS,DBS,VPN网关,OSS
数据 库备份 DBS可以实现实时的数据备份,在线数据发生变化时,数据库备份会获得 变更的数据,并将数据实时写入云端 OSS,帮助用户实现秒级 RPO的数据 。VPN网关:VPN网关是一款基于 Internet的网络连接服务,通过加密通道的方 式实现企业数据中心、企业办公网络或 Internet终端与阿里云专有网络(VPC)安全可靠的连接。...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,数据库备份DBS,云速搭
湖仓一体架构EMR元数据迁移DLF
湖仓一体架构EMR元<em>数据</em>迁移DLF
通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF,通过统一的元数据管理,多种数据源入湖,搭建高效的数据湖解决方案。
湖仓一体架构 EMR元数据迁移 DLF最佳实践 业务架构 场景描述 解决的问题 通过 EMR+DLF数据湖方案,可以为企业提供数据 EMR元数据迁移至 DLF 湖内的统一的元数据管理,统一的权限管理,支持多 元数据迁移验证 源数据入湖以及一站式数据探索的能力。本方案支 数据一致性校验 持已有 EMR集群元数据库使用 RDS或内置 MySQL ...
来自: 最佳实践 | 相关产品:E-MapReduce,数据湖构建
利用交互式分析(Hologres)进行数据查询
利用交互式分析(Hologres)进行<em>数据</em>查询
场景描述:随着收集数据的方式不断丰富,企业信息化 程度越来越高,企业掌握的数据量呈TB、 PB或EB级别增长。同时,数据中台的快 速推进,使数据应用主要为数据支撑、用户 画像、实时圈人及广告精准投放等核心业务 服务。高可靠和低延时地数据服务成为企业 数字化转型的关键。 Hologres致力于低成本和高性能地大规模 计算型存储和强大的查询能力,为您提供海 量数据的实时数据仓库解决方案和实时交 互式查询服务。 解决问题 1.加速查询MaxCompute数据 2.快速搭建实时数据仓库 3.无缝对接主流BI工具 产品列表 MaxCompute Hologres 实时计算Flink 专有网络VPC DataWorks DataV
Hologres常见使用场景 联邦分析实时数据和离线数据 业务数据分为冷数据和热数据,冷数据存储在离线数据仓库MaxCompute中,热 存储在Hologres中。Hologres可以联邦分析实时数据和离线数据,对接BI分析 工具,快速响应简单查询与复杂查询的业务需求。图1.联邦分析架构图 实时数据仓库 实时写入业务数据至实时计算,使用...
来自: 最佳实践 | 相关产品:大数据计算服务 MaxCompute,DataV数据可视化,实时计算,Hologres,云速搭CADT
Databricks数据洞察
阿里云Databricks数据洞察是基于Apache Spark的全托管数据分析平台, 内核采用更高效、稳定的商业版Databricks Runtime和Delta Lake。可满足数据分析师、数据工程师和数据科学家在大数据场景下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等需求
满足高性能、高稳定性、可弹性的计算需求.Databricks Delta Lake为数据湖分析提供了ACID事务能力,轻松处理包含十亿文件的PB级表的元数据信息,实现了批流一体的数据处理方式.同时满足数据科学家、数据工程师以及业务分析师的计算需求,提供交互式的协同分析工作平台.计算存储分离,减少数据冗余,实现多引擎间的数据共享...
来自: 云产品
数据资源平台
阿里云数据资源平台是构建数据智能的全流程平台,提供数据汇聚、数据加工与治理、数据分析、资产管理和统一服务等功能,帮助金融、政府及企业客户实现数据资源管理,潜在规律挖掘,业务决策优化。
数据资源平台是基于阿里云产业智能最佳实践的数据管理、服务与分析平台,通过流批一体数据同步、异构计算混合编排调度、全局元数据图谱、无代码数据分析等核心技术,缩短数据智能到业务的距离,满足客户业务的多样性需求,帮助用户便捷、充分的使用数据,让数据产生业务价值.频道页banner.谢赟辉,靖鑫,也树.通用icon文字...
来自: 云产品
数据总线Datahub
数据总线(DataHub)服务是阿里云提供的流式数据(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅(Subscribe)的功能,拥有高吞吐量、高稳定性、低成本等特点,与阿里云大数据生态系统完美打通,让您可以轻松构建基于流式数据的分析和应用。
数据总线(DataHub)服务是阿里云提供的流式数据(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅(Subscribe)的功能,让您可以轻松构建基于流式数据的分析和应用.孙慧颖,靖鑫,也树.MySQL低至1折起,前往限时优惠活动!1元体验简单易用的MySQL数据仓库,毫秒级海量数据多维分析!MySQL数据库+Quick BI数据可视化...
来自: 云产品
云Clickhouse冷热数据分层存储
云Clickhouse冷热<em>数据</em>分层存储
基于云ClickHouse可以给电商、游戏、互联网以及其他行业提供高性能、高稳定性、低维护成本、高性价比的实时数据分析、精准营销、业务运营、业务分析、业务预警、业务营销、数仓加速等场景化方案,本实践会向客户提供数据库低维护成本、数据库链路构建、冷热分层存储、快熟分析等操作实践。 解决问题 1. 维护成本低不用建设维护体系,稳定性高,数据倾斜自动均衡。 2. 完善的数据同步链路,可以平滑将业务库、大数据、日志服务的数据同步到Clickhouse,降低研发成本。 3. 平滑升级版本,业务中断小。 冷热分层后透明读取,帮客户节约整体数据存储成本。
云数据库 ClickHouse 冷热数据分层存储是一种更具性价比的单实例多类型并存的 存储方式,提供热数据存储和冷数据存储两种方式,以及不同数据存储介质之间的 转存策略。热数据指的是实时性查询要求高、访问频次较高的数据,采用 ESSD或高 效云盘存储,满足高性能访问的需求。冷数据指的是查询频度相对较低、访问频次较 ...
来自: 最佳实践 | 相关产品:云数据库RDS MySQL 版,数据传输,日志服务(SLS),云数据库 ClickHouse
云原生数据仓库AnalyticDB PostgreSQL版
阿里云MPP架构的云原生数据仓库,可提供PB级海量数据在线/离线分析服务,是面向各行各业的有竞争力的数仓方案,真正做到“人人可用的数据分析服务”。
全部节点主高可用模式,自动监控恢复,保证服务高可用.GIS 时空大数据分析.GIS 时空大数据分析.内置支持空间数据库引擎PostGIS和强大的Ganos时空引擎,可以实现实时的定位及路径规划,以及对空间/时空数据进行高效的存储、索引、查询和分析计算。用户只需在应用程序中使用简单的SQL,配合GIS函数操作,即可处理复杂的空间...
来自: 云产品
数据迁移上云
<em>数据</em>迁移上云
随着越来越多的企业选择将业务系统上云,各种类型的数据如何便捷、平滑的迁移上 云,成了用户上云较为关注的点;业务上云后,因为业务或者其他方面调整等因素, 也存在如跨区域,跨账号等数据迁移的场景。针对以上需求,阿里云上提供了较为丰 富的工具(如ossimport)、服务(在线迁移服务),旨在能够帮助客户便捷进行数据迁 移。 本文通过云架构设计工具CADT来快速创建云上基础资源,并以杭州区域来模拟线 下IDC(或友商),深圳区域模拟阿里云云上资源。通过云上的工具命令、服务来提 供常见数据迁移场景的最佳实践。
示例应用场景 线下 IDC数据 迁移至阿里云 OSS 线下 NAS数据迁移至阿里云 NAS 线上杭州区域 NAS数据通过 CEN迁 移至深圳区域 NAS 最佳实践频道 阿里云最佳实践分享群 云服务器 ECS(产品名称)文档模板(手册名称)/文档版本信息 阿里云 企业上云实践 数据迁移上云最佳实践 文档版本:20201013 文档版本:20150122(发布日期...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储NAS,云企业网,云速搭CADT
数据可视化DataV
数据可视化DataV是阿里云一款数据可视化应用搭建工具,旨让更多的人看到数据可视化的魅力,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。
可视化演播厅 数据大屏一键投屏、秒级切换,为数据汇报带来全新高性能体验 DataV-Note 智能分析 大模型驱动的智能分析 AI自动规划数据分析任务,一键生成分析报告,完成从取、分析、展示到洞察的全流程工作 多元化的分析方法 不论你是代码大神,还是业务侧的数据爱好者,AI分析、可视分析、SQL分析、Python分析,一站全...
来自: 云产品
游戏数据运营融合分析
游戏<em>数据</em>运营融合分析
场景描述 1.游戏行业有结构化和非结构化数据融合分 析需求的客户。 2.游戏行业有数据实时分析需求的客户,无法 接受T+1延迟。 3.对数据成本有一定诉求的客户,希望物尽其 用尽量优化成本。 4.其他行业有类似需求的客户。 方案优势/解决问题 1.秒级实时分析:依托ADB计算密集型实例, 秒级监控DAU等数据,为广告投放效果提 供有力的在线决策支撑。 2.高效数据融合分析:打通结构化和非结构化 数据,支撑产品体验分析;广告买量投放效 果实时(分钟级)分析,渠道的评估更准确。 3.低成本:DLA融合冷数据分析+ADB存储密 集型温数据分析+ADB计算密集型热数据分 析,在满足各种分析场景需求的同时,有效 地降低的客户的总体使用成本。 4.学习成本低:DLA和ADB兼容标准SQL语 法,无需额外学习其他技术。 产品列表 专有网络VPC、负载均衡SLB、NAT网关、弹性公网IP 云服务器ECS、日志服务SLS、对象存储OSS 数据库RDSMySQL、数据传输服务DTS、数据管理DMS 分析型数据库MySQL版ADS 数据湖分析DLA、QuickBI
文档版本:20210224 86 游戏数据运营融合分析 数据融合 步骤3 将 OSS的数据通过 DLA写入 ADB大容量库,执行 SQL语句对 json数据进行 ETL 操作,注意修改插入数据时的查询条件到对应日期,以免没有数据。文档版本:20210224 87 游戏数据运营融合分析 数据融合 注意:由于主键冲突会丢弃部分垃圾数据,所以实际插入 ADB的数据...
来自: 最佳实践 | 相关产品:云数据库RDS MySQL 版,对象存储 OSS,云原生数据仓库AnalyticDB My,数据湖分析,Quick BI
企业轻量级数据分析解决方案
企业轻量级数据分析解决方案,为用户提供低门槛的数据存储与分析能力。帮助用户快速实现数据赋能,解锁数据运营能力。
兼容 MySQL 语法,会用 SQL 就能玩转数据.高度兼容 MySQL 数据库语法,学习成本低,无需组建专业大数据平台建设和维护团队.支持准实时数据分析.支持对接消息队列、日志服务、Logstash 等实时数据源,可构建准实时数据分析业务,提升用户数据服务业务的效能.谢赟辉,靖鑫,也树.企业管理软件数据打通.企业管理软件数据打通....
来自: 解决方案
云原生企业级数据湖解决方案
云原生企业级数据湖解决方案,数据湖解决方案,无缝对接多种计算分析平台,数据湖中的数据可以直接进行数据分析、处理。
通过阿里云MaxCompute、OSS、OTS等全托管服务,让客户的研发资源更多集中在业务数据开发•MaxCompute 内置SQL、MR、Graph等多种数据计算模型,对接丰富的可视化服务.大数据冷热分层存储.客户大数据场景中有大量累积,数据随着时间推移,访问热度会大幅降低,将不同访问热度的数据存储在不同类型,优化长期存储成本.积累...
来自: 解决方案
基于Flink+ClickHouse构建实时游戏数据分析
基于Flink+ClickHouse构建实时游戏<em>数据</em>分析
在互联网、游戏行业中,常常需要对用户行为日志进行分析,通过数据挖掘,来更好地支持业务运营,比如用户轨迹,热力图,登录行为分析,实时业务大屏等。当业务数据量达到千亿规模时,常常导致分析不实时,平均响应时间长达10分钟,影响业务的正常运营和发展。 本实践介绍如何快速收集海量用户行为数据,实现秒级响应的实时用户行为分析,并通过实时流计算Flink/Blink、云数据库ClickHouse等技术进行深入挖掘和分析,得到用户特征和画像,实现个性化系统推荐服务。 通过云数据库ClickHouse替换原有Presto数仓,对比开源Presto性能提升20倍。 利用云数据库ClickHouse极致分析性能,千亿级数据分析从10分钟缩短到30秒。 云数据库ClickHouse批量写入效率高,支持业务高峰每小时230亿的用户数据写入。 云数据库ClickHouse开箱即用,免运维,全球多Region部署,快速支持新游戏开服。 Flink+ClickHouse+QuickBI
结论:云数据库 ClickHouse更加适合海量数据分析型业务、大宽表聚合查询分析、 Hash对齐 Join场景、实时日志分析场景等等 文档版本:20201224 6 基于 Flink+ClickHouse构建实时游戏数据分析 架构设计 2.架构设计 2.1.架构图 本实践主要以流处理为主线,搭建实验环境,构建在线用户行为分析平台:2.2.核心模块 游戏服...
来自: 最佳实践 | 相关产品:云服务器ECS,弹性公网IP,实时计算,Quick BI,消息队列 Kafka 版,云数据库 ClickHouse
基于DataWorks的大数据一站式开发及数据治理
基于DataWorks的大数据一站式开发及<em>数据</em>治理
概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
文档版本:20201020 43 基于 Dataworks的大数据一站式开发及数据治理 数据治理 步骤4 添加规格,比如本例监控错误的波动情况,如果波动上升进行报警,即错误率飙升 的时候给我们报警,进一步查询错误原因。步骤5 可以先试跑测试数据规则。步骤6 关联调度,每次调度后都会检测数据规则。步骤7 添加 hive_log节点进行关联,...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭
云速搭部署混合云备份HBR
云速搭部署混合云<em>备份</em>HBR
本实践以ECS文件备份为例,通过CADT设计备份架构,一键部署演示环境。
详见 https://www.aliyun.com/product/ecs 文档版本:20211023 3 云速搭部署混合云备份HBR 云速搭架构设计入门 云速搭架构设计入门 方案架构 混合云备份 HBR(Hybrid Backup Recovery)作为阿里云统一灾平台,是一种简单 易用、敏捷高效、安全可靠的公共云数据管理服务,可以为阿里云 ECS整机、ECS 库、文件系统、NAS...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,混合云备份,云速搭CADT
智能数据建设与治理Dataphin
Dataphin遵循阿里巴巴集团多年实战沉淀的大数据建设OneData体系(OneModel、OneID、OneService),集产品、技术、方法论于一体,一站式地为您提供集数据引入、规范定义、智能建模研发、数据萃取、数据资产管理、数据服务等的全链路智能数据构建及管理服务。助您打造属于自己的标准统一、资产化、服务化和闭环自优化的智能数据体系,驱动创新。
智能数据建设与治理 Dataphin.Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin提供多种计算平台支持及可拓展的开放能力,以适应各行业企业的平台...
来自: 云产品
< 1 2 3 4 ... 6 >
共有6页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用