基于DataWorks的大数据一站式开发及数据治理
基于DataWorks的大数据一站式开发及<em>数据</em>治理
概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
基于 DataWorks的大数据一站式开发及数据治理 最佳实践 业务架构 场景描述 解决问题 本实践基于 Dataworks做大数据一站式开发,包含 日志采集、处理及分析 数据实时采集到 kafka 通过实时计算对数据进行 日志使用 Flink实时写入 HDFS ETL写入 HDFS,使用 Hive进行数据分析。通过 日志数据实时 ETL Dataworks进行数据治理,...
来自: 最佳实践 相关产品:块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭
云数据库HBase
阿里云云数据库 HBase 版(ApsaraDB for HBase)是基于 Hadoop 且100%兼容HBase协议的高性能、可弹性伸缩、面向列的分布式数据库,轻松支持PB级大数据存储,满足千万级QPS高吞吐随机读写场景。
帮助用户整合分析用户交易、企业数据和爬虫抓取信息,构建反欺诈、用户画像库,提供大数据风控SaaS服务.HBase采用稀疏存储模式,支撑PB级结构化/非结构化存储,提供全量详单查询.Phoneix+二级索引支持实时OLTP查询,提供OLAP查询.海量数据HTAP处理.与传统数仓的B+树相比,HBase 支持LSM存储模式,专门应对高并发写入场景.云...
来自: 云产品
金融专属大数据workshop
金融专属大数据workshop
实践目标 学习搭建一个实时数据仓库,掌握数据采集、存储、计算、输出、展示等整个业务流程。 整个实时数据仓库系统全部基于阿里云产品进行架构搭建,用户可以掌握并学会运用各个服务组件及各个组件之间如何联动。 理解阿里云原生实时离线一体数仓解决方案架构以及掌握交付落地的实践使用方法。 前置知识要求 熟练掌握SQL语法 对大数据体系系统知识有一定的了解
在HoloWeb控制台,选择SQL编辑器,然后点击新增SQL窗口,选择对应的 库,编辑填写相应的DDL建表语句(默认数据表的属性是列存模式,列存模式更 适合OLAP数据分析,数据表的行存模式更适合高QPS点查询场景)。1.首先创建ads_province_info表。文档版本:20210803(发布日期)39阿里云最佳实践金融大数据WorkShop 最佳...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
云上持续审计合规最佳实践
云上持续审计合规最佳实践
本方案是面向云上资源的操作审计和配置审 计,提供的最佳实践。适用于企业型客户。通过最佳实践帮助客户在本场景下更好的使用 阿里云,涉及到配置审计、操作审计、函数计算、SLS、OSS 等服务的实践操作。 解决问题 企业会面临外部对企业云上信息系统的合规要求,如等保2.0法规要求。 同时当云上资源达到一定规模时,在内部会制定合规管控的基线,满足自身管理效率和安全合规的需 求。 包括记录云上资源管理的操作日志、资源配置变更日志,还需依赖云平台提供的持续监控和自动告警能力,实现合规性的自主监管。
基于阿里云分布式文件系统和 SSD盘高性能存储,RDS支 持 MySQL、SQL Server、PostgreSQL、PPAS和 MariaDB引擎,提供了容灾、备份、恢复、监控、迁移等方面全套解决方案,彻底解决数据库运维烦恼。详见:https://www.aliyun.com/product/rds/mysql 文档日期:20210726 V 云上持续审计合规最佳实践 目录 目录 文档版本信息.I ...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,函数计算,操作审计,配置审计
SLS数据入湖Kafka最佳实践
SLS<em>数据</em>入湖Kafka最佳实践
应用和数据分散在多云或混合云,在面对多云/混合云这样大的趋势下,数据无法进行统一的聚合、分析处理和导出等,本方案给出了在多云/混合云场景下,构建通过标准的Kafka协议和托管服务,SLS可以连接Kafka数据入湖导入,然后进行统一的海量数据的集中存储、智能转储、聚合分析查询等。
SLS 数据入湖 Kafka 最佳实践 业务架构 场景描述 应用和数据分散在多云或混合云,在面对多云/混合云这样大的趋势下,数据无法进行统一的 聚合、分析处理和导出等,本方案给出了在多 云/混合云场景下,构建通过标准的Kafka协议 和托管服务,SLS可以连接Kafka数据入湖导 入,然后进行统一的海量数据的集中存储、智 能转储、...
来自: 最佳实践 | 相关产品:云服务器ECS,日志服务(SLS),Serverless 应用引擎,消息队列 Kafka 版
通过ES兼容接口方式使用Kibana访问SLS数据
通过ES兼容接口方式使用Kibana访问SLS<em>数据</em>
自建ELK日志系统的客户迁移到阿里云日志服务SLS后,对SLS查询分析语法不太熟悉的客户,可以继续沿用原有的查询分析习惯,在不改变使用方式习惯的情况下,通过Elasticsearch兼容接口的方式使用Kibana访问SLS。
通过ES兼容接口方式使用Kibana访问SLS数据最佳实践 业务架构 场景描述 日志服务SLS提供Elasticsearch兼容接口,支 持客户将日志采集到日志服务后,仍可以继续沿 用Elasticsearch的查询方案,即通过使用 Kibana访问日志服务的Elasticsearch兼容接 口,实现查询SLS数据。应用场景 自建ELK日志系统的客户迁移到阿里云日志服 务...
来自: 最佳实践 | 相关产品:云服务器ECS,容器服务 ACK,日志服务(SLS)
ECS 数据备份与保护
随着企业核心业务规模不断扩大,需要根据业务需求对生产环境中的关键数据进行定期备份。
产品解决方案文档与社区权益中心定价云市场合作伙伴支持与服务了解阿里云备案控制台ECS 数据备份与保护方案介绍方案优势应用场景方案部署ECS 数据备份与保护随着企业核心业务规模不断扩大,需要根据业务需求对生产环境中的关键数据进行定期备份,在发生误操作、病毒感染、或攻击等情况时,能够快速从已有的快照恢复到某个...
来自: 解决方案
云原生企业级数据
基于对象存储 OSS 构建的数据湖,可对接多种数据输入方式,存储任何规模的结构化、半结构化、非结构化数据,打破数据湖孤岛。
产品解决方案文档与社区权益中心定价云市场合作伙伴支持与服务了解阿里云备案控制台云原生企业级数据湖方案介绍方案优势应用场景方案部署方案权益云原生企业级数据湖基于对象存储 OSS 构建的数据湖,可对接多种数据输入方式,存储任何规模的结构化、半结构化、非结构化数据,打破数据湖孤岛。无缝对接多种数据分析产品,对...
来自: 解决方案
无代理ECS数据备份与高效环境搭建
本方案是基于快照提供数据保护和环境搭建的解决方案。可以帮助您实现无代理且有效可靠的数据备份,同时还可以帮助您快速克隆部署开发测试环境。使用基于快照的备份不仅简单有效,在数据备份以及恢复中也能保证稳定可靠,同时基于快照的环境搭建,不仅可以免于从0到1搭建环境,还可以将环境、数据等全部打包克隆到新机器上。
产品解决方案文档与社区权益中心定价云市场合作伙伴支持与服务了解阿里云备案控制台无代理ECS备份与高效环境搭建方案介绍方案优势应用场景方案部署方案权益无代理ECS备份与高效环境搭建本方案是基于快照提供数据保护和环境搭建的解决方案,可以帮助您实现无代理且有效可靠的数据备份,同时还可以帮助您快速克隆部署开发测试...
来自: 解决方案
企业级云灾备与数据管理
本方案以备份 ECS 文件为例,介绍如何部署一个简单的云灾备环境,以满足常见的数据保护需求。
产品解决方案文档与社区权益中心定价云市场合作伙伴支持与服务了解阿里云备案控制台企业级云灾备与数据管理方案介绍方案优势应用场景方案部署方案权益企业级云灾备与数据管理云备份 Cloud Backup 为企业数据安全提供了全方位的云灾备、冷热数据统一管理能力,全面覆盖公共云、混合云以及本地 IDC 生产环境,帮助用户减少因...
来自: 解决方案
基于弹性供应组构建大数据分析集群
基于弹性供应组构建大<em>数据</em>分析集群
场景描述 基于弹性供应组(APG)搭建spark计算集 群,提供一键开启跨售卖方式、跨可用区、 跨实例规格的计算集群交付模式的实践。 方案优势 1.超低成本:跨售卖方式提供计算实 例,按秒计费,可全部使用spot实例 交付,最高可省90%成本。 2.稳定可靠:跨可用域、跨实例规格, 降低spot被集体释放的风险;自动托 管,分钟级巡检,动态保证集群的算 力。 3.快速交付:单次可在5分钟内交付 2000个实例。 4.多策略组合:可分别指定spot和按量 实例的交付策略,以及差额补足的策 略,包括成本最低、打散和折中。 解决问题 1.大规模计算集群成本高。 2.创建ECS实例方式单一,无法跨计费 方式、可用区及规格等核心参数。 3.当可用区资源紧张,无法自动保证基于 spot类型的稳定算力。 产品列表 专有网络VPC 云服务器ECS
相关概念介绍 Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利 分校 AMPLab,2010年开源,2013年 6月成为 Apache孵化项目,2014年 2月成为 Apache优质项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含 SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,弹性公网IP
湖仓一体架构EMR元数据迁移DLF
湖仓一体架构EMR元<em>数据</em>迁移DLF
通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF,通过统一的元数据管理,多种数据源入湖,搭建高效的数据湖解决方案。
湖仓一体架构 EMR元数据迁移 DLF最佳实践 业务架构 场景描述 解决的问题 通过 EMR+DLF数据湖方案,可以为企业提供数据 EMR元数据迁移至 DLF 湖内的统一的元数据管理,统一的权限管理,支持多 元数据迁移验证 源数据入湖以及一站式数据探索的能力。本方案支 数据一致性校验 持已有 EMR集群元数据库使用 RDS或内置 MySQL ...
来自: 最佳实践 | 相关产品:E-MapReduce,数据湖构建
数据资源平台
阿里云数据资源平台是构建数据智能的全流程平台,提供数据汇聚、数据加工与治理、数据分析、资产管理和统一服务等功能,帮助金融、政府及企业客户实现数据资源管理,潜在规律挖掘,业务决策优化。
可扩展的元模型定义及强大的搜索引擎,梳理业务资产.分钟级即可完成新的元数据类型扩展.丰富的元数据支持.10+计算引擎及SQL方言.数据追踪技术、图计算技术、可视化技术.全链路字段级业务血缘,清晰洞察业务脉络.毫秒级数据感知更新.数据血缘+质量+分布,构建资产360视图.数据资产全生命周期管控.全方位的资产管理.元数据...
来自: 云产品
数据湖-在线学习场景数据分析
<em>数据</em>湖-在线学习场景<em>数据</em>分析
场景描述 本场景以在线教育中一个答题闯关类的应用为 例,使用WebServer来模拟演示这类日志数据 的分析处理。通过Nginx和Pythonflask搭建 WebServer,模拟应用中的关键页面,比如登 录、课程内容等,之后构造若干用户使用的模拟 日志数据,投递到数据湖进行分析后获取应用 PV、UV、课程内容访问排行、平均得分等等。 解决问题 基于数据湖(EMR+OSS)搭建大数据平台。 EMR和OSS使用和配置。 数据统一存储到OSS。 产品列表 E-MapReduce 对象存储OSS 云服务器ECS 访问控制RAM 专有网络VPC
通过Nginx和Pythonflask搭建WebServer,模拟应用中的关 键页面,比如登录、课程内容等,之后构造若干用户使用的模拟日志数据,投递到 湖进行分析后获取应用PV、UV、课程内容访问排行、平均得分等等。方案优势  支持超过10亿条元数据规模的数据管理,同时支持高可靠和高可用。 支持元数据实时备份和重建集群快速恢复...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,访问控制,E-MapReduce
云Clickhouse冷热数据分层存储
云Clickhouse冷热<em>数据</em>分层存储
基于云ClickHouse可以给电商、游戏、互联网以及其他行业提供高性能、高稳定性、低维护成本、高性价比的实时数据分析、精准营销、业务运营、业务分析、业务预警、业务营销、数仓加速等场景化方案,本实践会向客户提供数据库低维护成本、数据库链路构建、冷热分层存储、快熟分析等操作实践。 解决问题 1. 维护成本低不用建设维护体系,稳定性高,数据倾斜自动均衡。 2. 完善的数据同步链路,可以平滑将业务库、大数据、日志服务的数据同步到Clickhouse,降低研发成本。 3. 平滑升级版本,业务中断小。 冷热分层后透明读取,帮客户节约整体数据存储成本。
云数据库 ClickHouse 冷热数据分层存储是一种更具性价比的单实例多类型并存的 存储方式,提供热数据存储和冷数据存储两种方式,以及不同数据存储介质之间的 转存策略。热数据指的是实时性查询要求高、访问频次较高的数据,采用 ESSD或高 效云盘存储,满足高性能访问的需求。冷数据指的是查询频度相对较低、访问频次较 ...
来自: 最佳实践 | 相关产品:云数据库RDS MySQL 版,数据传输,日志服务(SLS),云数据库 ClickHouse
互联网电商行业离线大数据分析
互联网电商行业离线大<em>数据</em>分析
电商网站销售数据通过大数据分析后将业务指标数据在大屏幕上展示,如销售指标、客户指标、销售排名、订单地区分布等。大屏上销售数据可视化动态展示,效果震撼,触控大屏支持用户自助查询数据,极大地增强数据的可读性。
互联网电商行业离线大数据分析 最佳实践 业务架构 场景描述 本实践介绍了使用阿里云MaxCompute、数据库(RDS)、DataWorks等产品实现电商网站离线数据分 析,分析后的业务指标数据实时在大屏展示。通过完整 的实践Demo为例,提供从电商网站搭建,数据从RDS 同步到MaxCompute、再到DataWorks进行数据分析,最后在大屏上展示...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,API网关,云速搭CADT
基于Flink+ClickHouse构建实时游戏数据分析
基于Flink+ClickHouse构建实时游戏<em>数据</em>分析
在互联网、游戏行业中,常常需要对用户行为日志进行分析,通过数据挖掘,来更好地支持业务运营,比如用户轨迹,热力图,登录行为分析,实时业务大屏等。当业务数据量达到千亿规模时,常常导致分析不实时,平均响应时间长达10分钟,影响业务的正常运营和发展。 本实践介绍如何快速收集海量用户行为数据,实现秒级响应的实时用户行为分析,并通过实时流计算Flink/Blink、云数据库ClickHouse等技术进行深入挖掘和分析,得到用户特征和画像,实现个性化系统推荐服务。 通过云数据库ClickHouse替换原有Presto数仓,对比开源Presto性能提升20倍。 利用云数据库ClickHouse极致分析性能,千亿级数据分析从10分钟缩短到30秒。 云数据库ClickHouse批量写入效率高,支持业务高峰每小时230亿的用户数据写入。 云数据库ClickHouse开箱即用,免运维,全球多Region部署,快速支持新游戏开服。 Flink+ClickHouse+QuickBI
结论:云数据库 ClickHouse更加适合海量数据分析型业务、大宽表聚合查询分析、 Hash对齐 Join场景、实时日志分析场景等等 文档版本:20201224 6 基于 Flink+ClickHouse构建实时游戏数据分析 架构设计 2.架构设计 2.1.架构图 本实践主要以流处理为主线,搭建实验环境,构建在线用户行为分析平台:2.2.核心模块 游戏服...
来自: 最佳实践 | 相关产品:云服务器ECS,弹性公网IP,实时计算,Quick BI,消息队列 Kafka 版,云数据库 ClickHouse
利用交互式分析(Hologres)进行数据查询
利用交互式分析(Hologres)进行<em>数据</em>查询
场景描述:随着收集数据的方式不断丰富,企业信息化 程度越来越高,企业掌握的数据量呈TB、 PB或EB级别增长。同时,数据中台的快 速推进,使数据应用主要为数据支撑、用户 画像、实时圈人及广告精准投放等核心业务 服务。高可靠和低延时地数据服务成为企业 数字化转型的关键。 Hologres致力于低成本和高性能地大规模 计算型存储和强大的查询能力,为您提供海 量数据的实时数据仓库解决方案和实时交 互式查询服务。 解决问题 1.加速查询MaxCompute数据 2.快速搭建实时数据仓库 3.无缝对接主流BI工具 产品列表 MaxCompute Hologres 实时计算Flink 专有网络VPC DataWorks DataV
Hologres常见使用场景 联邦分析实时数据和离线数据 业务数据分为冷数据和热数据,冷数据存储在离线数据仓库MaxCompute中,热 存储在Hologres中。Hologres可以联邦分析实时数据和离线数据,对接BI分析 工具,快速响应简单查询与复杂查询的业务需求。图1.联邦分析架构图 实时数据仓库 实时写入业务数据至实时计算,使用...
来自: 最佳实践 | 相关产品:大数据计算服务 MaxCompute,DataV数据可视化,实时计算,Hologres,云速搭CADT
数据管理DMS
数据管理DMS是基于阿里巴巴集团十余年的数据库服务平台的云版本,提供免安装、免运维、即开即用、多种数据库类型与多种环境统一的web数据库管理终端;可以为企业用户快速复制搭建与阿里集团同等安全、高效、规范的数据库DevOps研发流程解决方案。
基于图谱能力,可快速搜索、发现可用数据.数据质量治理.覆盖数据生产、集成、加工到消费的端到端血缘能力;支持定义数据质量规则,进行数据质量检测与校验.数据安全治理.敏感数据自动分级分类;异常访问风险识别.帮助企业“找得到”数据,“用得好”数据.企业管理实时联动.基于OpenAPI实践,可有效保障企业员工流转时,域...
来自: 云产品
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
自建Hive<em>数据</em>仓库跨版本迁移到阿里云Databricks<em>数据</em>洞察
场景描述 客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。 方案优势 1. 全托管Spark集群免运维,节省人力成本。 2. Databricks数据洞察与阿里云其他产品(OSS、RDS、MaxCompute、EMR)进行深度整合,支持以这些产品为数据源的输入和输出。 3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。 解决问题 1. Hive数仓数据迁移OSS方案。 2. Hive元数据库迁移阿里云RDS方案。 3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。
自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 业务架构 场景描述 客户在 IDC或者公有云环境自建 Hadoop集群 构建数据仓库和分析系统,购买阿里云 Databricks数据洞察集群之后,涉及到数仓 和元数据的迁移以及 Hive版本的订正更新。方案优势 1.全托管 Spark集群免运维,节省人力成 本。2.Databricks数据洞察...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储HDFS,spark
< 1 2 3 4 5 >
共有5页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用