如何使用大数据平台

_相关内容

Slowly Changing Dimension

业务数据随着时间在不断变化,如果您要对数据进行分析,则需要考虑如何存储和管理数据。其中数据中随着时间变化的维度被称为Slowly Changing Dimension(SCD)。E-MapReduce根据实际的数仓场景定义了基于固定粒度的缓慢变化维(G-SCD)。...

使用旧版数据开发体验

通过本教程,您可以了解如何使用DataWorks和Spark产品组合进行数据开发和分析,并通过用户画像分析案例...消费数据 用户画像分析完成后,使用数据分析模块,将加工后的 数据可视化展现,便于您快速提取关键信息,洞察数据背后的业务趋势。

使用旧版数据开发体验

通过本教程,您可以了解如何使用DataWorks和EMR产品组合进行数据开发和分析,并通过用户画像分析案例体验...消费数据 用户画像分析完成后,使用数据分析模块,将加工后的 数据可视化展现,便于您快速提取关键信息,洞察数据背后的业务趋势。

加工数据

本文为您介绍如何用Spark SQL创建外部用户信息表 ods_user_info_d_spark 以及日志信息表 ods_raw_log_d_spark 访问存储在私有OSS中的用户与日志数据,通过DataWorks的EMR Spark SQL节点进行加工得到目标用户画像数据,阅读本文后,您可以...

加工数据

本文为您介绍如何用Spark SQL创建外部用户信息表 ods_user_info_d_spark 以及日志信息表 ods_raw_log_d_spark 访问存储在私有OSS中的用户与日志数据,通过DataWorks的EMR Spark SQL节点进行加工得到目标用户画像数据,阅读本文后,您可以...

使用旧版数据开发体验

通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站...

使用新版DataWorks

通过本教程,您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行数据开发和分析,...步骤六:消费数据 用户画像分析完成后,使用数据分析模块,将加工后的 数据可视化展现,便于您快速提取关键信息,洞察数据背后的业务趋势。

使用新版数据开发体验

通过本教程,您可以了解如何使用DataWorks和EMR产品组合进行数据开发和分析,并通过用户画像分析案例体验...消费数据 用户画像分析完成后,使用数据分析模块,将加工后的 数据可视化展现,便于您快速提取关键信息,洞察数据背后的业务趋势。

跨云发布

适用场景 该功能仅支持 使用了旧版数据开发 的工作空间跨账号、跨地域或跨云平台(例如,金融云、政务云等)发布节点、函数、资源、组件等对象。其本质也是将节点由源工作空间迁移发布至目标工作空间,只是两个工作空间所归属的地域、账号...

加工数据

本文为您介绍如何将同步至StarRocks的用户信息表 ods_user_info_d_starrocks 及访问日志数据 ods_raw_log_d_starrocks,通过DataWorks的StarRocks节点加工得到目标用户画像数据,阅读本文后,您可以了解如何通过DataWorks+StarRocks产品...

数据湖元数据配置

本文为您介绍Iceberg表使用数据湖元数据的必要配置。支持以下配置:Spark配置 Hive配置 Spark配置 文件系统采用阿里云对象存储服务OSS。集群版本不同默认的Catalog名称不同,需要配置的参数也不同,各版本对应配置如下:EMR-3.40及后续版本...

DataWorks on EMR Serverless StarRocks最佳实践

数据地图可以帮助您更好地查找、理解和使用数据。数据地图概述 前提条件 已开通DataWorks并创建工作空间。操作详情请参见 开通DataWorks服务。已购买资源组并完成资源组的空间绑定、网络等配置。详情请参见 资源组管理。已创建EMR ...

DataWorks On Hologres使用说明

数据同步的同步资源费用 运行数据同步任务时,除调度资源外,还需使用数据同步资源。您可使用Serverless资源组(推荐)或旧版独享数据集成资源组,支付相应资源组费用。说明 DataStudio界面使用运行、带参运行功能执行的任务,不会收取调度...

使用新版数据开发体验

通过本教程,您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站行为...

DataWorks On MaxCompute使用说明

数据同步的同步资源费用 运行数据同步任务时,除调度资源外,还需使用数据同步资源。您可使用Serverless资源组(推荐)或旧版独享数据集成资源组,支付相应资源组费用。说明 DataStudio界面使用运行、带参运行功能执行的任务,不会收取调度...

数据地图

数据地图可以帮助您更好地查找、理解和使用数据。版本限制 仅DataWorks标准版及以上版本支持代码搜索、数据血缘分析。仅DataWorks专业版及以上版本支持数据专辑。元数据采集 MaxCompute元数据&DLF元数据:系统默认内置MaxCompute元数据采集...

阿里云StarRocks业务使用最佳实践

如果查询条件中包含 city_id 和 site_id,而 city_id 的取值只有几十,仅使用 city_id 作为分桶列可能导致某些桶的数据量过,从而产生数据倾斜。此时可考虑将 city_id 和 site_id 联合作为分桶字段,但这样做的缺点是,如果查询条件中仅...

Flink SQL Batch节点

Flink SQL Batch节点使您能够使用标准SQL语句定义和执行数据处理任务,适用于大数据集的分析与转换,包括数据清洗和聚合。该节点支持可视化配置,为您提供高效且灵活的规模数据批处理方案。在Flink SQL Batch节点中,您可以使用类SQL语句...

使用物化视图进行数据建模

因此,许多数据分析师倾向于不使用数据建模,直接使用原始数据,从而不可避免地导致数据质量和查询性能的问题。当建模的需求出现时,又遇到数据使用方式已经成型,难以重构的问题。使用StarRocks物化视图进行数据建模可以有效解决以上问题...

向量化处理

计费说明 使用了AI辅助处理的数据集成任务,除数据集成任务本身涉及的费用外:数据集成场景费用,还涉及调用模型产生的费用。其中:阿里云DataWorks模型服务计费说明见:Serverless资源组计费-模型服务。阿里云百炼平台计费说明见:...

SmartData使用说明(EMR-3.20.0~3.22.0版本)

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

使用Power BI连接EMR Serverless Spark并进行数据可视...

Power BI是一个统一、可扩展的自助服务和企业商业智能(BI)平台,支持用户对数据进行建模与可视化分析,并能够创建个性化的报表。本文介绍如何通过Power BI连接EMR Serverless Spark并可视化分析数据使用限制 不支持访问Paimon和Iceberg...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...

使用公开数据集进行数据查询、分析和可视化

公开数据集列表 类型 数据数据来源及说明 数据类型 数字商业 阿里电商数据集 本数据集来源天池阿里移动推荐算法挑战赛,基于阿里巴巴100万条脱敏的商品数据,可以基于各类商品、操作、时间等字段,体验阿里云大数据分析能力。静态数据 ...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

开发PyODPS 2任务

非自定义函数代码可以使用平台预装的Numpy和Pandas。不支持其他带有二进制代码的三方包。由于兼容性原因,在DataWorks中,options.tunnel.use_instance_tunnel 默认设置为False。如果需要全局开启 instance tunnel,需要手动将该值设置为...

开发PyODPS 3任务

非自定义函数代码可以使用平台预装的Numpy和Pandas。不支持其他带有二进制代码的三方包。由于兼容性原因,在DataWorks中,options.tunnel.use_instance_tunnel 默认设置为False。如果需要全局开启 instance tunnel,需要手动将该值设置为...

SAP HANA节点

背景信息 SAP HANA是一个高性能的内存数据库和应用平台,结合了数据库、数据处理和应用平台功能,以提供企业级内存计算的能力。更多介绍请参见 SAP HANA。前提条件 已创建业务流程。数据开发(DataStudio)基于业务流程执行不同引擎的具体...

EMR Presto节点

Presto(即PrestoDB)是一款灵活、可扩展的分布式SQL查询引擎,支持使用标准的SQL查询语言进行大数据的交互式分析查询,DataWorks为您提供EMR Presto节点,便于您在DataWorks上进行Presto任务的开发和周期性调度。本文为您介绍使用EMR ...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

Jindo DistCp场景化使用指导

如果数据量很、文件很多(百万千万级别)时,该使用哪些参数优化?场景二:使用Jindo DistCp成功导完数据后,如何验证数据完整性?场景三:导入HDFS数据至OSS时,DistCp任务存在随时失败的情况,该使用哪些参数支持断点续传?场景四:...

使用Copilot+增强分析实现一站式智能数据查询与可视化

成功登录后,在 免费试用 页面单击 大数据开发治理平台 DataWorks 产品的 立即试用。在弹出的 DataWorks 产品购买面板选择开通地域为 华东2(上海),勾选服务协议后单击 确认订单并支付,按照界面指引开通DataWorks。开通MaxCompute 本...

数据质量监控节点

本文为您介绍如何使用数据质量监控节点进行任务监控。背景信息 DataWorks的数据质量功能,帮助您感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。避免任务产出不符合...

内存管理

compaction_max_memory_limit_percent 100 disable_storage_page_cache true 是否禁用BE存储层page缓存,和storage_page_cache_limit配合使用,在内存资源充足和有大数据量查询的场景中可以打开,能够加速查询性能。storage_page_cache_...

账单数据订阅及查询分析

DataWorks及MaxCompute:DataWorks 基于 MaxCompute 等大数据引擎,支持在线 SQL查询与分析、数据洞察、数据编辑与分享,以及将查询结果保存为可视化图表卡片,快速生成数据报告。订阅账单数据后,费用与成本会将相关账单数据同步至指定...

数据推送节点

仅以下地域的DataWorks工作空间可使用数据推送功能:华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、西南1(成都)、中国香港、新加坡、马来西亚(吉隆坡)、美国(硅谷)、美国(弗吉尼亚)、德国...

快速使用存算分离版实例

使用数据库*/USE load_test;创建表*/CREATE TABLE insert_wiki_edit(event_time DATETIME,channel VARCHAR(32)DEFAULT '',user VARCHAR(128)DEFAULT '',is_anonymous TINYINT DEFAULT '0',is_minor TINYINT DEFAULT '0',is_new TINYINT ...

函数计算节点

同时,该节点能够与DataWorks其他类型节点配合使用,帮助您构建完整的数据处理流程。本文将为您介绍如何创建并使用函数计算节点。前提条件 RAM账号添加至对应空间(可选)。进行任务开发的RAM账号已被添加至对应工作空间中,并具有 开发 或...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用