如何使用大数据平台-如何使用大数据平台文档介绍内容-移动阿里云

综合：网站用户画像分析

计算引擎云原生大数据计算服务MaxCompute 本案例中，基于DataWorks使用云原生大数据计算服务MaxCompute、开源全托管服务EMR Serverless StarRocks、开源大数据平台 E-MapReduce 或开源全托管服务EMR Serverless Spark 中的任意一种作为 ...

使用OpenAPI

本文为您介绍使用大数据开发治理平台DataWorks OpenAPI的基本信息、使用限制、计费及调用说明。基本信息版本 OpenAPI门户支持的API列表支持的地域 2024-05-18（新版OpenAPI）OpenAPI门户支持的API列表华东1（杭州）、华东2（上海）、...

在EMR集群运行TPC-DS Benchmark

TPC-DS官方工具只包含SQL生成器以及单机版数据生成工具，并不适合大数据场景，所以本文教程中使用的工具和集群信息如下：Hive TPC-DS Benchmark测试工具。该工具是业界最常用的测试工具，是由Hortonworks公司开发，支持使用Hive和Spark运行...

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。在私有OSS环境准备步骤中创建的OSS对象存储的 Bucket 将用于接收MySQL数据源的用户信息数据与...

同步数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。进入数据开发登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据开发与运维数据...

使用大模型

数据开发中调用 1、大模型节点调用大语言模型 DataWorks新版数据开发支持使用大模型节点对数据进行处理，在大模型节点中可配置大模型服务并调用大语言模型。2、Shell节点调用大语言模型本示例展示如何在Shell节点调用大语言模型回答特定...

实现开发生产等多套环境隔离

使用DataWorks进行大数据开发时，支持对开发、测试、生产等环境进行隔离，当您联合使用了其他阿里云产品时，也可根据环境隔离诉求进行对应业务的环境设置与隔离，本文以DataWorks联合EMR、OSS等产品为例，为您介绍如何实现开发生产等多套...

大数据AI公共数据集分析

操作难度低所需时间 30分钟使用的阿里云产品 DataWorks：一站式大数据开发与治理平台，创建数据源并在数据开发绑定数据源后可在DataWorks上开发调度对应引擎的数据开发治理任务。MaxCompute：适用于数据分析场景的企业级SaaS模式云数据...

同步数据

用户数据与日志同步至OSS数据源 使用数据集成将平台提供的用户数据与用户日志同步至私有OSS对象存储的 Bucket 目录下。配置用户日志同步至OSS 通过离线数据集成任务，实现从平台的HttpFile数据源内的获取用户日志信息，同步至私有OSS数据源...

DataWorks On CDP/CDH使用说明

CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建为单独的用户数据使用。您可在DataWorks中注册CDH及CDP集群，基于业务需求进行相关任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和...

通过函数计算节点实现GitHub实时数据分析与结果发送

开通 大数据开发治理平台DataWorks 并创建工作空间（本实践以使用标准模式工作空间为例，简单模式的操作类似）。操作详情请参见开通DataWorks服务、创建工作空间。开通云原生大数据计算服务MaxCompute，并创建MaxCompute项目。操作详情请...

同步数据

用户数据与日志同步至OSS数据源 使用数据集成将平台提供的用户数据与用户日志同步至私有OSS对象存储的 Bucket 目录下。配置用户日志同步至OSS 通过离线数据集成任务，实现从平台的HttpFile数据源内的获取用户日志信息，同步至私有OSS数据源...

数据使用诊断

DataWorks的数据使用诊断，为您提供了对当前DataWorks工作空间的数据内容及数据隐私的安全保护能力，以及诊断相关安全问题的最佳实践及解决方案，帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断登录 DataWorks控制台...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

免费试用

在左侧导航栏产品类别下依次打开 大数据计算数据开发与服务，然后在右侧找到 大数据开发治理平台DataWorks 的免费试用卡片，单击立即试用。重要免费试用抵扣包仅适用于初次使用DataWorks产品的新用户，老客户进入此页面将展示为不符合...

通过RAM角色授权模式配置数据源

因此，云账号负责人可以为大数据团队创建自定义角色 BigDataOssRole，并限制可以使用角色的人员为大数据团队的相关人员，实现团队间的权限管控。创建自定义角色。本案例示例创建可信实体为阿里云账号、角色名称为 BigDataOssRole 的自定义...

Cloudera CDP 企业数据云平台

企业数据云平台Cloudera Data Platform（简称阿里云CDP），是阿里云和Cloudera联合打造阿里云上的大数据平台。

Hive基础操作

使用数据库 use testdb;删除库 drop database if exists testdb;当返回信息包含OK时，表示删除库成功。表操作本文示例中的表以t为例介绍。创建表 create table if not exists t(id bigint,value string);当返回信息包含OK时，表示创建表t...

使用数据模型模板快速进行数仓建模

后续步骤您可在载入目标数据模型模板至DataWorks数据建模模块后，在数据建模模块基于导入的模板进行修改或补充，使用数据建模的更多功能。具体操作，请参见：数据建模概述。相关参考 使用数据模型模板的更多详细参考，请参见零售电商数据...

DataWorks On EMR使用说明

数据同步的同步资源费用运行数据同步任务时，除调度资源外，还需使用数据同步资源。您可使用Serverless资源组（推荐）或旧版独享数据集成资源组，支付相应资源组费用。二、非DataWorks相关费用以下费用不会体现在DataWorks产品相关账单中...

数据溯源

解决方案：使用数据水印功能生成的水印信息需要提供充足的数据量，才能保证通过溯源任务还原出可靠的水印信息，进而定位出可能的数据泄露责任人。建议您使用数据量大于500条，并且不包含重复数据的文件进行溯源。原因二：被泄漏的数据非...

基础：购房群体简单分析

在左侧导航栏产品类别下依次打开 大数据计算数据开发与服务，然后在右侧找到 大数据开发治理平台DataWorks 的免费试用卡片，单击立即试用。重要免费试用抵扣包仅适用于初次使用DataWorks产品的新用户，老客户进入此页面将展示为不符合...

敏感数据访问及导出情况

数据访问页面为您展示基于配置规则识别出的敏感数据的访问量、访问趋势、导出量和导出明细等，帮助您掌控每一次访问敏感数据的情况。目前支持MaxCompute和EMR引擎的操作数据展示。前提条件阿里云主账号已授权开通数据保护伞，详情请参见 ...

数据专辑

本文为您介绍如何创建并使用数据专辑，及数据专辑的管理等操作。版本限制仅支持DataWorks专业版及以上版本使用数据专辑功能，详情请参见：DataWorks各版本功能详情。进入数据专辑进入数据地图页面。登录 DataWorks控制台，切换至目标地域...

通过DataWorks连接StarRocks实例

说明在DataWorks中编写SQL代码时，若需跨数据库访问表，需确保当前用户具有目标数据库的访问权限，并使用数据库名.表名格式访问。用户名和密码 StarRocks实例的用户名和密码。默认管理员用户为 admin，密码为创建实例时自定义的密码。...

Iceberg连接器

Iceberg是一种开放的数据湖表格式，使用Iceberg连接器可以查询Iceberg格式的数据文件。背景信息 Iceberg的详细信息，请参见 Iceberg概述。前提条件已创建DataLake集群或Hadoop集群，并选择了Presto服务，详情请参见创建集群。使用限制 ...

通过EMR StarRocks Manager连接StarRocks实例

使用数据库。use test_sql_editor_db;创建表。CREATE TABLE `emr_query_logs`(`conn_id` varchar(10)NULL COMMENT"",`database` varchar(100)NULL COMMENT"",`start_time` bigint(20)NULL COMMENT"",`end_time` bigint(20)NULL COMMENT"",`...

通过Serverless Spark提交PySpark流任务

在大数据快速发展的时代，流式处理技术对于实时数据分析至关重要。EMR Serverless Spark提供了一个强大而可扩展的平台，它不仅简化了实时数据处理流程，还免去了服务器管理的烦恼，提升了效率。本文将指导您使用EMR Serverless Spark提交...

Spark流式写入Iceberg

def main(args:Array[String]):Unit={/配置使用数据湖元数据。val sparkConf=new SparkConf()sparkConf.set("spark.sql.extensions","org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")sparkConf.set("spark.sql....

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

基础使用

以下是在Spark SQL中使用数据湖元数据的配置，集群版本不同默认的Catalog名称不同，需要配置的参数也不同，具体请参见数据湖元数据配置。说明 Catalog的配置以 spark.sql.catalog.catalog_name 作为前缀，其中 catalog_name 为Catalog名称...

Github实时数据同步与分析

操作难度易所需时间 55分钟使用的阿里云产品实时数仓Hologres 云原生大数据计算服务 MaxCompute 专有网络VPC 大数据开发治理平台 DataWorks DataV数据可视化所需费用 Hologres：0元。阿里云提供一定额度的资源包供您免费体验，开通后...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，...步骤六：消费数据用户画像分析完成后，使用数据分析模块，将加工后的数据可视化展现，便于您快速提取关键信息，洞察数据背后的业务趋势。

SmartData使用说明（EMR-3.22.0~3.25.1版本）

我们提供了 node.data-dirs.watermark.high.ratio 和 node.data-dirs.watermark.low.ratio 这两个参数用来调节本地存储的使用容量，值均为0～1的小数表示使用比例，JindoFS默认使用所有数据盘，每块盘的使用容量默认即为数据盘大小。...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析，并通过用户画像分析案例...消费数据用户画像分析完成后，使用数据分析模块，将加工后的数据可视化展现，便于您快速提取关键信息，洞察数据背后的业务趋势。

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为...

Spark批式读写Iceberg

以下是在Spark SQL中使用数据湖元数据的配置，集群版本不同默认的Catalog名称不同，需要配置的参数也不同，具体请参见数据湖元数据配置。EMR-3.40及后续版本和EMR-5.6.0及后续版本 sparkConf.set("spark.sql.extensions","org.apache....

加工数据

本文为您介绍如何将同步至MaxCompute的用户信息表 ods_user_info_d 及访问日志数据 ods_raw_log_d，通过DataWorks的MaxCompute节点加工得到目标用户画像数据，阅读本文后，您可以了解如何通过DataWorks+MaxCompute产品组合来计算和分析已...

IoT数据自动化同步至云端解决方案

物联网的体系结构包括设备、网络、平台、分析、应用和安全，其中分析部分的主要内容为大数据分析。大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案...