大数据平台分析平台-大数据平台分析平台文档介绍内容-移动阿里云

使用Copilot+增强分析实现一站式智能数据查询与可视化

成功登录后，在免费试用页面单击 大数据开发治理平台 DataWorks 产品的立即试用。在弹出的 DataWorks 产品购买面板选择开通地域为华东2（上海），勾选服务协议后单击确认订单并支付，按照界面指引开通DataWorks。开通MaxCompute 本...

DataHub数据源

本文介绍如何使用DataHub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING datahub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建DataHub表时，无需显式定义表的字段信息，...

数据资产治理

数据资产治理（原数据治理中心）可根据预先配置的治理计划，自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题，并通过健康分量化评估，从全局、工作空间、个人等多个视角，以治理报告及排行榜呈现治理...

通过函数计算节点实现GitHub实时数据分析与结果发送

开通 大数据开发治理平台DataWorks 并创建工作空间（本实践以使用标准模式工作空间为例，简单模式的操作类似）。操作详情请参见开通DataWorks服务、创建工作空间。开通云原生大数据计算服务MaxCompute，并创建MaxCompute项目。操作详情请...

加工数据

本文为您介绍如何使用DataWorks中的EMR Hive节点，对同步至OSS的用户信息表（ods_user_info_d_emr）及访问日志数据表（ods_raw_log_d_emr）中的数据进行加工，进而得到目标用户画像数据。前提条件开始本案例前，您需完成同步数据中的...

DataWorks ChatBI概述

DataWorks的ChatBI基于自然语言处理与智能分析技术，通过对话交互实现从需求解析、数据抽取、代码自动生成到可视化报告输出的全流程自动化分析，能够显著提升数据分析效率与决策精准度。功能介绍 ChatBI能够扮演专业的数据分析师角色。在...

物联网设备数据上云存储

本文介绍如何使用阿里云物联网平台和 TSDB 进行数据打通，实现物联网设备系统的开发和管理、数据采集、数据上报、数据存储和分析的一体化方案，构建智能物联网平台。架构参考“物联网平台+TSDB”方案的实现架构如下：物联网设备通过 IoT ...

Kafka数据源

本文介绍如何使用Kafka数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING kafka OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);配置参数说明 ...

DataWorks ChatBI

DataWorks的ChatBI基于自然语言处理与智能分析技术，通过对话交互实现从需求解析、数据抽取、代码自动生成到可视化报告输出的全流程自动化分析，能够显著提升数据分析效率与决策精准度。功能介绍 ChatBI能够扮演专业的数据分析师角色。在...

TableStore数据源

本文介绍如何使用TableStore数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING tablestore OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建TableStore表时，无需显式定义表的...

同步数据

本文为您介绍如何新建HttpFile和MySQL数据源来访问本教程所提供的用户信息与网站日志数据，配置数据同步链路至私有OSS数据源，并通过EMR Hive节点建表查询同步后的数据，完成数据同步的操作过程。前提条件开始本文的操作前，请准备好需要...

Kyuubi

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

云原生数据湖分析

云原生数据湖分析（Data Lake Analytics，简称DLA）是无服务器（Serverless）化的数据湖分析服务，支持按需与保留资源使用，打造最具性价比的数据湖分析平台；提供一站式的数据湖分析与计算服务，支持 ETL、机器学习、流、交互式分析，可以...

数据分析

查询外部数据如果需要查询存储在外部数据源中的数据，请参见数据湖分析。跨Catalog查询数据如果想在一个Catalog中查询其他Catalog中的数据，可通过 catalog_name.db_name 或 catalog_name.db_name.table_name 的格式来引用目标数据。...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

启用Trino语法进行数据湖分析

StarRocks 3.x版本在进行数据湖分析时，支持兼容Trino语法。本文介绍如何在StarRocks中利用Trino语法进行数据湖分析，特别是针对从Trino迁移至StarRocks的用户，旨在实现无缝切换且无需更改原有SQL语句。前提条件已创建存算分离版实例，...

监控数据质量

数据质量以数据集（DataSet）为监控对象，目前支持MaxCompute数据表监控。当离线MaxCompute数据发生变化时，数据质量会对数据进行校验，并阻塞生产链路，以避免问题数据污染扩散。同时，数据质量提供历史校验结果的管理，以便您对数据质量...

Hive数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

快速创建和使用数据湖分析集群

步骤二：准备数据集群创建成功后，您可以使用集群客户端内预置的WordCount样例程序进行数据分析测试，也可以上传并运行自行开发的大数据应用程序。本文将以运行预置的WordCount样例程序为例，指导您完成从数据准备到数据分析作业提交的...

离线同步日志分析

切分（拆分）任务此阶段将源端待同步数据切分为多个task，以便并发、分批进行读取数据，切分规则如下：关系型数据库：按照您在界面配置时指定的切分键 splitPk，作为切分依据，将待同步数据切分为多个task，通过并发分批读取切分的task。...

基于MaxCompute UDF分析IP来源

最佳方案结论：方案三是唯一能满足大数据场景下高性能、高集成度分析需求的方案。本教程将详细介绍如何实现这一最佳方案。方案设计我们将采用“离线IP库+自定义函数(UDF)”的方案。该方案分为三大模块：数据准备：将公开的IP地址库文件...

基于MaxCompute UDF分析IP来源

最佳方案结论：方案三是唯一能满足大数据场景下高性能、高集成度分析需求的方案。本教程将详细介绍如何实现这一最佳方案。方案设计我们将采用“离线IP库+自定义函数(UDF)”的方案。该方案分为三大模块：数据准备：将公开的IP地址库文件...

准备环境

数据源描述输入DataWorks案例体验专用数据源，在离线同步配置时读取该数据源即可访问平台提供的测试数据，该数据源只支持数据集成场景读取，其他模块不支持使用。配置模式选择连接串模式。连接地址主机地址IP：rm-bp1z69dodhh85z9qa....

任务上云与跨平台迁移

您可以通过一站式湖仓大数据迁移平台（Lakehouse Migration）调度迁移工具将以下平台的数据迁移至DataWorks，更多平台服务和迁移方案，详情可参见调度迁移功能概览。开源平台。DolphinScheduler Airflow Oozie Azkaban HUE 其他云平台。...

电子表格

当您需要对少量数据进行快速的、临时的分析，或者需要一个像Excel一样灵活的工具来整理、计算和可视化数据时，传统的SQL查询显得过于笨重，而专业的BI工具又可能过于复杂，学习成本高。DataWorks数据分析提供电子表格功能，它是一个在线的...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

提交节点时提示：输入输出和代码血缘分析不匹配

由于DataWorks的调度依赖主要保障调度节点定时更新的表数据，所以非DataWorks平台上调度更新的表，平台无法监控。当节点代码中SELECT非周期性调度生产的表数据时，您需要删除通过SELECT自动生成的依赖的上游节点配置。非周期性调度生产数据...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

用户画像分析（MaxCompute简化版）

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析，并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取网站用户群体...

同步数据

本文将介绍如何创建HttpFile和MySQL数据源以访问用户信息和网站日志数据，配置数据同步链路将这些数据同步到在环境准备阶段创建的OSS存储中，并通过创建EMR Hive外表解析OSS中存储的数据。通过查询验证数据同步结果，确认是否完成整个数据...

Kudu

Kudu是一个分布式的，具有可扩展性的列式存储管理器，可以对快速变化的数据进行快速分析。使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在...

开通并配置OSS存储分析

EMR Doctor支持分析OSS上的数据，开通OSS存储分析功能可以帮助您进一步了解OSS存储资源的使用情况和健康状态，让您更好地治理存储在OSS上的数据。背景信息 OSS提供了存储清单功能，配置该功能后会定期为Bucket生成清单文件，清单文件中保存...

ListDoctorHDFSDirectories-批量获取HDFS目录分析结果

通过EMR Doctor批量获取特定目录分析结果，目录不超过5级。接口说明 list Doctor HDFSNodes 调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息 ...

ListDoctorHiveTables-批量获取Hive表分析结果

通过EMR Doctor批量获取Hive表分析结果。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的...

确定需求

您在构建数据仓库之前，首先需要确定构建数据仓库的目标与需求，并进行全面的业务调研。您需要了解真实的业务需求，以及确定数据仓库要解决的问题。业务调研充分的业务调研和需求分析是数据仓库建设的基石，直接决定数据仓库能否建设成功...

小程序分析简介

该组件提供支付宝、微信、mPaaS 小程序平台数据统计能力，支持对三大平台的小程序进行全面的数据分析，统计分析数据可视化展现，一目了然，协助产品运营决策，驱动产品体验优化。小程序分析提供了用户分析、页面分析、分享分析等模块分析...

查看计量大屏

进入计量大屏页面登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据分析与服务数据服务，在下拉框中选择对应工作空间后单击进入数据服务。单击页面上方的服务管理，默认进入 API管理页面。在左侧导航栏，单击 API计量 ...

健康报告

该健康报告提供了前一天（T+1）的数据，并包括SQL查询、表分析、导入任务和缓存分析部分。查看健康报告进入EMR Serverless StarRocks实例列表页面。登录 E-MapReduce控制台。在左侧导航栏，选择 EMR Serverless StarRocks。在顶部菜单栏处...

使用限制

不提供永久文件存储功能，会定期(7+天)清除您的文件，重要转储文件请务必提前使用OSS或其他方式存储应用诊断分析平台免费提供50GB临时可用空间供您分析应阿里云安全监管要求，为了最大程度保护用户数据，应用诊断分析平台只能访问以 ...

ChatBI会话

在会话问答窗口中，您可以基于目标数据集来提出想要分析的需求或问题，ChatBI将根据您的提问来快捷完成一系列的智能化操作，包括：目标表识别、数据查询代码生成及运行、绘制可视化图表、结论提炼等，从而帮助您快捷完成日常数据分析任务，...