如何使用大数据-如何使用大数据文档介绍内容-移动阿里云

使用程序进行大数据导入

本文介绍如何通过编写代码的方式，离线导入大数据量到 PolarDB-X 1.0 数据库。背景信息假设当前数据库有一个表需要导入到 PolarDB-X 1.0 数据库中，数据量大致为814万，表结构如下。CREATE TABLE `post`(`postingType` int NOT NULL,`id` ...

Quick BI数据大屏使用分享链接打开背景视频没有播放

概述 Quick BI数据大屏使用分享链接打开背景视频没有播放。详细信息需要在视频组件中勾选静音选项后即可正常播放。适用于 Quick BI

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

选型配置说明

E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求，还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明具体各集群类型支持的组件以控制台实际展示为准。集群类型场景介绍 ...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明版本号说明 2021-03-20 推荐使用。接入点说明根据实例所在的地域，选择对应的服务接入点地址，...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

E-MapReduce本地盘实例大规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点，并进行大数据基准性能测试。应用范围需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

ECS实例说明

大数据量（10 TB或以上）情况下，推荐使用大数据机型，可以获得极高的性价比。重要当Core核心实例使用本地盘时，HDFS数据存储在本地盘，需要您自行保证数据的可靠性。Task计算实例用于补充集群的计算能力，可以使用除大数据型外的所有...

大数据安全治理的难点

使用大数据系统的常见人员包括开发、运营、分析师，甚至销售及HR都会来查询自己所需的数据。如此多类型的用户，授权、管理难度加大，什么样的人员需要授予什么样的权限？如果他们离职、换部门了怎么办？这其中很有可能出现权限蠕变、过度...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

全景视角

数据使用视角：在数据分析、发布或使用数据服务等数据使用场景下，建议您使用数据使用视角，关注查看数据使用过程中，浏览、访问过的表列表、拥有权限的数据服务等方面的情况。详情请参见：数据使用视角。数据生产视角：在数据开发场景下，...

数据使用诊断

DataWorks的数据使用诊断，为您提供了对当前DataWorks工作空间的数据内容及数据隐私的安全保护能力，以及诊断相关安全问题的最佳实践及解决方案，帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断登录 DataWorks控制台...

用户授权与管理

使用数据建模DATABLAU功能时，在进行定义标准、数据建模、数据开发、部署运维等不同任务时，通常需不同角色的用户进行操作，对应用户需获取相应的权限。本文为您介绍制定标准、数据建模并应用部署过程中推荐的用户角色权限规划与授权操作...

使用Kettle调度MaxCompute

Kettle支持丰富的输入输出数据源，数据库支持Oracle、MySQL、DB2等，也支持各种开源的大数据系统，例如HDFS、HBase、Cassandra、MongoDB等。您可以在Kettle中通过创建Job的方式连接MaxCompute项目，并按照ETL流程调度作业。前提条件在执行...

Github实时数据同步与分析

操作难度易所需时间 55分钟使用的阿里云产品实时数仓Hologres 云原生大数据计算服务 MaxCompute 专有网络VPC 大数据开发治理平台 DataWorks DataV数据可视化所需费用 0元阿里云提供一定额度的资源包供您免费体验，开通后会使用计算...

选择付费方式

对周期性高密度计算作业使用包年包月模式，对非周期性的大规模数据处理作业使用按量计费模式。按量计费模式下可以不存储数据，通过读取其它账号下的表获取数据，从而可以节省数据存储费用。不同账号下跨表计算需要通过授权来实现，详细请...

使用DTS将自建数据库迁移到RDS，为什么迁移过程中RDS...

因为DTS进行的是逻辑迁移方式，它是将迁移数据封装成SQL后，同步到目标RDS实例中的，此时会在目标RDS实例中产生binlog数据，所以迁移过程中，RDS的空间大小可能比源数据库大。

业务视角管理：数据专辑

使用限制仅支持DataWorks专业版及以上版本使用数据专辑功能，低版本用户请先升级再使用该功能，详情请参见：DataWorks各版本详解。数据专辑目前仅支持管理MaxCompute表。进入数据专辑进入数据地图页面。登录 DataWorks控制台，切换至目标...

数据质量入门

数据质量帮助您及时感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，阻断脏数据向下游蔓延。避免任务产出问题数据，影响正常使用和业务决策。本文示例配置表数据质量监控规则，保障产出的表数据...

SparkSQL使用扩展记录数据血缘和访问历史

通过EMR-HOOK，您可以使用数据湖构建（DLF）的数据概况，以统计表和分区的访问次数，您也可以使用DataWorks来管理数据血缘。本文为您介绍如何配置Spark服务的EMR-HOOK。前提条件已创建DataLake或自定义集群，且选择了Spark服务，详情请...

基础使用

以下是在Spark SQL中使用数据湖元数据的配置，集群版本不同默认的Catalog名称不同，需要配置的参数也不同，具体请参见数据湖元数据配置。EMR-5.6.0及后续版本 spark-sql-conf spark.sql.extensions=org.apache.iceberg.spark.extensions....

SmartData使用说明（EMR-3.20.0~3.22.0版本）

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

SmartData使用说明（EMR-3.22.0~3.25.1版本）

我们提供了 node.data-dirs.watermark.high.ratio 和 node.data-dirs.watermark.low.ratio 这两个参数用来调节本地存储的使用容量，值均为0～1的小数表示使用比例，JindoFS默认使用所有数据盘，每块盘的使用容量默认即为数据盘大小。...

DataWorks准备工作流程

DataWorks是为您提供专业高效、安全可靠的一站式大数据开发与治理平台，使用其进行数据开发前，您需做好相关准备工作，保障后续开发任务可顺利执行。本文为您介绍DataWorks的购买及环境准备流程，帮助您快速开通DataWorks并准备所需开发...

使用Copilot+增强分析实现一站式智能数据查询与可视化

基于以上操作，本教程展示了如何将本地数据单次手动上传到MaxCompute中，如需将业务生产过程中产生的数据定时同步至MaxCompute等大数据计算引擎中，推荐使用DataWorks数据集成，详情请参见数据集成概述。附录：报告中所有卡片用到的SQL...

配置及使用数仓分层检查器

也可单击图标，使用业务大类英文缩写、数据集市英文缩写、主题域英文缩写等多种类别的来定义规则。可自由组合。说明不同模型（例如，应用表、维度表）定义规则时可选类别存在差异，具体请以实际界面为准。指标规则：选择修饰词、原子指标...

容量中心

容量中心可以反映集群、租户、数据库、表、索引的资源使用情况及使用趋势，告知客户是否存在容量风险，便于客户及时进行扩容等操作。操作步骤登录 OceanBase 管理控制台。在左侧导航栏中，单击自治服务。在实例详情区域，单击需要查看...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定计算引擎后，您即可在DataWorks上创建对应引擎...

RDS SQL Server空间不足问题

数据空间的回收通常有如下几种方式：归档数据删除数据库中不常用的数据（例如早期的历史数据），或者根据需要迁移到其他数据库实例中，或者以其他形式归档保存，通过直接减少数据量来降低已使用数据空间大小。这种方式是控制数据空间增长...

DataWorks On CDP/CDH使用说明

CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建为单独的用户数据使用。您可在DataWorks中注册CDH及CDP集群，基于业务需求进行相关任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和...