大数据清洗的工具-大数据清洗的工具文档介绍内容-移动阿里云

自定义模型最佳实践

使用阿里云大模型服务平台百炼提供的数据清洗工具和数据增强工具，提升训练数据的质量。1.数据收集您可以从各种信息来源中发掘有业务价值的数据，并将这些数据编排成特定结构。您在完成数据收集时，需仔细考虑以下策略：来源多样化：从...

大数据专家服务

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...

应用场景

数据建模：通过数据建模模块提供的各种数据开发工具，实现数据的清洗、加工和转换。资产管理：通过资产运营功能实现资产的注册、编目、上架，在资产中心方便各个部门的使用人员搜索数据资源并申请数据权限。价值：数据标准一致：沉淀行业...

场景2：依赖上一周期的结果时，如何配置调度依赖

业务场景：本周期该节点是否进行数据清洗取决于下游节点上一周期对本节点的结果表（即本节点输出表）数据清洗的结果。如果下游节点的上一周期运行成功，本周期的节点实例开始运行，否则将不能运行。xc_create选择依赖一层子节点。运维中心...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

配置AnalyticDB for PostgreSQL输出组件

例如，数据同步至AnalyticDB for PostgreSQL数据源前自定义数据清洗的规则。填写完成语句：导入后执行的SQL脚本。例如，数据写入目标表A后，重命名目标表A为B。输入字段展示从源表中读取的字段。输出字段输出字段区域展示了已选中表及...

数据库节点

支持创建数据库节点数据源数据源类型数据源简介 MySQL MySQL是用于存储和处理数据的关系型数据库管理系统（RDBMS），是最流行的关系型数据库管理系统之一，其体积小、速度快、总体拥有成本低。更多介绍请参见 MySQL。SQL Server SQL ...

研发规范

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

什么是MaxCompute

云原生大数据计算服务MaxCompute（原名ODPS）是阿里云自主研发的集高性价比、多模计算、企业级安全和 AI驱动于一体的企业级SaaS化智能云数据仓库（AI-Native Datawarehouse）。视频简介产品简介 MaxCompute是面向分析的企业级 SaaS ...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。背景信息 Aliyun HBase即阿里云的云数据库HBase，是低成本、高扩展、云智能的大数据NoSQL。...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

支持的节点类型

引擎计算类节点您可在具体业务流程，选择在某引擎下新建对应类型的引擎节点，基于该节点进行数据开发，并将引擎代码下发至对应的数据清洗引擎上执行。DataWorks集成的引擎 DataWorks对引擎能力的封装节点编码 TaskType MaxCompute ODPS ...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

Global AWR用户指南

自动负载信息库AWR（Automatic Workload Repository）是数据库收集和分析性能数据的工具。通过AWR工具，可以从数据库的动态视图等统计信息中生成某个时间段的性能报告。概述 PolarDB PostgreSQL版的Global AWR性能报告功能，在提供数据库...

Global AWR用户指南

自动负载信息库AWR（Automatic Workload Repository）是数据库收集和分析性能数据的工具。通过AWR工具，可以从数据库的动态视图等统计信息中生成某个时间段的性能报告。概述 PolarDB PostgreSQL版（兼容Oracle）的Global AWR性能报告功能，...

Global AWR用户指南

自动负载信息库AWR（Automatic Workload Repository）是数据库收集和分析性能数据的工具。通过AWR工具，可以从数据库的动态视图等统计信息中生成某个时间段的性能报告。概述 PolarDB PostgreSQL版（兼容Oracle）的Global AWR性能报告功能，...

DataWorks On Hologres使用说明

将工作空间成员添加至Hologres引擎实例及DataWorks绑定的Hologres数据源中，并为生产环境执行账号授予较大的数据库权限。工作空间添加成员为工作空间成员配置Hologres引擎权限权限控制 DataWorks为您提供了产品级与模块级的权限控制，您...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

StarRocks跨集群数据迁移工具

本文将指导您如何使用StarRocks跨集群数据迁移工具。该工具提供全量及增量同步功能，旨在为您解决迁移过程中源集群与目标集群的数据同步问题，确保数据一致性的同时，最大限度减少对业务运营的影响。迁移准备在开始迁移前，请完成以下准备...

数据查询

使用预降采样查询提升查询性能大范围的时间查询预降采样通过存储引擎将写入的数据降低精度后单独存储，查询时按查询条件中指定的降采样精度自动查询最接近预降采样精度的数据，然后再对查询的数据进行聚合计算，减少实时查询的计算数据...

组件操作

常用参数调优同步HDFS Audit日志至HDFS 常见问题 Sqoop Sqoop是一个用于在Hadoop和关系型数据库之间高效传输数据的工具，支持大规模数据导入和导出操作。Sqoop使用说明 Sqoop常见问题 Kafka Kafka仅对存量用户开放。Kafka是一个开源的分布...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

进阶：商品订单畅销类目分析

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本文以DataWorks的部分核心功能为例，指导您使用DataWorks接入数据并进行业务处理、...

DataV GeoAtlas地理小工具

数据编辑器数据编辑器是一款能够生成几何面边界数据并支持多种编辑功能的工具，同时提供AI智能助手辅助完成地图任务。如果您熟悉QGIS，可以快速掌握并上手使用该工具。层级生成器层级生成器是一款支持自定义下钻区域树形结构数据生成的...

数据上云工具

您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）客户端基于批量数据通道的SDK，实现了内置的Tunnel命令，可对数据进行上传和下载，Tunnel命令的使用请参见 Tunnel命令...

EMR Hive单表离线同步至MaxCompute

背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转换成...

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

查询执行模式

适用场景：适用于执行时间长、计算数据量大的查询。例如：清洗类查询（Extract-Transform-Load）。默认执行模式版本产品系列默认执行模式是否支持Batch模式数仓版预留模式 Interactive 否弹性模式是切换执行模式切换实例的执行...