大数据学什么东西-大数据学什么东西文档介绍内容-移动阿里云

创建Hudi数据源

通过创建Hudi数据源能够实现Dataphin读取Hudi的业务数据或向Hudi写入数据。本文为您介绍如何创建Hudi数据源。背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的...

数据集成支持的数据源

创建MySQL数据源创建Oracle数据源创建Microsoft SQL Server数据源创建OceanBase数据源创建IBM DB2数据源创建MaxCompute数据源创建FTP数据源创建TDengine数据源创建Hive数据源创建PostgreSQL数据源创建达梦（DM）数据源创建...

数据质量

典型工作流程如下：功能介绍 DataWorks 数据质量支持对常见大数据存储（MaxCompute、E-MapReduce、Hologres、AnalyticDB 等）进行质量校验，从完整性、准确性、一致性等多个维度配置监控规则，并与调度任务关联，实现自动化校验与问题告警...

数据源白名单配置

产品名称操作说明云原生大数据计算服务MaxCompute 设置白名单实时数仓Hologres IP白名单云数据库ClickHouse 设置白名单消息队列Kafka版配置白名单云原生分布式数据库PolarDB-X 设置白名单云原生分布式数据库PolarDB-X（2.0）设置白...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka数据（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS数据（推荐）大数据 Hive 数据迁移 Hive数据导入存储 OSS 元数据发现通过...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

数据导入方式介绍

为满足多样化的数据导入需求，AnalyticDB for MySQL 提供了多种数据导入方式，包括：通过外表导入数据、通过DataWorks导入数据、通过DTS导入数据以及使用JDBC通过程序导入数据等。您可以通过本文了解各导入方式的特性及适用场景，帮助您...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和EMR产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和EMR产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作时，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB for...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

查看敏感数据识别结果

敏感数据识别任务扫描完成后，您可在数据安全中心以数据库实例、OSS Bucket、SLS Project或具体数据对象（如数据表、文件或每5分钟内存储的数据等）为单位查看敏感数据识别结果。本文介绍如何查看数据对象、数据库实例的敏感数据识别结果。...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

副本数据管理CDM（Copy Data Management）

背景信息在海量数据场景下，传统数据库备份服务面临两大越来越严重的困难：存储成本：为了保障数据恢复点目标（Recovery Point Objective，RPO），周期性的全量和增量备份产生大量重复数据，导致存储成本过高。使用成本：您必须待数据完成...

我是普通用户

数据方案数据变更对数据进行变更，以满足上线数据初始化、历史数据清理、问题修复、测试等诉求。数据导入通过数据导入功能可以批量将数据导入至数据库。数据导出进行大量数据分析或提取相关数据时可以使用数据导出功能。数据追踪由于...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

功能特性

DataWorks 提供一站式大数据开发与治理平台，涵盖数据集成、开发、建模、分析、质量、服务、地图及开放能力，支持全链路数据处理与企业级数据中台建设。本文为您介绍DataWorks的核心功能特性。数据集成：全领域数据汇聚 DataWorks的数据...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建数据库

对于非ONLINE状态的同名数据库，根据不同场景解决：场景1：OSS备份数据恢复上云时选择不打开数据库产生原因在使用 OSS备份数据恢复到RDS SQL Server 时如果选择了不打开数据库（还有差异备份或日志文件）选项，数据库会处于非ONLINE状态...

数据开发概述

Data Studio介绍 Data Studio是智能湖仓一体数据开发平台，内置阿里巴巴15年大数据建设方法论，深度适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、PAI等数十种大数据和AI计算服务，为数据仓库、数据湖、OpenLake湖仓一体数据架构...

数据开发（Data Studio）（新版）

Data Studio介绍 Data Studio是智能湖仓一体数据开发平台，内置阿里巴巴15年大数据建设方法论，深度适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、PAI等数十种大数据和AI计算服务，为数据仓库、数据湖、OpenLake湖仓一体数据架构...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定后您可以创建计算任务并进行周期调度。使用...

订阅方案概览

数据订阅功能可以帮助您获取数据库的实时增量数据，您可以根据自身业务需求自由消费增量数据，并写入目标端，实现各类业务场景，例如缓存更新、业务异步解耦、异构数据源数据实时同步及含复杂ETL的多种业务场景。源库限制限制项说明网络...

Quick BI连接MaxCompute

背景信息智能分析套件 Quick BI 是一个专为云上用户设计的易上手且性能强的大数据分析平台，不仅是业务人员查看数据的工具，更是数据化运营的助推器。前提条件在执行操作前，请确认您已满足如下条件：已创建MaxCompute项目。已获取可...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

数据导入

云数据库 SelectDB 版支持多样化的数据导入方式，涵盖原生接口与生态工具，满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到 SelectDB 的核心接口与工具。导入选型建议阿里云生态源数据：DTS、DataWorks 非阿里云生态...

什么是MaxFrame

MaxFrame是阿里云MaxCompute为了满足用户在Python生态中日益增长的高效大数据处理和AI开发需求，提供的基于Python编程接口的分布式计算框架。您可直接利用MaxCompute的海量计算资源及数据通过MaxFrame进行TB/PB级数据处理、可视化数据探索...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...