有关大数据-有关大数据文档介绍内容-移动阿里云

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

DataWorks On EMR使用说明

类别描述相关文档 OpenAPI DataWorks开放平台的OpenAPI功能，为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。开放API（OpenAPI）开放...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

研发规范

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

数据迁移同步

使用场景数据源文档链接从Kafka同步 Kafka 从Kafka同步数据从Flink导入 Flink 使用JDBC Connector导入从Flink SQL导入从大数据导入/同步 DataWorks 使用DataWorks同步数据 MaxCompute 从MaxCompute外表导入（19.15.2.2）从MaxCompute...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持不支持 Hudi 支持支持 Doris 支持不支持 GreenPlum 支持支持 TDengine ...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

DataWorks产品安全能力介绍

备份与恢复：云原生底层存储天然支持三份副本备份，同时，大数据计算服务MaxCompute提供数据备份与恢复功能，您可对保留周期内的数据进行快速恢复，避免因错误操作丢失数据。安全销毁：阿里云上落盘的数据一经删除，永久不可恢复；同时，...

产品简介

企业专属知识库 GIS 时空大数据分析离在线一体数据分析其他云数据仓库业务迁移（Greenplum、Redshift、Synapse、Snowflake、BigQuery等）客户行业游戏、零售、汽车零售、电商、教育节省成本共同点按实际数据量收取数据存储费用冷热...

数据导入

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

DataWorks模块使用指引

DataWorks 是阿里云提供的一站式大数据开发与治理平台，旨在帮助用户解决从数据接入、处理、治理到服务化的全链路数据问题。它通过一系列高度协同的功能模块，将复杂的数据工程流程化、可视化，显著降低了大数据开发的门槛。本文将为您逐一...

TPC-H

本次测试的挑战主要有：30 TB大数据集：本次选用30 TB数据集，最大表1800亿行，对数据的导入、存储、计算性能都是巨大的挑战。复杂关联分析：多表Join、相关查询、数据多维过滤和高精度数值计算等，不仅对优化器是挑战（如何解相关、选择最...

服务支持

发布记录数据安全中心功能发布记录常见问题服务文档索引数据安全中心 DSC（Data Security Center）（敏感数据保护）功能相关数据安全常见问题数据授权常见问题数据扫描和识别常见问题支持列表支持识别的敏感数据类型支持识别的...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

我是普通用户

数据导出进行大量数据分析或提取相关数据时可以使用数据导出功能。数据追踪由于误操作等原因导致数据不符合预期时，可以通过数据追踪将数据快速恢复到正常状态。测试数据构建测试数据结构可以在频繁的数据准备过程中确保数据安全、保障...

云消息队列 Kafka 版数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，便于分析加工离线数据。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版购买并...

什么是数据安全中心

可视化：基于大数据与机器学习技术，智能识别高风险行为（如访问异常、AK泄露），并通过动态可视化界面全景展示数据资产分布与安全状态，一键检索海量数据中的配置风险并提供修复建议。功能特性分类分级 DSC为金融、能源、汽车等行业提供...

功能发布记录

2025-10-14 所有地域 DataWorks企业版用户管理开放数据开放数据表结构详情 09月功能名称描述开始发布时间预计发布地域使用客户相关文档 DataWorks资源组支持部署使用大模型服务 DataWorks大模型服务为您提供高效部署、安全通信与...

数据集成操作指导

支持的源和目标数据库数据集成支持的源数据库和目标数据库与数据迁移支持的数据库相同。数据集成的基本步骤您可以通过以下步骤来创建和管理数据集成任务。步骤说明设置网络环境在使用DTS进行数据集成之前，您必须确保DTS服务器可以...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

什么是MaxCompute

云原生大数据计算服务MaxCompute（原名ODPS）是阿里云自主研发的集高性价比、多模计算、企业级安全和 AI驱动于一体的企业级SaaS化智能云数据仓库（AI-Native Datawarehouse）。视频简介产品简介 MaxCompute是面向分析的企业级 SaaS ...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

DeltaLake

背景信息通常的数据湖方案是选取大数据存储引擎构建数据湖（例如，阿里云对象存储OSS产品或云下HDFS），然后将产生的各种类型数据存储在该存储引擎中。在使用数据时，通过Spark或Presto对接数据分析引擎并进行数据解析。但该套方案存在...

使用公开数据集进行数据查询、分析和可视化

DataWorks汇聚了丰富的官方真实数据（敏感数据已脱敏），每份数据均提供了具体业务场景的查询SQL，您可选择感兴趣的公共数据集执行示例SQL，分析结果可生成可视化...相关参考使用公开数据集的更多详细步骤，请参见 大数据AI公共数据集分析。

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎Hive、Spark、Presto、Flink等，同时也支持云厂商自研的大数据引擎，如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

应用场景

解决方案 DataWorks 联合 MaxCompute、Hologres 等云原生大数据引擎，提供一套湖仓一体、流批融合的一站式智能数据平台解决方案，帮助企业打破数据处理的时效壁垒。统一的数据接入与分层通过 DataWorks 数据集成(Data Integration)，...

近实时数仓

背景信息企业依赖大数据平台快速地从海量数据中获得洞察从而更及时和有效地决策的同时，也对处理数据的新鲜度和处理本身的实时性要求越来越高。大数据平台普遍采用离线、实时、流三种引擎组合的方式以满足用户实时性和高性价比的需求。...

新建 TiDB 数据源

新建数据源是创建数据迁移或数据同步任务的前提。本文为您介绍如何在数据传输中新建 TiDB 数据源。安全风险提醒使用 OceanBase 数据传输服务，您可以选择自动添加或手动添加 OceanBase 数据传输服务的公网 IP 地址段，但可能存在安全风险...

数据库导出

大数据导出选项导出TINYBLOB、BLOB、MEDIUMBLOB、LONGBLOB类型（输出格式为16进制）。导出BINARY、VARBINARY类型（输出格式为16进制）。导出TINYTEXT、TEXT、MEDIUMTEXT、LONGTEXT类型。SQL脚本拓展选项在CREATE语句前生成DROP TABLE语句...

数据使用诊断

DataWorks的数据使用诊断，为您提供了对当前DataWorks工作空间的数据内容及数据隐私的安全保护能力，以及诊断相关安全问题的最佳实践及解决方案，帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断登录 DataWorks控制台...

数据源

数据源负责从各种数据存储系统中提取数据，包括数据库（如MySQL、PostgreSQL）、大数据存储（如TableStore）、API、文件等。本文为您介绍DataV-Board支持的所有数据源，并提供数据源的选型指导。使用限制数据源支持情况因不同版本而异，...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

数据源白名单配置

产品名称操作说明云原生大数据计算服务MaxCompute 设置白名单实时数仓Hologres IP白名单云数据库ClickHouse 设置白名单消息队列Kafka版配置白名单云原生分布式数据库PolarDB-X 设置白名单云原生分布式数据库PolarDB-X（2.0）设置白...