大数据java工程师-大数据java工程师文档介绍内容-移动阿里云

整体架构

云原生数据仓库 AnalyticDB MySQL 版是阿里巴巴自主研发、经过超大规模以及核心业务验证的PB级实时数据仓库。概述自2012年第一次在集团发布上线以来，AnalyticDB for MySQL 至今已累计迭代发布近百个版本，支撑起集团内的电商、广告、...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

应用场景

解决方案 DataWorks 联合 MaxCompute、Hologres 等云原生大数据引擎，提供一套湖仓一体、流批融合的一站式智能数据平台解决方案，帮助企业打破数据处理的时效壁垒。统一的数据接入与分层通过 DataWorks 数据集成(Data Integration)，...

DeltaLake

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

数据集成

5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错、...

使用公开数据集进行数据查询、分析和可视化

公开数据集列表类型数据集数据来源及说明数据类型数字商业阿里电商数据集本数据集来源天池阿里移动推荐算法挑战赛，基于阿里巴巴100万条脱敏的商品数据，可以基于各类商品、操作、时间等字段，体验阿里云大数据分析能力。静态数据 ...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

数据源

数据源负责从各种数据存储系统中提取数据，包括数据库（如MySQL、PostgreSQL）、大数据存储（如TableStore）、API、文件等。本文为您介绍DataV-Board支持的所有数据源，并提供数据源的选型指导。使用限制数据源支持情况因不同版本而异，...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

数据集成支持的数据源

创建MySQL数据源创建Oracle数据源创建Microsoft SQL Server数据源创建OceanBase数据源创建IBM DB2数据源创建MaxCompute数据源创建FTP数据源创建TDengine数据源创建Hive数据源创建PostgreSQL数据源创建达梦（DM）数据源创建...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka数据（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS数据（推荐）大数据 Hive 数据迁移 Hive数据导入存储 OSS 元数据发现通过...

典型场景

典型场景数据仓库服务您可以通过数据传输服务（DTS）或数据集成服务（DataX），将云数据库（例如RDS、PolarDB）或自建数据库批量同步到云原生数据仓库AnalyticDB PostgreSQL版。云原生数据仓库PostgreSQL版支持对海量数据的复杂ETL进行...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

数据导入方式介绍

为满足多样化的数据导入需求，AnalyticDB for MySQL 提供了多种数据导入方式，包括：通过外表导入数据、通过DataWorks导入数据、通过DTS导入数据以及使用JDBC通过程序导入数据等。您可以通过本文了解各导入方式的特性及适用场景，帮助您...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和EMR产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和EMR产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取...

创建Greenplum数据源

通过创建Greenplum数据源能够实现Dataphin读取Greenplum的业务数据或向Greenplum写入数据。本文为您介绍如何创建Greenplum数据源。背景信息 Greenplum是一款大数据分析引擎，适用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建数据库

对于非ONLINE状态的同名数据库，根据不同场景解决：场景1：OSS备份数据恢复上云时选择不打开数据库产生原因在使用 OSS备份数据恢复到RDS SQL Server 时如果选择了不打开数据库（还有差异备份或日志文件）选项，数据库会处于非ONLINE状态...

数据变更最佳实践

批量和实时导入数据批量导入：适用于大数据量导入的场景，导入过程中可以查询旧数据，导入操作完成后一键切换新数据。导入失败时，支持回滚新数据，不影响查询旧数据。例如，从MaxCompute、OSS中导入数据到 AnalyticDB MySQL版时，推荐...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

创建Greenplum数据源

通过创建Greenplum数据源能够实现Dataphin读取Greenplum的业务数据或向Greenplum写入数据。本文为您介绍如何创建Greenplum数据源。背景信息 Greenplum是一款大数据分析引擎，适用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

订阅方案概览

数据订阅功能可以帮助您获取数据库的实时增量数据，您可以根据自身业务需求自由消费增量数据，并写入目标端，实现各类业务场景，例如缓存更新、业务异步解耦、异构数据源数据实时同步及含复杂ETL的多种业务场景。源库限制限制项说明网络...

功能特性

DataWorks 提供一站式大数据开发与治理平台，涵盖数据集成、开发、建模、分析、质量、服务、地图及开放能力，支持全链路数据处理与企业级数据中台建设。本文为您介绍DataWorks的核心功能特性。数据集成：全领域数据汇聚 DataWorks的数据...