萧山大数据-萧山大数据文档介绍内容-移动阿里云

产品简介

企业专属知识库 GIS 时空大数据分析离在线一体数据分析其他云数据仓库业务迁移（Greenplum、Redshift、Synapse、Snowflake、BigQuery等）客户行业游戏、零售、汽车零售、电商、教育节省成本共同点按实际数据量收取数据存储费用冷热...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

什么是数据安全中心

可视化：基于大数据与机器学习技术，智能识别高风险行为（如访问异常、AK泄露），并通过动态可视化界面全景展示数据资产分布与安全状态，一键检索海量数据中的配置风险并提供修复建议。功能特性分类分级 DSC为金融、能源、汽车等行业提供...

数据导入

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

云消息队列 Kafka 版数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，便于分析加工离线数据。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版购买并...

数据集成支持的数据源

创建MySQL数据源创建Oracle数据源创建Microsoft SQL Server数据源创建OceanBase数据源创建IBM DB2数据源创建MaxCompute数据源创建FTP数据源创建TDengine数据源创建PostgreSQL数据源创建达梦（DM）数据源创建Amazon Redshift数据...

数据集成操作指导

支持的源和目标数据库数据集成支持的源数据库和目标数据库与数据迁移支持的数据库相同。数据集成的基本步骤您可以通过以下步骤来创建和管理数据集成任务。步骤说明设置网络环境在使用DTS进行数据集成之前，您必须确保DTS服务器可以...

DataWorks产品安全能力介绍

数据列级别多级审批：基于底层大数据引擎的访问控制列表与数据分级分类，DataWorks支持按项目与数据分级分类，定义数据列的权限申请及审批策略。说明仅DataWorks企业版支持您根据业务需要自定义审批流程。数据质量规则：支持管理员配置...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

什么是MaxCompute

云原生大数据计算服务MaxCompute（原名ODPS）是阿里云自主研发的集高性价比、多模计算、企业级安全和 AI驱动于一体的企业级SaaS化智能云数据仓库（AI-Native Datawarehouse）。视频简介产品简介 MaxCompute是面向分析的企业级 SaaS ...

DataWorks模块使用指引

DataWorks 是阿里云提供的一站式大数据开发与治理平台，旨在帮助用户解决从数据接入、处理、治理到服务化的全链路数据问题。它通过一系列高度协同的功能模块，将复杂的数据工程流程化、可视化，显著降低了大数据开发的门槛。本文将为您逐一...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

近实时数仓

背景信息企业依赖大数据平台快速地从海量数据中获得洞察从而更及时和有效地决策的同时，也对处理数据的新鲜度和处理本身的实时性要求越来越高。大数据平台普遍采用离线、实时、流三种引擎组合的方式以满足用户实时性和高性价比的需求。...

DeltaLake

Delta数据湖方案如下：在大数据存储层之上提供了数据管理层，该数据管理层等同于数据库中的元数据管理，其元数据随着数据一起存放并对用户可见（例如数据仓库与数据湖所示）。Delta基于元数据管理引入了ACID，解决了因数据导入失败而产生...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

应用场景

解决方案 DataWorks 联合 MaxCompute、Hologres 等云原生大数据引擎，提供一套湖仓一体、流批融合的一站式智能数据平台解决方案，帮助企业打破数据处理的时效壁垒。统一的数据接入与分层通过 DataWorks 数据集成(Data Integration)，...

通过RAM角色授权模式配置数据源

本文以OSS数据源为例，为您介绍如何通过RAM角色授权模式配置数据源，提高云上数据的安全性。前提条件如果您需使用RAM用户登录并完成本文操作流程，请先为RAM用户授予 AliyunDataWorksFullAccess 和 AliyunRAMFullAccess 权限策略，详情请...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

数据源

数据源负责从各种数据存储系统中提取数据，包括数据库（如MySQL、PostgreSQL）、大数据存储（如TableStore）、API、文件等。本文为您介绍DataV-Board支持的所有数据源，并提供数据源的选型指导。使用限制数据源支持情况因不同版本而异，...

数据源白名单配置

产品名称操作说明云原生大数据计算服务MaxCompute 设置白名单实时数仓Hologres IP白名单云数据库ClickHouse 设置白名单消息队列Kafka版配置白名单云原生分布式数据库PolarDB-X 设置白名单云原生分布式数据库PolarDB-X（2.0）设置白...

使用公开数据集进行数据查询、分析和可视化

公开数据集列表类型数据集数据来源及说明数据类型数字商业阿里电商数据集本数据集来源天池阿里移动推荐算法挑战赛，基于阿里巴巴100万条脱敏的商品数据，可以基于各类商品、操作、时间等字段，体验阿里云大数据分析能力。静态数据 ...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

数据集成支持的数据源

创建MySQL数据源创建Oracle数据源创建Microsoft SQL Server数据源创建OceanBase数据源创建IBM DB2数据源创建MaxCompute数据源创建FTP数据源创建TDengine数据源创建Hive数据源创建PostgreSQL数据源创建达梦（DM）数据源创建...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka数据（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS数据（推荐）大数据 Hive 数据迁移 Hive数据导入存储 OSS 元数据发现通过...

典型场景

ETL离线数据处理面对复杂SQL优化和海量数据大规模聚合分析等挑战，云原生数据仓库AnalyticDB PostgreSQL版具有如下技术优势：支持标准SQL、OLAP窗口函数和存储过程。ORCA分布式SQL优化器，复杂查询免调优。MPP多节点全并行计算，PB级数据...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作时，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB for...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

数据导入方式介绍

为满足多样化的数据导入需求，AnalyticDB for MySQL 提供了多种数据导入方式，包括：通过外表导入数据、通过DataWorks导入数据、通过DTS导入数据以及使用JDBC通过程序导入数据等。您可以通过本文了解各导入方式的特性及适用场景，帮助您...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

OSS数据安全保护方案

智能化：运用大数据和机器学习能力，通过智能化的算法，对敏感数据和高风险活动，例如数据异常访问和潜在的泄露风险进行有效识别和监控，并提供修复建议。提供定制化的敏感数据识别能力，便于客户自定义识别标准，实现精准识别和高效防护。...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和EMR产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取...