软件专业大数据专业-软件专业大数据专业文档介绍内容-移动阿里云

购买指引

专业版中小型企业、高SLA业务部门数据安全与合规要求管理复杂业务流程与多方协作实现高SLA资产保障核心提供数据安全能力增强，数据脱敏、访问控制等安全能力，集成面向业务使用的数据管理能力，增强开发侧的访问协作。企业版（推荐）...

综合：网站用户画像分析

开源全托管服务EMR Serverless StarRocks 开源大数据平台 E-MapReduce 开源全托管服务EMR Serverless Spark 数据中台一站式大数据开发治理DataWorks 在本案例中，DataWorks作为数据中台，用于对原始数据进行同步、加工、质量监控、数据...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

数据集成概述

5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错、...

大数据

购买数据安全中心DSC（Data Security Center）实例后，在使用 DSC 检测大数据产品（包括TableStore、MaxCompute、AnalyticDB-MYSQL、AnalyticDB-PG）中存在的敏感数据或审计数据库等功能前，您需要先开启对应功能。前提条件已开通数据...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。整体架构图完整的技术架构图如下图所示。其中，MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks的数据集成负责完成数据的采集和基本...

产品教程

MaxCompute Hologres EMR Spark 数据分析 大数据AI公共数据集分析本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

数据迁移同步

使用场景数据源文档链接从Kafka同步 Kafka 从Kafka同步数据从Flink导入 Flink 使用JDBC Connector导入从Flink SQL导入从大数据导入/同步 DataWorks 使用DataWorks同步数据 MaxCompute 从MaxCompute外表导入（19.15.2.2）从MaxCompute...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

产品生态

DM（达梦）数据源 Milvus数据源 TiDB数据源 DRDS（PolarDB-X 1.0）数据源 MongoDB数据源 TSDB数据源 Elasticsearch数据源 MySQL数据源 Vertica数据源 FTP数据源 OpenSearch数据源 TOS数据源 GBase8a数据源 Oracle数据源 HBase数据源 Graph ...

研发规范

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

数据库节点

支持创建数据库节点数据源数据源类型数据源简介 MySQL MySQL是用于存储和处理数据的关系型数据库管理系统（RDBMS），是最流行的关系型数据库管理系统之一，其体积小、速度快、总体拥有成本低。更多介绍请参见 MySQL。SQL Server SQL ...

应用场景

大数据场景云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势如下：低成本：高压缩比，数据冷热分离，...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

产品简介

什么是AnalyticDB AnalyticDB是阿里云自研的云原生实时数据仓库，支持从OLTP数据库和日志文件中实时写入数据，并秒级完成PB级数据分析。AnalyticDB采用云原生存算分离的架构，存储按量付费，计算弹性伸缩，同时具备离线处理与在线分析资源...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

数据导入

从阿里云对象存储OSS导入数据至图数据库GDB实例图数据库GDB服务端集成有数据导入模块，可以获取您提供的.csv格式的OSS数据文件，并将其解析为图中的点数据和边数据，然后将点数据和边数据导入至图数据库GDB实例。步骤步骤说明 ① 将需要...

数据集成支持的数据源

创建MySQL数据源创建Oracle数据源创建Microsoft SQL Server数据源创建OceanBase数据源创建IBM DB2数据源创建MaxCompute数据源创建FTP数据源创建TDengine数据源创建PostgreSQL数据源创建达梦（DM）数据源创建Amazon Redshift数据...

图扑案例

业务要求与挑战 5G、云计算、边缘计算等智能、互联技术的快速发展，推动了工业物联网IIoT场景下各种软件、硬件传感器数量激增，与之对应的采集数据量和数据类型快速增长，导致数据存储、检索难度更大。现有解决方案中，通常依赖自建单...

数据集成操作指导

支持的源和目标数据库数据集成支持的源数据库和目标数据库与数据迁移支持的数据库相同。数据集成的基本步骤您可以通过以下步骤来创建和管理数据集成任务。步骤说明设置网络环境在使用DTS进行数据集成之前，您必须确保DTS服务器可以...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

什么是MaxCompute

云原生大数据计算服务MaxCompute（原名ODPS）是阿里云自主研发的集高性价比、多模计算、企业级安全和 AI驱动于一体的企业级SaaS化智能云数据仓库（AI-Native Datawarehouse）。视频简介产品简介 MaxCompute是面向分析的企业级 SaaS ...

IoT数据自动化同步至云端解决方案

但同步至大数据系统或传统数据库的数据，需要使用专业的数据同步系统。下图为您展示使用DataWorks数据集成完成OSS数据同步至大数据系统的解决方案流程。新建离线同步节点，详情请参见通过向导模式配置离线同步任务。选择数据来源OSS进行...

DataWorks模块使用指引

DataWorks 是阿里云提供的一站式大数据开发与治理平台，旨在帮助用户解决从数据接入、处理、治理到服务化的全链路数据问题。它通过一系列高度协同的功能模块，将复杂的数据工程流程化、可视化，显著降低了大数据开发的门槛。本文将为您逐一...

整体架构

AnalyticDB for MySQL 是基于数据库大数据一体化的理念和趋势，在工程上深度打磨出的云原生数据仓库。技术架构 AnalyticDB for MySQL 采用云原生架构，计算存储分离、冷热数据分离，支持高吞吐实时写入和数据强一致，兼顾高并发查询和大...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

近实时数仓

背景信息企业依赖大数据平台快速地从海量数据中获得洞察从而更及时和有效地决策的同时，也对处理数据的新鲜度和处理本身的实时性要求越来越高。大数据平台普遍采用离线、实时、流三种引擎组合的方式以满足用户实时性和高性价比的需求。...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

应用场景

解决方案 DataWorks 联合 MaxCompute、Hologres 等云原生大数据引擎，提供一套湖仓一体、流批融合的一站式智能数据平台解决方案，帮助企业打破数据处理的时效壁垒。统一的数据接入与分层通过 DataWorks 数据集成(Data Integration)，...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

DeltaLake

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

节点开发

DataWorks的Data Studio模块提供多种节点以满足不同数据处理需求：数据集成节点用于同步，引擎计算节点（如MaxCompute SQL、Hologres SQL、EMR Hive）用于数据清洗，通用节点（如虚拟节点和do-while循环节点）用于复杂逻辑处理。...

数据集成

5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错、...

使用公开数据集进行数据查询、分析和可视化

公开数据集列表类型数据集数据来源及说明数据类型数字商业阿里电商数据集本数据集来源天池阿里移动推荐算法挑战赛，基于阿里巴巴100万条脱敏的商品数据，可以基于各类商品、操作、时间等字段，体验阿里云大数据分析能力。静态数据 ...

数据质量

典型工作流程如下：功能介绍 DataWorks 数据质量支持对常见大数据存储（MaxCompute、E-MapReduce、Hologres、AnalyticDB 等）进行质量校验，从完整性、准确性、一致性等多个维度配置监控规则，并与调度任务关联，实现自动化校验与问题告警...