大数据与软件应用-大数据与软件应用文档介绍内容-移动阿里云

数据传输与迁移概述

MaxCompute提供多种渠道，以便您从业务系统或外部数据源写入数据到MaxCompute，或者从MaxCompute写出数据到外部系统或外部数据源。数据传输渠道 SDK-Tunnel渠道外表（湖仓一体）JDBC渠道场景数据写入MaxCompute 离线数据批量写入（数据...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定后您可以创建计算任务并进行周期调度。使用...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

系统管理

上传数据至MaxCompute引擎：支持使用 Serverless资源组（推荐）、旧版资源组（独享调度资源组或独享数据集成资源组），且需确保数据上传任务使用的数据源与所选资源组网络连通。所选Serverless资源组和独享资源组需绑定至待接收数据的表...

使用场景

包含但不限于如下场景：数据迁移与同步使用DMS任务编排配置和管理数据迁移或数据同步任务，将数据从一个数据源迁移到另一个数据源，或实现同数据源、不同数据源之间的数据实时同步。数据清洗与加工 DMS任务编排可以用于数据清洗和加工任务...

场景：配置增量数据离线同步任务

离线同步任务支持您通过配置类似的数据过滤功能来决定同步全量数据还是增量数据，配置过滤条件时，将只同步满足过滤条件的数据。同时，过滤条件可以结合调度参数使用，实现过滤条件随任务调度时间的动态变化，进而实现增量数据的同步。该...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

上传数据

说明如您需更丰富的数据上传功能，可使用DataWorks的上传与下载模块。上传与下载支持将本地文件、数据分析的电子表格、OSS文件等数据上传至MaxCompute、EMR Hive、Hologres等引擎，详情请参见数据上传。上传数据操作入口您可在数据开发...

查看敏感数据识别结果

敏感数据识别任务扫描完成后，您可在数据安全中心以数据库实例、OSS Bucket、SLS Project或具体数据对象（如数据表、文件或每5分钟内存储的数据等）为单位查看敏感数据识别结果。本文介绍如何查看数据对象、数据库实例的敏感数据识别结果。...

风险识别管理

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10,000时命中该规则。周一至周五：19:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询...

数据资产治理

数据资产治理（原数据治理中心）可根据预先配置的治理计划，自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题，并通过健康分量化评估，从全局、工作空间、个人等多个视角，以治理报告及排行榜呈现治理...

数据分析及报告制作

在DataV-Note（智能分析）中，分析单元是进行数据分析及报告制作的主要工作区域，而数据集和变量则是分析单元用于进行分析的输入数据。本文为您介绍DataV-Note支持的分析单元类型，以及数据分析及报告制作的流程概述。概念须知分析单元：...

查看数据表资产详情

字段信息：为您展示字段的序号、名称、数据类型、描述/备注、业务类型/关联实体（维度逻辑表和事实逻辑表仅展示关联实体）、关联标准（需购买数据标准模块）、样例数据（仅开启数据采样功能时展示）、质量分（需购买数据质量模块且资产...

加速服务

方案1：使用加速服务注意事项加速项与数据表之间是一一映射的关系，即：一个加速项中只包含一张数据表，一张数据表最多也只会产生一个加速项。如果在新增加速项时，选择了已配置过加速项的数据表名称，则该加速项将会初始化失败。步骤1：...

管理数据

用户画像分析任务流程完成后，在MaxCompute、EMR或StarRocks内将创建5张数据表。生成的数据表可在数据地图模块进行查看，可通过血缘查看来查生成表之间的关系。前提条件开始本实验前，请先完成同步数据和加工数据的操作。数据源版本...

DLF+OSS外部Schema

MaxCompute推出DLF+OSS类型的外部Schema，通过映射DLF Legacy Catalog并配置和OSS的连接，实现元数据与数据的实时访问。功能介绍 DLF+OSS数据源是以OSS作为数据湖存储服务，以DLF Legacy（下文简写为DLF）为湖上元数据管理服务的常用数据湖...

数据类型版本说明

MaxCompute目前提供了三种不同类型的数据类型版本，包括1.0数据类型、2.0数据类型以及Hive兼容数据类型，您可以根据业务需求选择合适的数据类型版本。本文为您介绍三种数据类型版本、选择数据类型版本以及查看和修改项目的数据类型版本。...

网络连通解决方案

添加数据源时需要根据数据源所在网络环境，通过对应的网络解决方案，实现Dataphin与数据源的网络连通。本文为您介绍数据源在不同网络环境中与Dataphin的网络连通方案。网络连通方案根据数据源所在的网络环境，在下图中选择对应的网络连通...

常见问题

业务TTL时间列的范围查询若同时跨越在线数据与归档数据，应用该如何处理？使用归档表进行查询。因为归档表具有提前归档的特性，会保存在线所有的数据，所以当存在查询跨在线表和归档表数据时，您可以直接使用归档表查询。如果按行清理冷...

管理开放数据

基于DataWorks平台提供的开放数据，您可进行以下应用：数据盘点：清晰统计工作空间、负责人管理的数据对象（如表、任务），了解数据结构、来源、更新频率及依赖关系，消除“数据黑盒”问题。全链路追溯：基于表和数据血缘等元数据，支持...

云原生大数据计算服务 MaxCompute系统权限策略参考

本文描述云原生大数据计算服务 MaxCompute支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里...

什么是MaxFrame

大规模数据分析与处理：当数据量庞大、处理逻辑复杂时，MaxFrame借助MaxCompute海量数据和计算资源的分布式能力，显著提高数据分析、处理及数据挖掘的开发效率。Data+AI开发：对于整个分布式数据开发和模型开发过程依赖于第三方或自定义...

AnalyticDB for PostgreSQL数据源

AnalyticDB for PostgreSQL数据源...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据集成与AnalyticDB for PostgreSQL的网络交互次数，并提升整体吞吐量。但是该值设置过大可能会造成数据集成运行进程OOM情况。否 1,024

DM（达梦）数据源

DM（达梦）数据源作为数据中枢，为您提供读取和写入DM数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DM数据同步的能力支持情况。使用限制离线同步支持读取视图表。DM Reader和DM Writer支持使用 Serverless...

同步数据

独享Tunnel Quota的更多信息，请参见购买与使用独享数据传输服务资源组。表单击一键生成目标表结构快速创建MaxCompute表。将如下建表语句粘贴至建表语句区域，单击新建表。该表用于接收数据来源端的用户数据。CREATE TABLE IF NOT ...

行业趋势与挑战

近些年来，数据在国民经济各个领域扮演着愈发重要的角色，其使用特点较之以往也发生了诸多变化。本文将介绍当前数据技术的发展趋势以及企业在这一过程中面临的业务挑战。技术发展趋势规模爆炸性增长随着8K、5G、IoT、大数据、AI等系列...

Notebook（旧版）

DMS数据分析与应用介绍 DMS通过Data Fabric+大模型构建数据管理底座，赋能数据分析与应用。该场景下核心的四个功能如下：安全托管：DMS在阿里集团数据库权限访问控制最佳实践，为企业提供一系列数据库权限管控的集合，可帮助企业实现多云...

创建DataV大屏（模板篇）

本文主要介绍如何使用宜搭系统，通过创建空白应用后创建模板大屏，并配置应用中模板大屏的数据源和修改大屏标题的功能。背景信息宜搭数字化大屏视频功能讲解，请参见如下视频：登录宜搭平台操作步骤：登录宜搭平台，在宜搭官网首页右上...

设置透明数据加密TDE

经过数据库身份验证的应用和用户可以继续透明地访问应用数据（不需要更改应用代码或配置），而尝试读取表空间文件中的敏感数据的OS用户以及尝试读取磁盘或备份信息的未知用户将不允许访问明文数据。密钥：TDE加密使用的密钥由密钥管理服务...

概述

以下是常见的应用场景：数据存储与计算安全场景：在不可信环境中（如第三方平台），Spark全密态计算引擎可以为关键的数据分析应用（如投资和财务分析）提供数据保护，保证用户数据在存储与计算过程中的安全，降低明文数据泄露风险。...

数据下载

在DataWorks的数据开发（DataStudio）、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能，您可将所需历史下载文件重新下载至本地使用，也可追溯历史下载记录的操作详情。前提条件已通过如下模块...

创建概念模型：维度

说明系统默认的应用数据层只能创建应用表，如需在应用层创建维度，需新建应用层，并将应用层的模型类型设置为维度或维度表、维度。详情参见：自定义分层。业务分类选择维度所属的业务分类，请参见定义业务分类。数据域/数据集市根据...

管理数据集

DataWorks的数据集功能可以实现对非结构化数据（如图像、文档）的有效管理控制，并在DataWorks中使用，本文将为您介绍数据集的创建与使用方式。背景信息在使用DataWorks进行数据开发的过程中，当您需要读写存储于OSS、NAS中的数据时，可以...

Vertica数据源

Vertica是一款基于列存储的MPP架构的数据库，Vertica数据源为您提供读取和写入Vertica双向通道的功能，本文为您介绍DataWorks的Vertica数据同步的能力支持情况。支持的版本 Vertica Reader通过Vertica数据库驱动访问Vertica，您需要确认...

SQL查询（旧版）

如果需要快速地对数据进行查询与分析，您可以使用SQL语句查询MaxCompute、EMR Hive、Hologres等数据源。本文为您介绍如何通过SQL语句查询数据源。重要 DataWorks推荐您体验新版数据分析，以获得最新功能和更好体验。支持的数据源 SQL查询...

SQL查询（新版）

如果需要快速地对数据进行查询与分析，您可以使用SQL语句查询MaxCompute、EMR Hive、Hologres等数据源。本文为您介绍如何通过SQL语句查询数据源。重要本文档适用于新版数据分析，旧版操作请参见 SQL查询（旧版）。您可通过导航栏切换新旧...

购买与使用独享数据传输服务资源组

在MaxCompute中，若需要使用模型传输大规模数据且对传输稳定性和延迟有要求时，可以使用独享数据传输服务资源组。独享数据传输服务资源组可以提供更高的数据传输速度和更好的网络条件，以减少传输时间并提高效率。本文介绍如何购买和使用该...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...