大数据与软件工程-大数据与软件工程文档介绍内容-移动阿里云

元数据中心

一级菜单二级菜单说明元数据采集采集概览元数据支持丰富的采集源类型，如传统数据库MySQL、Oracle，大数据存储Hologres等，可一览不同数据源类型已创建的采集任务、已创建的数据源、采集对象类型和支持的版本。采集任务通过采集适配...

元数据中心概述

一级菜单二级菜单说明元数据采集采集概览元数据支持丰富的采集源类型，如传统数据库MySQL、Oracle，大数据存储Hive、Hologres等，可一览不同数据源类型已创建的采集任务、已创建的数据源、采集对象类型和支持的版本。采集任务通过...

数据质量概述

背景信息面对各行各业日趋强烈的大数据建设、管理及应用的诉求，Dataphin应用场景的多样性及复杂性随之增加。因业务系统的原始数据的规范性无法得以保障，所以Dataphin需要定义数据分析的质量，以满足资产质量的时效性、准确性、完整性、...

数据质量概述

背景信息面对各行各业日趋强烈的大数据建设、管理及应用的诉求，Dataphin应用场景的多样性及复杂性随之增加。因业务系统的原始数据的规范性无法得以保障，所以Dataphin需要定义数据分析的质量，以满足资产质量的时效性、准确性、完整性、...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定后您可以创建计算任务并进行周期调度。使用...

超级X（智能应用）

Dataphin提供数据开发、治理、运营一体化全链路的超级X智能解决方案，当前支持X-数据工程、X-分析、X-运维助手及X-编码助手（Copilot）等核心能力，提供全链路数据服务。X-数据工程根据自然语言，自动生成多种任务（集成任务、数据模型和...

超级X（智能应用）

Dataphin提供数据开发、治理、运营一体化全链路的超级X智能解决方案，当前支持X-数据工程、X-分析、X-运维助手及X-编码助手（Copilot）等核心能力，提供全链路数据服务。X-数据工程根据自然语言，自动生成多种任务（集成任务、数据模型和...

上传数据

DataWorks的DataStudio（数据开发）支持将本地的CSV文件或自定义文本文件数据直接上传至MaxCompute表中，本文为您介绍相关操作。前提条件已创建用于接收本地数据的MaxCompute开发表。建表操作请参见创建并使用MaxCompute表。使用限制 ...

元数据中心

一级菜单二级菜单说明元数据采集采集概览元数据支持丰富的采集源类型，如传统数据库MySQL、Oracle，大数据存储 Hive、Hologres等，可一览不同数据源类型已创建的采集任务、已创建的数据源、采集对象类型和支持的版本。采集任务通过...

规划概述

使用DataWorks进行数据建模时，数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后，模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

功能特性

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。Notebook 近实时数仓 DeltaTable增量表格式 Delta Table 存储表是MaxCompute的数据存储单元，MaxCompute中不同类型作业的操作对象...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

后续指引

介绍：数据迁移实践：数据迁移最佳实践常见问题：数据上传下载常见问题大规模数据迁移 MaxCompute提供MMA（MaxCompute Migration Assist）迁移工具支撑大规模数据迁移。开发与分析数据类型 MaxCompute支持三种数据类型版本，为您介绍各...

API数据服务

DataWorks的数据服务模块，提供了通过API消费数据的服务，可以为使用API接收数据的业务提供数据。本文将以场景示例形式，为您介绍如何用DataWorks完成API服务对数据的消费。前提条件已创建独享数据服务资源组计费或已为Serverless资源...

API数据服务

DataWorks的数据服务模块，提供了通过API消费数据的服务，可以为使用API接收数据的业务提供数据。本文将以场景示例形式，为您介绍如何用DataWorks完成API服务对数据的消费。前提条件已创建独享数据服务资源组计费或已为Serverless资源...

API数据服务

DataWorks的数据服务模块，提供了通过API消费数据的服务，可以为使用API接收数据的业务提供数据。本文将以场景示例形式，为您介绍如何用DataWorks完成API服务对数据的消费。前提条件已创建独享数据服务资源组或已为Serverless资源组...

API数据服务

DataWorks的数据服务模块，提供了通过API消费数据的服务，可以为使用API接收数据的业务提供数据。本文将以场景示例形式，为您介绍如何用DataWorks完成API服务对数据的消费。前提条件已创建独享数据服务资源组计费或已为Serverless资源...

API数据服务

DataWorks的数据服务模块，提供了通过API消费数据的服务，可以为使用API接收数据的业务提供数据。本文将以场景示例形式，为您介绍如何用DataWorks完成API服务对数据的消费。前提条件已创建独享数据服务资源组或已为Serverless资源组...

风险识别管理

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10,000时命中该规则。周一至周五：19:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

数据扫描和识别

本文介绍敏感数据扫描和识别的常见问题及解决方法。数据扫描会影响我的数据库性能吗？数据安全中心DSC（Data Security Center）采用全量扫描、增量扫描和定时扫描策略扫描您的数据库。全量扫描会对您的数据库性能产生较小的影响，不会影响...

Hive数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

全密态数据库（公测）

全密态数据库安全分级从安全视角，云数据库的安全性由弱到强可分为以下几个阶梯（阶梯越高，安全性越强）：常规云数据库服务：基于云安全服务，拦截绝大部分外部攻击，但仍然需要信任数据库实例内的操作系统、数据库软件、IaaS运维人员和...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与各类大数据平台集成，完成数据的大规模离线分析。基于Lindorm的解决方案，用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

什么是数据安全中心

数据安全中心DSC（Data Security Center）涵盖敏感数据识别与分类、配置风险检测、安全事件告警、图片脱敏、数据库列加密以及审计日志等功能。满足等保2.0及《数据安全法》《个人信息保护法》等合规要求，适用于合规审计与企业级数据安全...

全密态数据库（公测）

从安全视角，云数据库能防护的安全威胁，安全性由弱到强可分为以下几个安全分级阶梯（阶梯越高，安全性越强）：常规云数据库服务：基于云安全服务，能够拦截绝大部分外部攻击，但仍然需要信任数据库集群内的操作系统、数据库软件、IaaS运...

全密态数据库（公测）

从安全视角，云数据库能防护的安全威胁，安全性由弱到强可分为以下几个安全分级阶梯（阶梯越高，安全性越强）：常规云数据库服务：基于云安全服务，能够拦截绝大部分外部攻击，但仍然需要信任数据库集群内的操作系统、数据库软件、IaaS运...

数据分析及报告制作

在DataV-Note（智能分析）中，分析单元是进行数据分析及报告制作的主要工作区域，而数据集和变量则是分析单元用于进行分析的输入数据。本文为您介绍DataV-Note支持的分析单元类型，以及数据分析及报告制作的流程概述。概念须知分析单元：...

全密态PolarMySQL

背景信息随着国家对数据安全和个人敏感信息的加强监管，原子化的数据安全能力无法满足监管要求，国家标准和行业标准逐渐提出数据全生命周期的安全保障的需求，传统的三方安全加固和客户端加密都在客户成本、架构改造、数据库性能等带来了...

DLF Catalog数据管理

管理数据库查看数据库：将数据库添加到DLF Catalog数据目录后，您可单击DLF Catalog数据目录左侧的图标，查看已添加的数据库。删除数据库：如无需再管理某个数据库，可鼠标右键对应的数据库，在弹框中选择删除。重要删除后无法恢复，请...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

独享模式支持的功能

模块功能点独享模式（半托管版）超级X X-编码助手支持（可增购）X-运维助手支持（可增购）X-数据工程 支持（可增购）X-数据标准支持（需购买数据标准功能）X-数据安全支持（需购买数据安全功能）X-目录管理支持（需购买资产运营功能...

整体架构

AnalyticDB for MySQL 是基于数据库大数据一体化的理念和趋势，在工程上深度打磨出的云原生数据仓库。技术架构 AnalyticDB for MySQL 采用云原生架构，计算存储分离、冷热数据分离，支持高吞吐实时写入和数据强一致，兼顾高并发查询和大...

SSH数据源

后续操作数据源创建完成后，您可根据需要执行如下操作：计算任务开发与调度：DataWorks的数据开发与运维中心模块，为您提供SSH任务的开发与调度能力，您可通过在SSH节点指定具体的SSH数据源的方式远程连接该数据源配置的主机，将 SSH节点 ...

云原生通用数据库

其他数据类型的操作可参考下述文档：自建数据库云原生MongoDB数据库非结构化数据OSS 非结构化数据SLS 大数据 前提条件已开通数据安全中心免费版实例或已购买数据安全中心付费版实例。具体操作，请参见数据安全中心免费版服务或购买...

湖仓一体2.0

该方案可以打破数据湖与数据仓库割裂的体系，并融合数据湖的灵活性、丰富的多引擎生态与数据仓库的企业级能力，助力构建数据湖和数据仓库相融合的数据管理平台（本功能处于公测阶段）。概念说明数据仓库与数据湖对比类别能力数据仓库 ...

综合：网站用户画像分析

开源全托管服务EMR Serverless StarRocks 开源大数据平台 E-MapReduce 开源全托管服务EMR Serverless Spark 数据中台一站式大数据开发治理DataWorks 在本案例中，DataWorks作为数据中台，用于对原始数据进行同步、加工、质量监控、数据...

场景：配置增量数据离线同步任务

离线同步任务支持您通过配置类似的数据过滤功能来决定同步全量数据还是增量数据，配置过滤条件时，将只同步满足过滤条件的数据。同时，过滤条件可以结合调度参数使用，实现过滤条件随任务调度时间的动态变化，进而实现增量数据的同步。该...