学习软件大数据-学习软件大数据文档介绍内容-移动阿里云

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和EMR产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

数据变更最佳实践

批量和实时导入数据批量导入：适用于大数据量导入的场景，导入过程中可以查询旧数据，导入操作完成后一键切换新数据。导入失败时，支持回滚新数据，不影响查询旧数据。例如，从MaxCompute、OSS中导入数据到 AnalyticDB MySQL版时，推荐...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

创建数据库

对于非ONLINE状态的同名数据库，根据不同场景解决：场景1：OSS备份数据恢复上云时选择不打开数据库产生原因在使用 OSS备份数据恢复到RDS SQL Server 时如果选择了不打开数据库（还有差异备份或日志文件）选项，数据库会处于非ONLINE状态...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

数据开发概述

Data Studio介绍 Data Studio是智能湖仓一体数据开发平台，内置阿里巴巴15年大数据建设方法论，深度适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、PAI等数十种大数据和AI计算服务，为数据仓库、数据湖、OpenLake湖仓一体数据架构...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

数据开发（Data Studio）（新版）

Data Studio介绍 Data Studio是智能湖仓一体数据开发平台，内置阿里巴巴15年大数据建设方法论，深度适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、PAI等数十种大数据和AI计算服务，为数据仓库、数据湖、OpenLake湖仓一体数据架构...

功能特性

DataWorks 提供一站式大数据开发与治理平台，涵盖数据集成、开发、建模、分析、质量、服务、地图及开放能力，支持全链路数据处理与企业级数据中台建设。本文为您介绍DataWorks的核心功能特性。数据集成：全领域数据汇聚 DataWorks的数据...

Quick BI连接MaxCompute

背景信息智能分析套件 Quick BI 是一个专为云上用户设计的易上手且性能强的大数据分析平台，不仅是业务人员查看数据的工具，更是数据化运营的助推器。前提条件在执行操作前，请确认您已满足如下条件：已创建MaxCompute项目。已获取可...

订阅方案概览

数据订阅功能可以帮助您获取数据库的实时增量数据，您可以根据自身业务需求自由消费增量数据，并写入目标端，实现各类业务场景，例如缓存更新、业务异步解耦、异构数据源数据实时同步及含复杂ETL的多种业务场景。源库限制限制项说明网络...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定后您可以创建计算任务并进行周期调度。使用...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

选择地域和存储

使用场景在EMR控制台的节点组配置中，当附录：ECS实例类型选择 大数据型、本地SSD 时，其数据盘为物理直连的本地盘，直接挂载于服务器，提供极低延迟与高吞吐性能。说明本地盘仅适用于核心节点（Core）或任务节点（Task）。本地盘有...

元数据中心

一级菜单二级菜单说明元数据采集采集概览元数据支持丰富的采集源类型，如传统数据库MySQL、Oracle，大数据存储Hologres等，可一览不同数据源类型已创建的采集任务、已创建的数据源、采集对象类型和支持的版本。采集任务通过采集适配...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

数据导入

云数据库 SelectDB 版支持多样化的数据导入方式，涵盖原生接口与生态工具，满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到 SelectDB 的核心接口与工具。导入选型建议阿里云生态源数据：DTS、DataWorks 非阿里云生态...

什么是MaxFrame

MaxFrame是阿里云MaxCompute为了满足用户在Python生态中日益增长的高效大数据处理和AI开发需求，提供的基于Python编程接口的分布式计算框架。您可直接利用MaxCompute的海量计算资源及数据通过MaxFrame进行TB/PB级数据处理、可视化数据探索...

订阅方案概览

数据订阅功能可以帮助您获取数据库的实时增量数据，您可以根据自身业务需求自由消费增量数据，并写入目标端，实现各类业务场景，例如缓存更新、业务异步解耦、异构数据源数据实时同步及含复杂ETL的多种业务场景。源库限制限制项说明网络...

创建TDengine数据源

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员...

使用资源组进行精细化资源控制

支持资源组的资源类型 大数据开发治理平台DataWorks支持资源组的资源类型如下表所示：云服务云服务代码资源类型 大数据开发治理平台DataWorks dide Proyek:大数据开发治理平台DataWorks dide dwresourcegroup:DataWorks资源组 大数据开发...

创建Presto数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 JDBC URL Presto的连接地址...

创建TDengine数据源

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询（旧版）。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见 SQL查询（旧版）。...

创建Presto数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 JDBC URL Presto的连接地址...

风险识别管理

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10,000时命中该规则。周一至周五：19:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询...

创建Lindorm（计算引擎）数据源

通过创建Lindorm（计算引擎）数据源能够实现Dataphin读取Lindorm（计算引擎）的业务数据或向Lindorm（计算引擎）写入数据。本文为您介绍如何创建Lindorm（计算引擎）数据源。背景信息 Lindorm（计算引擎）是阿里云推出的自研数据库，提供宽...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。背景信息 Aliyun HBase即阿里云的云数据库HBase，是低成本、高扩展、云智能的大数据NoSQL。...

测试案例

背景介绍 TPC-DS是一套决策支持系统的基准测试，它对决策支持系统的几个通用方面进行建模，包括查询和数据维护，用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道（实体店、互联网、目录）的销售和退货业务，除了建立相关...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

Hive数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

产品优势

数据集成需要较大开发数据集成需要较大开发日志服务（SLS）通过 LTS（原BDS）服务介绍，支持实时订阅SLS数据到Lindorm。数据集成需要较大开发数据集成需要较大开发服务能力可用性SLA 提供SLA保障，单集群99.9%，双集群高可用99.99%。...