研发所谓的大数据-研发所谓的大数据文档介绍内容-移动阿里云

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

设计阶段

设计工作包含数据探查和系分设计两部分：数据探查旨在了解来源数据的数据形态，例如数据质量、数据分布等。结合业务场景，帮助分析和判断需求实现的可行性以及找出潜在的数据问题和风险。系分设计则包括表设计、Mapping设计和调度设计等最...

DescribeColumns-查询数据资产表中列的数据

调用DescribeColumns接口查询数据安全中心连接授权的MaxCompute、RDS等数据资产表中列的数据。接口说明本接口一般用于敏感数据资产信息表中列数据的查看，便于用户准确的对敏感数据进行分析。注意事项 DescribeColumns 接口已修订为 ...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

数据归档

通过数据归档OSS功能，用户能够将低频访问、数据量大的表转储至OSS，并通过原生InnoDB的访问方式去读取冷表数据。数据归档DDL操作如下：归档 ALTER TABLE$table_name ENGINE_ATTRIBUTE='{"OSS":"Y"}';取回 ALTER TABLE$table_name ENGINE_...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。StarRocks...

表设计最佳实践

表设计指南建议将数据信息划分为基本属性表和天气日志表，分别用于存储变化小和变化大的数据。因为天气信息的数据量巨大，在对天气日志表按照地域进行分区后，可以按照时间（例如，天）进行二级分区。此种分区方式可避免发生因某一个地点...

数据导入概览

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

受众与核心能力

数据开发：在线批处理、流处理和机器学习等多引擎任务开发，构建复杂的调度依赖，提供开发、生产环境隔离的研发模式。实时分析（仅公共云）：提供基于电子表格的快速、灵活的即时查询。数据服务：零代码快速生成Serverless化的API。数据...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

概述

数据内容安全管理安全中心提供的数据分级分类、敏感数据识别、数据访问审计、数据源可追溯等功能，在处理业务流程的过程中，能够快速及时识别存在安全隐患的数据，保障了数据内容的安全可靠，详情请参见数据保护伞。安全诊断的最佳实践 ...

步骤二：实时项目规划

本文将指导您完成本教程的Ververica Flink计算源、数据源、实时项目的创建与绑定。步骤一：创建 Ververica Flink 计算源在Dataphin首页，单击顶部菜单栏的规划。按照下图操作指引，进入 Ververica Flink新建计算源页面。在新建计算源 ...

步骤二：实时项目规划

本文将指导您完成本教程的Ververica Flink计算源、数据源、实时项目的创建与绑定。步骤一：创建 Ververica Flink 计算源在Dataphin首页，单击顶部菜单栏的规划。按照下图操作指引，进入 Ververica Flink新建计算源页面。在新建计算源 ...

购买指引-全托管

以适配不同场景、不同数据体量客户的诉求：智能研发版（离线&实时）：支持离线研发和实时研发场景，可创建生产开发隔离的双环境项目，提供智能建模、逻辑运维等特色功能，适用于数据量丰富、权限管控严格、具备专业大数据开发团队的企业...

版本发布记录

Schema向导功能用户Schema向导功能，以及建表向导的研发与优化，极大的提升了数据湖构建和数据探索发现的效率。界面化库表操作支持界面化的删除表，删除库功能操作。补齐分区写入功能补齐了 INSERT OVERWRITE SELECT 的ETL、目标分区...

DataWorks产品安全能力介绍

为充分契合数据安全治理的核心理念与通用思路，DataWorks针对资产梳理、技术体系/运营体系建设提供了一系列全面的数据安全产品能力，基于“I（Identify）P（Protect）D（Detect）R（Respond）”理论框架，从资产识别、安全防护、行为检测、...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

快速入门

作为学院派关系型数据库管理系统的鼻祖，它的优点主要集中在对SQL规范的完整实现以及丰富多样的数据类型支持，包括JSON数据、IP数据和几何数据等，而大部分商业数据库都不支持这些数据类型。除了完美支持事务、子查询、多版本控制（MVCC）...

冷数据归档常见问题

归档为CSV格式的数据的数据量可能会比归档为ORC格式的数据的数据量更大。为什么归档后的冷数据及文件在主账号下面的OSS上看不到？PolarDB 的冷数据存储在系统默认的OSS上，不在客户的OSS里，所以客户无法看到。目前只支持在PolarDB控制台上...

新建AnalyticDB for MySQL 3.0数据源

背景信息云原生数据仓库AnalyticDB MySQL版（简称ADB，原分析型数据库MySQL版），是阿里巴巴自主研发的海量数据实时高并发在线分析云计算服务，使得您可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。更多信息，请参见云...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低...

产品概述

阿里云流数据处理平台数据总线DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布(Publish)，订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备，应用...

新建AnalyticDB for MySQL 3.0数据源

背景信息云原生数据仓库AnalyticDB MySQL版（简称ADB，原分析型数据库MySQL版），是阿里巴巴自主研发的海量数据实时高并发在线分析云计算服务，使得您可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。更多信息，请参见云...

风险识别管理（新版）

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10000时命中该规则。周一至周五：22:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询相似...

我是安全管理员

解决方案数据归档概述数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

冷数据归档

随着冷数据体量的不断变大，存储成本也会水涨船高。所以降低冷数据存储成本，提升热数据读取性能，对于使用时序引擎的企业用户具有现实意义。在Lindorm时序引擎中，随着时间的不断推移，数据呈现出很明显的冷温热分层。其相应的概念如下：...

Transaction Table2.0概述

随着当前数据处理业务场景日趋复杂，很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute支持基于Transaction Table2.0实现近实时的增全量一体的数据存储...

什么是备份数据量

本文介绍数据库备份DBS中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库...

数据归档概述

当线上数据库中的历史数据（访问率很低的数据）越来越多，占用的存储越来越大，以至于会影响数据库的查询性能与业务运转，此时您可以使用数据管理DMS 的数据归档功能，周期性地将指定表的数据归档至其他数据库或存储服务中。同时，该功能...

我是管理员

数据归档数据归档功能定时将大表的数据归档至其他数据库，支持源表数据删除、表空间整理回收等功能。数据库迁移通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理通知管理可根据您的业务需求，订阅不同功能模块的消息事件，...

生成测试数据

背景信息 OceanBase 开发者中心（OceanBase Developer Center，ODC）提供模拟数据功能供用户在测试数据库性能或者验证功能等需要大量模拟数据的场景下，能够快速根据表中的字段类型生成数据。注意事项单次模拟数据上限为 1 亿行。拥有检查...

Iceberg概述

删除或更新数据大部分数仓都难以实现较为高效的行级数据删除或更新，通常需要启动离线作业把整个表原始数据读取出来，然后变更数据后，写入到一个原始表。而Iceberg成功把变更的范围从表级别缩小到了文件级别，从而可以通过局部变更来完成...

确认表血缘

确认表血缘同空间下确认上游表血缘节点周期写入某张表某个分区的数据，大部分场景都是采用调度参数来动态实现，您可参考调度参数，了解调度参数的替换原理。若您需要依赖同工作空间某节点，则可检查其调度参数的配置情况。开发环境确认...