大数据详细设计-大数据详细设计文档介绍内容-移动阿里云

OSS数据安全防护最佳实践

智能化：运用大数据和机器学习能力，通过智能化的算法，对敏感数据和高风险活动，诸如数据异常访问和潜在的泄漏风险进行有效识别和监控，并提供修复建议。提供定制化的敏感数据识别能力，便于客户自定义识别标准，实现精准识别和高效防护。...

测试数据构建

RDS MariaDB、其他来源MariaDB OceanBase MySQL模式 PolarDB PostgreSQL版（兼容Oracle）背景信息功能测试或者性能测试时，往往需要准备测试数据，通常有以下几种方法：手工编写：效率低，不适用于大数据量场景。维护生成测试数据脚本：成...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

如何处理Tair集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

数据质量概述

数据质量帮助您第一时间感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据，影响正常使用和业务决策。同时也能显著降低问题处理的...

如何处理Redis集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

新建Paimon数据源

在新建数据源对话框的 大数据存储区域，选择 Paimon。如果您最近使用过Paimon，也可以在最近使用区域选择Paimon。同时，您也可以在搜索框中，输入Paimon的关键词，快速筛选。在新建Paimon数据源对话框中，配置数据源的基本信息。...

功能发布记录（2024年）

所有DataWorks用户数据治理中心概述数据治理中心新增物化视图功能当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

数据标准

字段标准设计数据元管理：提供对数据元的标准定义和统一管理，通过分析业务流程，抽象关键业务对象、业务对象属性，配置数据元的类型、长度、质量校验函数和引用数据字典，为逻辑表标准化设计及数据治理过程中的质量监控提供规则依据；...

产品架构

如下图所示，与传统方案相比，Lindorm系统极大地简化数据存储技术架构设计，大幅度提升系统稳定性，降低建设成本投入。总体架构 Lindorm创新性地使用存储计算分离、多模共享融合的云原生架构，以适应云计算时代资源解耦和弹性伸缩的诉求。...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

常见问题

在数据水印的基础上，数据安全中心通过系统内置的异常事件检测，对运维高危操作、异常访问、拖库攻击、数据库注入、数据库外联、数据库高危操作等行为进行监控告警，覆盖传统数据库的基础上，还支持对象存储OSS、大数据平台MaxCompute以及...

功能简介

字段标准设计数据元管理：提供对数据元的标准定义和统一管理，通过分析业务流程，抽象关键业务对象、业务对象属性，配置数据元的类型、长度、质量校验函数和引用数据字典，为逻辑表标准化设计及数据治理过程中的质量监控提供规则依据；...

功能简介

字段标准设计数据元管理：提供对数据元的标准定义和统一管理，通过分析业务流程，抽象关键业务对象、业务对象属性，配置数据元的类型、长度、质量校验函数和引用数据字典，为逻辑表标准化设计及数据治理过程中的质量监控提供规则依据；...

数据模型架构规范

主要从数据业务特性和访问特性两个角度来考虑：将业务相近或者相关的数据、粒度相同数据设计为一个逻辑或者物理模型；将高概率同时访问的数据放一起，将低概率同时访问的数据分开存储。核心模型与扩展模型分离建立核心模型与扩展模型体系...

什么是备份数据量

本文介绍数据库备份DBS中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

无感集成（Zero-ETL）

方案概述在大数据时代，企业面临着大量分散在不同的系统和平台上的业务数据，为了有效地管理和利用这些数据，企业往往需要依赖于ETL工具对数据进行集中式管理。ETL是将上层业务系统的数据经过提取（Extract）、转换清洗（Transform）、...

轨迹层

数据分级：根据数据中的 value 字段值大小划分（自然分割）成2~7个数据大小级别，解决 value 值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。...

接入数据库

结构化数据：RDS、PolarDB、PolarDB-X 1.0（原DRDS）、Redis、MongoDB、OceanBase、自建数据库 大数据：TableStore、MaxCompute、ADB-MySQL、AnalyticDB for PostgreSQL（即ADB-PG）说明仅OSS不支持。前提条件已购买 DSC 服务并完成 DSC ...

入门概述

设计数据模型：在数据建模模块中创建逻辑表，并物理化到数据库，具体操作，请参见 设计数据模型。添加数据节点：在数据开发模块中创建节点，并在物理表中插入对应数据，具体操作，请参见新建公共节点。查询数据：在数据查询模块中预览插入...

散点层

重要该配置项为一个数组，配合数据分级使用，从类型1到类型n为递增的设置，例：类型1设置为10，则表示value值为0~10的数据将展示为10的大小，类型2设置为20，则表示value值为11~20的数据将展示为20的大小，如果数据分级配置项设置为3级，...

配置同步任务

数据库类型数据源关系型数据库 MySQL、Oracle、Microsoft SQL Server、PostgreSQL、AnalyticDB for PostgreSQL 开源大数据数仓存储 Hive、TDH Inceptor 说明 HBase作为数据源或者目标数据源，支持的版本为HBase V1.1.x、HBase V0.94.x。...

散点层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

建立性能基准

在优化表前后测试系统性能时，您需要记录每张表的数据同步时间、占用存储大小以及查询性能的详细信息。如果您使用的是包年包月方式购买的MaxCompute项目资源，还需要记录购买数。测试项测试值数据同步时间无占用存储大小无查询执行...

建立性能基准

在优化表前后测试系统性能时，您需要记录每张表的数据同步时间、占用存储大小以及查询性能的详细信息。如果您使用的是包年包月方式购买的MaxCompute项目资源，还需要记录购买数。测试项测试值数据同步时间无占用存储大小无查询执行...

冷数据归档常见问题

归档为CSV格式的数据的数据量可能会比归档为ORC格式的数据的数据量更大。为什么归档后的冷数据及文件在主账号下面的OSS上看不到？PolarDB 的冷数据存储在系统默认的OSS上，不在客户的OSS里，所以客户无法看到。目前只支持在PolarDB控制台上...

转盘抽奖

单击图片输入框下方的虚线框内的更改，更改图片设计资源详细功能请参见使用界面功能说明。转盘：转盘抽奖转盘部分内容的样式。参数说明文本样式转盘内的文本样式，包括文本的字体样式的选择、文字的粗细、字号的大小和文本的颜色。...

转盘抽奖

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

云产品集成

您可以使用 DMS 录入云数据库 OceanBase 的数据，通过 DMS 的全域数据资产管理、数据治理、数据库设计开发、数据集成、数据开发和数据消费等功能，帮助企业高效、安全地挖掘数据价值，助力企业数字化转型。什么是数据管理DMS 支持的数据库...

DescribeColumns-查询数据资产表中列的数据

调用DescribeColumns接口查询数据安全中心连接授权的MaxCompute、RDS等数据资产表中列的数据。接口说明本接口一般用于敏感数据资产信息表中列数据的查看，便于用户准确的对敏感数据进行分析。注意事项 DescribeColumns 接口已修订为 ...

同步时源库为Db2 for LUW的注意事项及限制

说明如为增量同步任务，DTS要求源数据库的数据日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的数据日志至少保留7天以上（您可在全量同步完成后将数据日志保存时间设置为24小时以上），否则DTS可能因无法获取数据日志...

大数据 详细设计

大数据详细设计