大数据作用影响-大数据作用影响文档介绍内容-移动阿里云

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

OSS数据安全防护最佳实践

智能化：运用大数据和机器学习能力，通过智能化的算法，对敏感数据和高风险活动，诸如数据异常访问和潜在的泄漏风险进行有效识别和监控，并提供修复建议。提供定制化的敏感数据识别能力，便于客户自定义识别标准，实现精准识别和高效防护。...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

目标库选型建议

阿里云上有很多种数据库，您可能一时无法对迁移的目标库进行选择，目标库选型建议可以帮助您根据现有的数据库画像进行分析，给出迁移到各种目标库的兼容情况分析，目前目标库选型建议以普遍用户最关心的目标库兼容度为参考依据，为您提供...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

风险识别管理（新版）

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10000时命中该规则。周一至周五：22:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询相似...

离线同步日志分析

若同步过程产生大量脏数据，将会影响数据同步的同步速度。若您对同步速度有要求，建议您先处理脏数据问题。脏数据介绍详情请参见离线同步任务配置相关能力。您可以通过配置脏数据容忍条数控制同步产生的脏数据是否影响任务正常执行。离线...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

功能发布记录（2024年）

所有DataWorks用户数据治理中心概述数据治理中心新增物化视图功能当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。业务背景为了更好的制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体地理属性、社会属性等，...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

什么是备份数据量

本文介绍数据库备份DBS中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库...

创建数据板块

后续如果数据板块内已有逻辑表产生，不可编辑英文名，以避免影响数据生产。公用名称数据板块名称。命名规则如下：包含汉字、数字、字母、下划线（_）或短划线（-）。不能超过64个字符。完成数据板块创建后，Dev数据板块名称格式为 {自定义...

创建数据板块

后续如果数据板块内已有逻辑表产生，不可编辑英文名，以避免影响数据生产。公用名称数据板块名称。命名规则如下：包含汉字、数字、字母、下划线（_）或短划线（-）。不能超过64个字符。完成数据板块创建后，Dev数据板块名称格式为 {自定义...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

数据治理

数据质量监控应用场景从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度对产出表数据进行校验，自动拦截问题任务，有效阻断脏数据向下游蔓延，避免非正常数据影响使用和业务决策。监控逻辑实例（ds_mbr_use_info）产出一张表...

无感集成（Zero-ETL）

方案概述在大数据时代，企业面临着大量分散在不同的系统和平台上的业务数据，为了有效地管理和利用这些数据，企业往往需要依赖于ETL工具对数据进行集中式管理。ETL是将上层业务系统的数据经过提取（Extract）、转换清洗（Transform）、...

轨迹层

数据分级：根据数据中的 value 字段值大小划分（自然分割）成2~7个数据大小级别，解决 value 值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。...

常见问题

MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret？现有账号的AccessKey被禁用，创建一个新的AccessKey，会对之前AccessKey创建的周期性...

接入数据库

结构化数据：RDS、PolarDB、PolarDB-X 1.0（原DRDS）、Redis、MongoDB、OceanBase、自建数据库 大数据：TableStore、MaxCompute、ADB-MySQL、AnalyticDB for PostgreSQL（即ADB-PG）说明仅OSS不支持。前提条件已购买 DSC 服务并完成 DSC ...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

散点层

重要该配置项为一个数组，配合数据分级使用，从类型1到类型n为递增的设置，例：类型1设置为10，则表示value值为0~10的数据将展示为10的大小，类型2设置为20，则表示value值为11~20的数据将展示为20的大小，如果数据分级配置项设置为3级，...

DLF中数据入湖功能停止更新公告

停止更新说明停止更新时间 2023年02月15日停止更新影响数据入湖功能停止更新及新用户使用，未使用数据入湖的用户将不可见数据入湖功能。停止更新期间，已有数据入湖任务和作业依旧提供运维及售后支持服务。建议如果您有类似数据入湖的...

散点层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

数据治理中心概述

量化评估：健康分健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据，使用数据处理及机器学习等技术，对各类型数据进行综合处理和评估，通过个人、工作空间维度客观呈现数据资产状态的综合...

数据归档概述

当线上数据库中的历史数据（访问率很低的数据）越来越多，占用的存储越来越大，以至于会影响数据库的查询性能与业务运转，此时您可以使用数据管理DMS 的数据归档功能，周期性地将指定表的数据归档至其他数据库或存储服务中。同时，该功能...

RDS SQL Server空间不足问题

说明查询过程会读取大量索引页，可能影响数据库性能，请在业务低峰期操作。整理索引碎片只适用于更新频率很低的归档数据表，如果有频繁的插入和更新操作，索引碎片率会很快升高，而且重建或重组的过程中，会产生大量事务日志，导致日志...

数据连接管理

数据传输服务DTS（Data Transmission Service）支持录入数据库信息。在配置任务时，您可以直接选择已录入的数据库，DTS将自动填入数据库...在数据连接管理页面执行的删除实例操作，只是将数据库实例从DTS中移除，而不影响数据库中的数据。

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

备份SQL Server数据

RDS SQL Server支持自动备份和手动备份两种方式，您可以通过设置备份策略调整RDS数据备份和日志备份的周期实现自动备份，或手动备份数据。备份功能说明数据备份备份方式功能说明物理备份支持全量物理备份和增量物理备份，暂不支持逻辑...

执行补数据并查看补数据实例（旧版）

为避免补数据实例占用过多的资源而影响周期实例运行，平台对补数据实例制定以下规则：如果补数据选择业务日期为昨天（T-1），即补当天数据时，补数据任务优先级由任务所在基线优先级决定。如果补数据选择业务日期为历史业务日期（T-2）时，...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

消除数据重分布

决定查询成本的其他因素是它的运行频率，以及它对其他查询和数据库操作的影响程度。确定成本最高的查询使用的表，并评估它们在查询执行中的作用，考虑表是如何join和聚合的。对于一个大表join多个小表的场景，类似star schema，采用大表...

技术发展趋势

近些年来，数据在国民经济各个领域扮演着愈发重要的作用，其使用特点较之以往也发生了诸多变化，其趋势主要有几个方面。规模爆炸性增长随着8K、5G、IoT、大数据、AI等系列技术的发展，数据量迎来了爆发式增长。IDC在《Data Age 2025》的...

X-Engine简介

这被称为数据复用技术（Data Reuse），而Extent大小正是影响数据复用率的关键，Extent作为一个完整的被复用的物理结构，需要尽可能的小，这样与其他Extent数据交叉点会变少，但又不能非常小，否则需要索引过多，管理成本太大。X-Engine中...

大数据作用 影响

大数据作用影响