大数据用的软件-大数据用的软件文档介绍内容-移动阿里云

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

节点开发

而且Hologres与MaxCompute在底层实现了无缝连接，使您无需迁移数据，即可通过Hologres SQL节点直接使用标准的PostgreSQL语句来查询和分析MaxCompute中的大规模数据，从而快速获得查询结果。1093 HOLOGRES_SQL 数据同步至MaxCompute 支持将...

功能简介

通过数据标准的管理功能，模型设计者可通过设计标准数据元素，定义关键业务对象、业务对象属性及值域，规范标准数据字典，制定并管理平台遵循的统一数据标准，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。模型标准设计 ...

引擎功能

数据库内机器学习 Lindorm时序引擎提供开箱即用的数据库内机器学习服务。您可以通过SQL语句直接在数据库内完成整个机器学习流程，挖掘更深的数据价值。使用数据库内机器学习服务的优势主要体现在以下几个方面：简单易用：无需掌握专业的...

Quick BI连接MaxCompute

背景信息智能分析套件 Quick BI 是一个专为云上用户设计的易上手且性能强的大数据分析平台，不仅是业务人员查看数据的工具，更是数据化运营的助推器。前提条件在执行操作前，请确认您已满足如下条件：已创建MaxCompute项目。已获取可...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

我的资产

通过我的资产清晰掌握可使用、可管理、已授权的数据表和数据服务API数据资产相关信息。通过不同的权限来源，用户可获取数据表、API等类型数据资产的使用权限。我的资产以用户的视角展示自有权限或申请授权成功的数据表、数据服务API数据...

数据质量

典型工作流程如下：功能介绍 DataWorks 数据质量支持对常见大数据存储（MaxCompute、E-MapReduce、Hologres、AnalyticDB 等）进行质量校验，从完整性、准确性、一致性等多个维度配置监控规则，并与调度任务关联，实现自动化校验与问题告警...

数据质量教程概述

数据质量是数据分析结论有效性和准确性的基础。本文为您介绍数据质量保障教程的业务场景以及如何衡量数据质量的高低。前提条件在开始本教程前，请您首先完成搭建互联网在线运行分析平台教程，详情请参见业务场景与开发流程。业务场景 ...

配置资产数据

本文档介绍配置资产数据的方法，以及资产数据面板的内容，包括数据接口、数据源、数据过滤器和数据轮询频次等。操作步骤登录 DataV控制台。在我的可视化页面，单击您创建的可视化应用项目上方的编辑按钮。在画布编辑器页面，单击图层...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

创建HBase数据源

通过创建HBase数据源，可以实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。前提条件已购买及开通了数据服务或标签服务模块的高可用功能才可以进行数据源的主备链路配置。背景信息 HBase是用于处理...

数据标准

数据字典管理：支持创建并维护逻辑表中使用的数据字典，方便用户在定义数据元或维度属性时进行数据字典引用，支持数据字典物理化、数据字典导入、导出，方便数据字典使用与跨项目复制。质量校验函数：支持质量检测函数自定义，方便用户在...

DataWorks On Hologres使用说明

将工作空间成员添加至Hologres引擎实例及DataWorks绑定的Hologres数据源中，并为生产环境执行账号授予较大的数据库权限。工作空间添加成员为工作空间成员配置Hologres引擎权限权限控制 DataWorks为您提供了产品级与模块级的权限控制，您...

数据保护伞入门

数据保护伞是一款数据安全管理产品，提供数据发现、数据脱敏、数据水印、风险识别、数据溯源等功能，帮助您快速梳理敏感数据并进行安全管控，保障数据安全。本文示例使用内置规则对 xc_dpe_e2_dev 项目的 phone 数据脱敏，并设置导出风险...

目标数据库连接性检查

为保障数据迁移任务的顺利执行，在预检查阶段检查DTS服务器是否能够连通要迁移的目标数据库。本文将介绍目标数据库连接性检查失败可能的原因及修复方法。当目标数据库连接性预检查失败时，可能是以下几种原因。数据库账号或数据库密码不...

DLF+EMR之统一权限最佳实践

本文结合具体业务场景，为您介绍如何使用DLF+EMR两个产品实现数据湖上统一权限。背景说明元数据管理和数据权限控制是DLF产品提供的数据湖构建所需的基础能力。通过DLF提供的统一元数据视图访问湖上数据，有效解决了数据湖中元数据一致性...

离线同步数据质量排查

通过讲述数据集成数据同步的原理机制，理解数据同步的过程，进而对数据同步的执行效果有判断能力，判断数据同步效果具体包括：数据同步的数据量、目标端数据实际数量等。本文将为您列举一些常见数据质量方面的场景，方便您排查是否存在符合...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

管理内置数据集

云原生数据仓库 AnalyticDB MySQL 版支持加载内置数据集，方便您快速体验或测试 AnalyticDB for MySQL 集群。您可以通过控制台手动加载内置数据集。本文介绍如何加载和删除内置数据集。注意事项仅企业版、基础版及湖仓版集群支持加载...

场景管理器

图表样式场景管理器是3D地球的子组件，支持独立的样式、数据和交互配置，能够使用数据定义镜头位置，通过移动和缩放的动效展示球体的不同位置。样式面板搜索配置：单击样式面板右上角的搜索配置项图标，可在搜索配置面板中输入您需要...

应用场景

阿里云EMR凭借弹性扩展的计算集群、多源异构数据融合治理以及实时流批一体处理等卓越能力，已经广泛应用于金融风控、电商精准营销、物联网时序数据处理等多个领域。本文为您介绍EMR在数据湖、数据分析、实时数据流、数据服务四个场景的典型...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

PK Delta Table数据组织优化

Level 1→Level 2：当中等大小的DeltaFile达到一定规模后，会触发更高层级的合并，生成更大的优化文件（图中橙色数据文件）。避免读写放大大文件隔离：体积超过一定大小的数据文件（如Bucket3中的T8文件）会被专门隔离处理并排除在合并...

添加TableStore数据源

如果值为正序（FORWARD），则起始主键必须小于结束主键，返回的行按照主键由小到大的顺序进行排列。如果值为逆序（BACKWARD），则起始主键必须大于结束主键，返回的行按照主键由大到小的顺序进行排列。例如同一表中有两个主键A和B，A B。如...

Delta Table

数据组织优化 Append Delta Table数据组织结构，请参考 Append Delta Table数据组织优化，底层采用Range Clustering结构，默认使用Row_ID作为clustering key，bucket数量随着用户数据增长动态分配，用户指定Cluster Key之后，通过后台...

什么是EMR Serverless StarRocks

使用数据湖的优势在于可以使用开放的存储格式和灵活多变的Schema定义方式，可以让BI、AI、AdHoc、报表等业务维持在统一的单点身份可信（Single Source of Truth），而StarRocks作为数据湖的计算引擎，可以充分发挥向量化引擎和CBO（Cost ...

应用场景

数据传输服务DTS（Data Transmission Service）支持数据迁移、数据订阅和数据实时同步功能，帮助您实现多种典型应用场景。不停机迁移数据库传输方式：数据迁移为了保证数据的一致性，传统的迁移过程需要您在迁移数据时停止向源数据库写入...

使用DataWorks

当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的数据导出至其他数据源。背景信息数据集成的导出方式有如下两种：向导模式：创建离线同步节点后，...

MySQL为源：数据同步操作指南

本文档将引导您完成使用阿里云数据传输服务（DTS）从MySQL数据库同步数据的全过程，整个过程可以归纳为七大核心步骤。步骤一：准备工作在配置同步任务前，请完成以下准备工作，确保任务顺利执行。（可选）接入阿里云：请您先确保业务环境...

冷热分离

背景信息在海量大数据场景下，一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低，同时这部分历史数据体量非常大，比如订单数据或者监控数据，降低这部分数据的存储成本将会极大的节省企业的成本。因此，如何以极简的...

MapReduce

MapReduce处理数据的完整流程如下：输入数据：在正式执行Map前，需要对输入数据进行分片（即将输入数据切分为大小相等的数据块），将每片内的数据作为单个Map Worker的输入，以便多个Map Worker同时工作。Map阶段：每个Map Worker读取数据...

实践示例：E-MapReduce底层脱敏使用方法

当项目用户具备查询E-MapReduce项目中的某些敏感数据权限，担忧不希望用户能看到完整的敏感数据信息时，可以对查询结果进行数据动态脱敏。本文为您介绍如何开启E-MapReduce的动态脱敏功能，并提供参考示例。使用限制 EMR集群仅支持数据保护...

新建敏感数据识别任务

本文将为您介绍如何在敏感数据识别页面，新建数据识别任务，对规则识别不准确的数据进行手动修正。说明手动修正的数据结果，在第2天才会生效展示。背景信息 DataWorks支持您对数据识别规则识别不准确的敏感数据进行手动修正，手动修正数据...

组件数据源配置

数据源适配组件数据源方式接入业务数据流程如下：先接入数据，再通过数据响应结果观察业务数据和组件数据的结构差距，通过数据映射或过滤器进行数据的适配处理，最终得到适配数据。本示例基于一份关键数据字段为 category 产品类别...

数据实时入仓实践

为满足业务对数据仓库中高度时效性数据的需求，MaxCompute基于Delta Table实现了分钟级近实时数据写入和主键更新功能，显著提升了数据仓库的数据更新效率。数据写入场景面对具有突发性和热点性的客户行为日志，如评论、评分和点赞，传统的...

A100使用指南

12,000元/月 144,000元/年企业版吞吐量峰值：30,000条SQL/秒 800万/小时入库速率 10亿条在线SQL语句存储 350亿条归档SQL语句存储支持审计25个数据库实例 20,000元/月 240,000元/年说明可以通过需要使用的数据库实例的数量来选择需要...

数据推送节点

数据推送节点可将Data Studio业务流程中其他节点产生的数据查询结果，通过新建数据推送目标，将数据推送至钉钉群、飞书群、企业微信群、Teams以及邮件，便于团队成员及时接收和关注最新数据情况。背景信息数据推送节点可以通过节点上下文...

数据推送节点

数据推送节点可将Data Studio业务流程中其他节点产生的数据查询结果，通过新建数据推送目标，将数据推送至钉钉群、飞书群、企业微信群、Teams以及邮件，便于团队成员及时接收和关注最新数据情况。原理介绍数据推送节点，可以通过节点上...