大数据相关的软件-大数据相关的软件文档介绍内容-移动阿里云

DataWorks On CDP/CDH使用说明

数据建模数据开发 DataWorks将CDP或CDH计算引擎的能力进行了封装，支持您执行CDP或CDH相关的数据同步、数据开发任务。数据同步：数据开发仅支持部分离线同步和实时同步场景，更多数据同步应用，请前往数据集成主站查看。数据开发：您...

创建HBase数据源

通过创建HBase数据源，可以实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。前提条件已购买及开通了数据服务或标签服务模块的高可用功能才可以进行数据源的主备链路配置。背景信息 HBase是用于处理...

Quick BI连接MaxCompute

背景信息智能分析套件 Quick BI 是一个专为云上用户设计的易上手且性能强的大数据分析平台，不仅是业务人员查看数据的工具，更是数据化运营的助推器。前提条件在执行操作前，请确认您已满足如下条件：已创建MaxCompute项目。已获取可...

配置跨库Spark SQL节点

在数据仓库中对数据进行加工分析后，往往需要将数据同步回在线库中，以便在线应用提供相关的数据分析和统计服务。示例：某消费服务平台使用的是MySQL数据库，需要在数据仓库 AnalyticDB for PostgreSQL 中对消费数据进行消费金额、消费笔数...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

使用MaxCompute控制台（离线）

MaxCompute控制台提供数据上传功能，支持您将本地文件或阿里云对象存储服务OSS中的文件数据离线（非实时）上传至MaxCompute进行分析处理及相关管理操作。使用限制仅支持基于本地文件或阿里云对象存储OSS 上传数据，具体如下。本地文件...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

通过识别任务扫描敏感数据

扫描速度不同类型数据资产的扫描速度说明如下，该扫描速度仅供参考：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据（TableStore、MaxCompute等）：对于较大的数据库（即表数量大于1000个），扫描速度为每分钟1000列（以每...

添加DataV数据代理服务

DataV数据代理服务用于解决数据可视化项目中常见的数据访问和传输问题（例如，数据安全、跨域请求），无需暴露数据库的公网IP，就可以连接自建的数据库，提高数据安全。本文介绍如何配置DataV数据代理服务，以及如何在DataV-Board 7.0中...

离线同步并发和限流之间的关系

同步速率：数据同步速率和任务期望最大并发数是比较强相关的参数，两者结合在一起可以保护数据来源和数据去向端的读写压力，以避免数据同步任务对数据源带来较大压力，影响数据源的稳定性。同步速率（不限流）是指按照用户配置的任务期望...

PK Delta Table数据组织优化

Level 1→Level 2：当中等大小的DeltaFile达到一定规模后，会触发更高层级的合并，生成更大的优化文件（图中橙色数据文件）。避免读写放大大文件隔离：体积超过一定大小的数据文件（如Bucket3中的T8文件）会被专门隔离处理并排除在合并...

应用场景

阿里云EMR凭借弹性扩展的计算集群、多源异构数据融合治理以及实时流批一体处理等卓越能力，已经广泛应用于金融风控、电商精准营销、物联网时序数据处理等多个领域。本文为您介绍EMR在数据湖、数据分析、实时数据流、数据服务四个场景的典型...

基于Delta Table构建近实时增全量一体化链路架构

但在高流量实时写入场景下可能会导致增量小文件数量膨胀，尤其是桶数量较大的情况，从而引发存储访问压力大、成本高，数据读写I/O效率低下等问题。如果Update和Delete格式的数据较多，也会造成数据中间状态的冗余记录较多，进一步增加存储...

SelectDB数据源

DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47，驱动能力详情请参见 MySQL Connectors。...

应用场景

数据传输服务DTS（Data Transmission Service）支持数据迁移、数据订阅和数据实时同步功能，帮助您实现多种典型应用场景。不停机迁移数据库传输方式：数据迁移为了保证数据的一致性，传统的迁移过程需要您在迁移数据时停止向源数据库写入...

管理开放数据

基于DataWorks平台提供的开放数据，您可进行以下应用：数据盘点：清晰统计工作空间、负责人管理的数据对象（如表、任务），了解数据结构、来源、更新频率及依赖关系，消除“数据黑盒”问题。全链路追溯：基于表和数据血缘等元数据，支持...

Delta Table

数据组织优化 Append Delta Table数据组织结构，请参考 Append Delta Table数据组织优化，底层采用Range Clustering结构，默认使用Row_ID作为clustering key，bucket数量随着用户数据增长动态分配，用户指定Cluster Key之后，通过后台...

添加TableStore数据源

本文档介绍在DataV中添加TableStore数据源的方法，以及相关参数配置说明。前提条件已准备好待添加的TableStore数据源。重要您必须先将对应区域的白名单IP地址添加到您的数据源白名单中，以确保DataV-Board能正常访问您的数据库。详情请...

功能特性

配置管理数据保护敏感数据管理 DMS的敏感数据保护能力能根据所选的敏感数据扫描模板、敏感数据识别模型以及脱敏算法对数据进行脱敏处理，以避免敏感数据滥用，有效保护企业的敏感数据资产，防止数据泄露造成企业经营资金损失或罚款。...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

日志服务通过数据集成投递数据

前提条件准备好相关的数据源，详情请参见创建MaxCompute数据源。准备需要同步的来源表与目标表。背景信息日志服务支持以下数据同步场景：跨地域的LogHub与MaxCompute等数据源的数据同步。不同阿里云账号下的LogHub与MaxCompute等数据源...

MapReduce

MapReduce处理数据的完整流程如下：输入数据：在正式执行Map前，需要对输入数据进行分片（即将输入数据切分为大小相等的数据块），将每片内的数据作为单个Map Worker的输入，以便多个Map Worker同时工作。Map阶段：每个Map Worker读取数据...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。前置概念 ...

什么是数据库审计

数据库审计服务是一款专业、主动、实时监控数据库安全的审计产品，可用于审计阿里云原生数据库和自建数据库。数据库审计服务将数据库监控、审计技术与公共云环境相结合，针对数据库 SQL 注入、风险操作等数据库风险行为进行记录与告警，...

MySQL为源：数据同步操作指南

本文档将引导您完成使用阿里云数据传输服务（DTS）从MySQL数据库同步数据的全过程，整个过程可以归纳为七大核心步骤。步骤一：准备工作在配置同步任务前，请完成以下准备工作，确保任务顺利执行。（可选）接入阿里云：请您先确保业务环境...

功能更新动态（2024年）-独享模式（半托管）

标签工厂概述数据标准新增标准模板库，系统内置基于国标文件等梳理的常用码表，包括人、经济、区域属性相关的码表。批量导入的模板中，数据分类列的解析逻辑优化，以正斜线（/）开头或者直接以分类目录名称开头，都可以正常解析。数据...

接口概览

在该数据库中创建与全文检索相关的中文分词及检索功能的函数。支持的接口：InitVectorDatabase-初始化向量数据库。管理命名空间命名空间（Namespace）在数据库中映射为Schema。创建Namespace，用于后续创建文档库。创建Namespace时，需要...

功能更新动态（2022年之前）

2021年08月功能名称功能描述发布时间发布地域相关文档产品计费：策略优化及数据处理单元规格拓展同步任务和集成任务对应的数据处理单元由1:1修改为3:1，且前200个集成任务免费，进一步降低数据上云成本。同时，手动任务、汇总逻辑表...

数据实时入仓实践

为满足业务对数据仓库中高度时效性数据的需求，MaxCompute基于Delta Table实现了分钟级近实时数据写入和主键更新功能，显著提升了数据仓库的数据更新效率。数据写入场景面对具有突发性和热点性的客户行为日志，如评论、评分和点赞，传统的...

MaxCompute数据源

MaxCompute数据源作为数据中枢，为您提供读取和写入数据至MaxCompute的双向通道。功能介绍说明 DataWorks的MaxCompute数据源可使用 Tunnel Endpoint 地址访问相应MaxCompute项目的Tunnel服务，从而通过上传、下载等方式同步该项目的数据，...

数据推送节点

数据推送节点可将Data Studio业务流程中其他节点产生的数据查询结果，通过新建数据推送目标，将数据推送至钉钉群、飞书群、企业微信群、Teams以及邮件，便于团队成员及时接收和关注最新数据情况。背景信息数据推送节点可以通过节点上下文...

数据推送节点

数据推送节点可将Data Studio业务流程中其他节点产生的数据查询结果，通过新建数据推送目标，将数据推送至钉钉群、飞书群、企业微信群、Teams以及邮件，便于团队成员及时接收和关注最新数据情况。原理介绍数据推送节点，可以通过节点上...

大数据安全治理的难点

用户 大数据系统的用户基数大，覆盖所有与数据相关的角色。使用大数据系统的常见人员包括开发、运营、分析师，甚至销售及HR都会来查询自己所需的数据。如此多类型的用户，授权、管理难度加大，什么样的人员需要授予什么样的权限？如果他们...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

ALTER DATABASE

ALTER DATABASE 更改一个数据库的属性。简介 ALTER DATABASE 更改一个数据库的属性。...如果有冲突，角色相关的设置会覆盖数据库相关的值。示例要在数据库 test 中默认禁用索引扫描：ALTER DATABASE test SET enable_indexscan TO off;

技术架构选型

整体选型说明架构概述本架构围绕“数据采集—数据计算—数据架构—数据服务”的逻辑展开，以DataWorks和MaxCompute为核心技术栈，结合标准化的数据建模方法与治理体系，构建稳定、高效、可扩展的数据服务能力。最终目标是支撑商家增长、...

DataWorks产品安全能力介绍

为充分契合数据安全治理的核心理念与通用思路，DataWorks针对资产梳理、技术体系/运营体系建设提供了一系列全面的数据安全产品能力，基于“I（Identify）P（Protect）D（Detect）R（Respond）”理论框架，从资产识别、安全防护、行为检测、...

创建Presto数据源

选择默认资源组，该资源组用于运行与当前数据源相关任务，包括数据库SQL、离线整库迁移、数据预览等。进行测试连接或直接单击确定进行保存，完成Presto数据源的创建。单击测试连接，系统将测试数据源是否可以和Dataphin进行正常的...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

创建Presto数据源

选择默认资源组，该资源组用于运行与当前数据源相关任务，包括数据库SQL、离线整库迁移、数据预览等。进行测试连接或直接单击确定进行保存，完成Presto数据源的创建。单击测试连接，系统将测试数据源是否可以和Dataphin进行正常的...