大数据用的软件-大数据用的软件文档介绍内容-移动阿里云

Doris

统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。基于Doris构建的统一数仓，替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构，架构大大简化。数据湖联邦查询：通过外表的方式联邦分析位于Hive、...

大数据专家服务

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...

大数据安全治理的难点

使用大数据系统的常见人员包括开发、运营、分析师，甚至销售及HR都会来查询自己所需的数据。如此多类型的用户，授权、管理难度加大，什么样的人员需要授予什么样的权限？如果他们离职、换部门了怎么办？这其中很有可能出现权限蠕变、过度...

数据使用诊断

DataWorks的数据使用诊断，为您提供了对当前DataWorks工作空间的数据内容及数据隐私的安全保护能力，以及诊断相关安全问题的最佳实践及解决方案，帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断登录 DataWorks控制台...

应用场景

实时数据通道接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。收益系统解耦...

IoT数据自动化同步至云端解决方案

但同步至大数据系统或传统数据库的数据，需要使用专业的数据同步系统。下图为您展示使用DataWorks数据集成完成OSS数据同步至大数据系统的解决方案流程。新建离线同步节点，详情请参见通过向导模式配置离线同步任务。选择数据来源OSS进行...

敏感数据访问及导出情况

数据访问页面为您展示基于配置规则识别出的敏感数据的访问量、访问趋势、导出量和导出明细等，帮助您掌控每一次访问敏感数据的情况。目前支持MaxCompute和EMR引擎的操作数据展示。前提条件阿里云主账号已授权开通数据保护伞，详情请参见 ...

敏感数据概况

您在配置规则后，数据发现页面可以帮助您有效识别工作空间内的敏感数据。前提条件阿里云主账号已授权阿里云主账号开通数据保护伞，详情请参见数据保护伞。背景信息您可以在完成敏感数据规则配置的第二天，查看数据分布情况。操作步骤 ...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

客户案例

数据体系整体上云，使用少量组件即可实现流批一体、湖仓一体，完成从数据驱动到数智驱动，极大发挥数据价值。视频介绍社交媒体行业：欢聚时代大规模数据湖建设客户简介欢聚时代成立于2005年，是全球领先的社交媒体企业，旗下运营多款...

数据集成概述

5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错、...

配置数据脱敏规则

DataWorks支持通过配置脱敏规则将敏感数据进行脱敏，保障数据查询或存储安全。当前DataWorks支持多种脱敏场景，同时您还可根据需要自定义脱敏场景，以满足不同数据脱敏场景下的脱敏需求。本文为您介绍DataWorks数据脱敏能力及操作引导。...

数据库节点

支持创建数据库节点数据源数据源类型数据源简介 MySQL MySQL是用于存储和处理数据的关系型数据库管理系统（RDBMS），是最流行的关系型数据库管理系统之一，其体积小、速度快、总体拥有成本低。更多介绍请参见 MySQL。SQL Server SQL ...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

运营

资产使用方：主要进行数据查找和使用申请，目标是找到需要使用的数据资产，进行权限获取以完成后续业务使用。资产管理员：对所有可对外服务的高价值数据资产进行管理维护与编目上线，进行资产对外服务的生命周期维护，同时针对申请使用进行...

功能简介

资产使用方：主要进行数据查找和使用申请，目标是找到需要使用的数据资产，进行权限获取以完成后续业务使用。资产管理员：对所有可对外服务的高价值数据资产进行管理维护与编目上线，进行资产对外服务的生命周期维护，同时针对申请使用进行...

系统配置

数据保护伞的系统配置，支持设置数据水印文件的保存时间、设置是否展示MaxCompute数据的风险识别等级、设置告警信息的接收地址，以及设置是否开启实时识别敏感数据，您可根据业务需要进行配置。进入系统配置页面进入数据保护伞。登录 ...

数据集成

5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错、...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

创建IMPALA数据源

使用限制 Dataphin的IMPALA数据源的数据集成使用JDBC的方式进行集成，因此性能相较于Hive较差，若您集成的表为非Kudu表，您可使用Hive数据源及输入输出组件集成。操作步骤在Dataphin首页，单击顶部菜单栏管理中心数据源管理。在数据源 ...

外部表概述

创建好的外部表可以像普通的MaxCompute表一样使用（大部分场景），充分利用MaxCompute SQL的强大计算功能。说明使用外部表功能时，外部表的数据不会复制一份存在MaxCompute上并产生存储费用。外部表支持全量搜索。Tunnel功能及Tunnel SDK...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

数据管理

数据管理功能，以数据源维度展示了数据看板中所有组件使用的数据源合集，您可在该界面查看/编辑数据源配置，或批量替换目标组件所使用的数据源类型。批量替换数据源时，仅会更改数据来源（例如，由Hologres更改为RDS for MySQL），数据源已...

研发规范

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

创建IMPALA数据源

使用限制 Dataphin的IMPALA数据源的数据集成使用JDBC的方式进行集成，因此性能相较于Hive较差，若您集成的表为非Kudu表，您可使用Hive数据源及输入输出组件集成。仅当连接E-MapReduce 5.x版本的Impala数据源时，才支持使用DLF获取元数据。...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询（旧版）。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见 SQL查询（旧版）。...

应用场景

大数据场景云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势如下：低成本：高压缩比，数据冷热分离，...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

应用场景

离线 T+1 批量处理(构建坚实的数据基座)在 DataWorks 数据开发(DataStudio)中，使用 MaxCompute SQL 节点，可以对 TB 甚至 PB 级的海量历史数据进行高效、低成本的批量计算、清洗和建模。强大的智能调度系统负责每日凌晨自动执行这些ETL...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

独享资源组

独享资源组使用场景独享调度资源组使用场景独享数据集成资源组使用场景独享资源组网络配置独享资源组访问VPC环境下数据的前提条件是什么？如何查看数据源的网络环境？添加独享资源组白名单独享资源组商业化行为如何对资源组进行续费...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。背景信息 Aliyun HBase即阿里云的云数据库HBase，是低成本、高扩展、云智能的大数据NoSQL。...

云消息队列 Kafka 版数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，便于分析加工离线数据。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版购买并...

创建数据脱敏场景

进入 数据使用安全敏感数据管理，在页面弹窗内，首次需选择数据保护伞，授权后才可使用保护伞的相关功能。在左侧导航栏，单击规则配置数据脱敏管理，进入数据脱敏管理页面。在左侧脱敏场景区域，单击新增场景。配置脱敏场景在新建...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP...