开发hadoop大数据-开发hadoop大数据文档介绍内容-移动阿里云

模拟IDC Spark读写MaxCompute实践

本文以开源大数据开发平台E-MapReduce（云上Hadoop）方式模拟本地Hadoop集群，为您介绍如何读写MaxCompute数据。背景信息实践架构图如下所示。准备开发环境准备E-MapReduce（EMR）环境。购买EMR集群。详情请参见 E-MapReduce快速入门。...

EMR HBase在线迁移数据

本方案通过结合HBase Snapshot和HBase Replication技术，在源端HBase集群不停服的情况下，实现存量数据和增量数据的在线迁移，确保迁移过程中数据无丢失。方案介绍在HBase数据迁移过程中，传统基于Snapshot的方式仅支持离线迁移，无法满足...

Hadoop使用JindoSDK访问OSS-HDFS服务

什么是OSS-HDFS服务通过OSS-HDFS服务，无需对现有的Hadoop、Spark大数据分析应用做任何修改。通过简单的配置即可像在原生HDFS中那样管理和访问数据，同时获得OSS无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。作为云原生数据湖...

数据上云场景

使用DataWorks结合DataX进行Hadoop数据迁移的示例请参见 Hadoop数据迁移新手教程，或参见视频教程 Hadoop数据迁移到MaxCompute最佳实践。Sqoop执行时，会在原来的Hadoop集群上执行MR作业，可以分布式地将数据传输到MaxCompute上，详情请...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

使用Druid

大数据量情况下，E-MapReduce Druid对内存要求比较高，尤其是Broker和Historical节点。E-MapReduce Druid本身资源不受YARN管控，在多服务运行时容易发生资源抢夺。Hadoop作为基础设施，其规模通常较大，而E-MapReduce Druid集群较小，部署...

Notebook 查询与分析

多引擎开发：DataWorks Notebook拥有SQL Cell功能，支持多种大数据引擎的SQL开发与分析。交互式分析：交互式SQL查询：通过Python编写Widgets组件，通过在组件中直观选择或设置参数的取值，后续可以进一步在SQL中引用相同参数及取值，从而...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

{HADOOP_HOME}/bin/hadoop du-h oss:/accessKeyId:accessKeySecret@bucket-name.endpoint/test_data 启动Hadoop MapReduce任务（DistCp）将测试数据迁移至LindormDFS。{HADOOP_HOME}/bin/hadoop distcp \ oss:/accessKeyId:accessKeySecret...

CheckHadoopDataSource-检查hadoop数据源配置

检查hadoop数据源配置。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 Action 元素中...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

创建数据脱敏场景

DataWorks提供的 数据开发/数据地图展示脱敏、数据分析展示脱敏、MaxCompute引擎层脱敏、Hologres引擎层脱敏等动态脱敏，及数据集成静态脱敏等静态脱敏均为一级脱敏场景，属于固定场景，不支持执行新增、编辑、删除等操作。同时，...

实践示例：E-MapReduce底层脱敏使用方法

当项目用户具备查询E-MapReduce项目中的某些敏感数据权限，担忧不希望用户能看到完整的敏感数据信息时，可以对查询结果进行数据动态脱敏。本文为您介绍如何开启E-MapReduce的动态脱敏功能，并提供参考示例。使用限制 EMR集群仅支持数据保护...

代码搜索

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。在数据开发目录树区域，单击顶部菜单栏的图标，进入代码搜索页面。配置搜索条件并查看搜索结果。...

生成数据API

数据服务解决从数仓到应用的“最后一公里”，将数据源中的数据表快速生成数据API，在API网关进行统一管理和发布。实现低成本、易上手、安全稳定的数据共享与开放。背景信息为了将最终分析的结果加速查询后开放出API接口对接三方服务，本次...

CreateHadoopDataSource-创建hadoop外部数据源

创建hadoop数据源配置。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 Action 元素中...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

ModifyHadoopDataSource-修改hadoop数据源配置

修改hadoop数据源配置。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 Action 元素中...

基于HMS+HDFS读取Hadoop Hive数据

id|name|age|department|+-+-+-+-+|8|Emily|27|HR|9|Michael|33|HR|10|Chris|26|HR|+-+-+-+-+步骤六：向Hadoop数据源添加新数据登录使用EMR创建的集群主节点，向Hive分区表插入新分区数据：INSERT INTO employees_pt PARTITION(department...

数据开发流程引导

DataWorks将不同类型引擎任务封装为不同节点，通过创建节点来生成数据开发任务。同时，数据开发（DataStudio）支持使用资源、函数以及不同的逻辑处理节点开发复杂任务。本文将为您介绍数据开发任务的通用开发流程。前提条件已绑定所需数据...

表管理

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。在左侧导航栏单击表管理。新建、查找及编辑目标表新建表及导入表数据在表管理页面，您可单击及 ...

工作空间管理

工作空间正是解决这些问题的核心单元，它通过提供一个独立的环境，让您能够清晰地组织开发任务、分配成员角色并绑定所需的计算引擎，从而确保数据开发流程的有序、安全与高效。工作空间概述工作空间是DataWorks中进行任务开发和成员权限...

旧版数据开发：绑定EMR计算资源

背景信息开源大数据开发平台 E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还...

DataWorks On EMR使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至EMR Hive的能力，您需要将Hive组件创建为 DataWorks的 Hive数据源，实现将其他数据源的数据同步至Hive数据源，或将Hive数据源的数据同步至其他数据源。同时，可根据需要选择...

DataWorks新版数据源公告

若想使用创建的数据源进行数据开发，则数据源创建完成后还需进入数据开发（DataStudio）进行模块绑定。已绑定的计算引擎：已绑定的计算引擎迁移至计算资源进行管理。编辑计算引擎：不再支持直接编辑计算引擎，如需编辑可通过编辑数据源来...

工作空间模式区别

绑定后，在不同工作空间模式下，DataWorks模块对应操作的数据源如下表所示：DataWorks模块标准模式简单模式 数据开发 操作开发环境数据源（实例，项目、数据库）操作生产环境数据源（实例，项目、数据库）运维中心开发环境运维中心：...

绑定Hologres计算资源

旧版数据开发：配置完Hologres计算资源后，您可在数据开发中通过数据集成离线同步节点进行数据同步操作、通过旧版Hologres相关节点进行数据开发。常见问题报错信息：FAILED:Build connection error!Connection to xxx.hologres....

绑定AnalyticDB for MySQL3.0计算资源

若您要使用DataWorks进行AnalyticDB for MySQL3.0任务的开发、...旧版数据开发：配置完AnalyticDB for MySQL(V3.0)计算资源后，您可在数据开发中通过数据集成离线同步节点进行数据同步操作，通过 AnalyticDB for MySQL 节点进行数据开发。

绑定AnalyticDB for PostgreSQL计算资源

若您要使用DataWorks进行云原生数据仓库AnalyticDB PostgreSQL版实例（以下简称 AnalyticDB for PostgreSQL）任务的开发、管理，需先将您的AnalyticDB for PostgreSQL实例绑定为DataWorks的AnalyticDB for PostgreSQL计算资源。创建完成后...

开发管控：管理者

作为工作空间的管理者，在使用数据开发（DataStudio）时，您可以针对用户的开发行为实施有效的管控措施，进行开发流程、数据安全、审计等相关操作，本文将帮助您快速掌握DataStudio的相关功能，实现对数据开发过程的有效管控。背景信息 ...

SSH数据源

后续操作数据源创建完成后，您可根据需要执行如下操作：计算任务开发与调度：DataWorks的数据开发与运维中心模块，为您提供SSH任务的开发与调度能力，您可通过在SSH节点指定具体的SSH数据源的方式远程连接该数据源配置的主机，将 SSH节点 ...

绑定ClickHouse计算资源

后续操作新版数据开发：配置完ClickHouse计算资源后，您可在数据开发中通过离线同步节点进行数据同步操作、通过 ClickHouse SQL节点进行数据开发操作。旧版数据开发：配置完ClickHouse计算资源后，您可在数据开发中通过数据集成离线...

配置PolarDB输入

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。鼠标悬停至图标，单击新建节点数据集成实时同步。您也可以展开业务流程，右键单击目标业务流程...

加工数据

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。在 数据开发 页面，展开目标业务流程。右键单击 MaxCompute，选择新建表。在新建表对话框中，...

执行冒烟测试

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。开启强制冒烟测试空间管理员可开启工作空间强制进行冒烟测试，开启强制冒烟测试功能后，当前工作...

组件操作

EMR提供的组件包括开源和自研两大类，涵盖数据开发、计算引擎、数据服务、资源管理、数据存储、数据集成等领域，您可以按需选择和配置。说明在创建集群时，如果没有您想使用的组件，或者想使用的开源组件仅对存量用户开放，您可以自行安装...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

创建解决方案

数据开发模式全面升级，包括工作空间解决方案业务流程三级结构，抛弃陈旧的目录组织方式。背景信息 DataWorks对数据开发模式进行全面升级，按照业务种类组织相关的不同类型的节点，让您能够更好地以业务为单元、连接多个业务流程进行开发...

MaxCompute函数管理

您可以通过MaxCompute函数面板，查看在MaxCompute计算引擎中存在的函数、函数的变更历史，并可以一键添加函数至数据开发面板的业务流程中。查看函数进入 数据开发 页面。登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据...

数据下载

在DataWorks的数据开发（DataStudio）、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能，您可将所需历史下载文件重新下载至本地使用，也可追溯历史下载记录的操作详情。前提条件已通过如下模块...