本文以开源大数据开发平台E-MapReduce(云上Hadoop)方式模拟本地Hadoop集群,为您介绍如何读写MaxCompute数据。背景信息 实践架构图如下所示。准备开发环境 准备E-MapReduce(EMR)环境。购买EMR集群。详情请参见 E-MapReduce快速入门。...
本方案通过结合HBase Snapshot和HBase Replication技术,在源端HBase集群不停服的情况下,实现存量数据和增量数据的在线迁移,确保迁移过程中数据无丢失。方案介绍 在HBase数据迁移过程中,传统基于Snapshot的方式仅支持离线迁移,无法满足...
什么是OSS-HDFS服务 通过OSS-HDFS服务,无需对现有的Hadoop、Spark大数据分析应用做任何修改。通过简单的配置即可像在原生HDFS中那样管理和访问数据,同时获得OSS无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。作为云原生数据湖...
使用DataWorks结合DataX进行Hadoop数据迁移的示例请参见 Hadoop数据迁移新手教程,或参见视频教程 Hadoop数据迁移到MaxCompute最佳实践。Sqoop执行时,会在原来的Hadoop集群上执行MR作业,可以分布式地将数据传输到MaxCompute上,详情请...
JindoFS是基于阿里云对象存储OSS,为开源大数据生态构建的Hadoop兼容文件系统(Hadoop Compatible File System,HCFS)。JindoFS提供兼容对象存储的纯客户端模式(SDK)和缓存模式(Cache),以支持与优化Hadoop和Spark生态大数据计算对OSS...
大数据量情况下,E-MapReduce Druid对内存要求比较高,尤其是Broker和Historical节点。E-MapReduce Druid本身资源不受YARN管控,在多服务运行时容易发生资源抢夺。Hadoop作为基础设施,其规模通常较大,而E-MapReduce Druid集群较小,部署...
多引擎开发:DataWorks Notebook拥有SQL Cell功能,支持多种大数据引擎的SQL开发与分析。交互式分析:交互式SQL查询:通过Python编写Widgets组件,通过在组件中直观选择或设置参数的取值,后续可以进一步在SQL中引用相同参数及取值,从而...
为保证您可以顺利完成本次实验,请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和 人工智能平台 PAI。前提条件 注册阿里云账号,详情请参见 注册阿里云账号。实名认证,详情请参见 个人实名认证 背景信息 本次...
{HADOOP_HOME}/bin/hadoop du-h oss:/accessKeyId:accessKeySecret@bucket-name.endpoint/test_data 启动Hadoop MapReduce任务(DistCp)将测试数据迁移至LindormDFS。{HADOOP_HOME}/bin/hadoop distcp \ oss:/accessKeyId:accessKeySecret...
检查hadoop数据源配置。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中...
开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...
DataWorks提供的 数据开发/数据地图展示脱敏、数据分析展示脱敏、MaxCompute引擎层脱敏、Hologres引擎层脱敏 等动态脱敏,及 数据集成静态脱敏 等静态脱敏均为一级脱敏场景,属于固定场景,不支持执行新增、编辑、删除等操作。同时,...
当项目用户具备查询E-MapReduce项目中的某些敏感数据权限,担忧不希望用户能看到完整的敏感数据信息时,可以对查询结果进行数据动态脱敏。本文为您介绍如何开启E-MapReduce的动态脱敏功能,并提供参考示例。使用限制 EMR集群仅支持数据保护...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。在数据开发目录树区域,单击顶部菜单栏的 图标,进入 代码搜索 页面。配置搜索条件并查看搜索结果。...
数据服务解决从数仓到应用的“最后一公里”,将数据源中的数据表快速生成数据API,在API网关进行统一管理和发布。实现低成本、易上手、安全稳定的数据共享与开放。背景信息 为了将最终分析的结果加速查询后开放出API接口对接三方服务,本次...
创建hadoop数据源配置。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中...
价值体现 从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将宝宝树现有的场景实时化(...
修改hadoop数据源配置。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中...
id|name|age|department|+-+-+-+-+|8|Emily|27|HR|9|Michael|33|HR|10|Chris|26|HR|+-+-+-+-+步骤六:向Hadoop数据源添加新数据 登录使用EMR创建的集群主节点,向Hive分区表插入新分区数据:INSERT INTO employees_pt PARTITION(department...
DataWorks将不同类型引擎任务封装为不同节点,通过创建节点来生成数据开发任务。同时,数据开发(DataStudio)支持使用资源、函数以及不同的逻辑处理节点开发复杂任务。本文将为您介绍数据开发任务的通用开发流程。前提条件 已绑定所需数据...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。在左侧导航栏单击 表管理。新建、查找及编辑目标表 新建表及导入表数据 在表管理页面,您可单击 及 ...
工作空间正是解决这些问题的核心单元,它通过提供一个独立的环境,让您能够清晰地组织开发任务、分配成员角色并绑定所需的计算引擎,从而确保数据开发流程的有序、安全与高效。工作空间概述 工作空间是DataWorks中进行任务开发和成员权限...
背景信息 开源大数据开发平台 E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还...
一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至EMR Hive的能力,您需要将Hive组件创建为 DataWorks的 Hive数据源,实现将其他数据源的数据同步至Hive数据源,或将Hive数据源的数据同步至其他数据源。同时,可根据需要选择...
若想使用创建的数据源进行数据开发,则数据源创建完成后还需进入数据开发(DataStudio)进行模块绑定。已绑定的计算引擎:已绑定的计算引擎迁移至 计算资源 进行管理。编辑计算引擎:不再支持直接编辑计算引擎,如需编辑可通过编辑数据源来...
绑定后,在不同工作空间模式下,DataWorks模块对应操作的数据源如下表所示:DataWorks模块 标准模式 简单模式 数据开发 操作开发环境数据源(实例,项目、数据库)操作生产环境数据源(实例,项目、数据库)运维中心 开发环境运维中心:...
旧版数据开发:配置完Hologres计算资源后,您可在数据开发中通过 数据集成 离线同步 节点进行数据同步操作、通过 旧版Hologres相关节点 进行数据开发。常见问题 报错信息:FAILED:Build connection error!Connection to xxx.hologres....
若您要使用DataWorks进行AnalyticDB for MySQL3.0任务的开发、...旧版数据开发:配置完AnalyticDB for MySQL(V3.0)计算资源后,您可在数据开发中通过 数据集成 离线同步 节点进行数据同步操作,通过 AnalyticDB for MySQL 节点进行数据开发。
若您要使用DataWorks进行云原生数据仓库AnalyticDB PostgreSQL版实例(以下简称 AnalyticDB for PostgreSQL)任务的开发、管理,需先将您的AnalyticDB for PostgreSQL实例绑定为DataWorks的AnalyticDB for PostgreSQL计算资源。创建完成后...
作为工作空间的管理者,在使用数据开发(DataStudio)时,您可以针对用户的开发行为实施有效的管控措施,进行开发流程、数据安全、审计等相关操作,本文将帮助您快速掌握DataStudio的相关功能,实现对数据开发过程的有效管控。背景信息 ...
后续操作 数据源创建完成后,您可根据需要执行如下操作:计算任务开发与调度:DataWorks的数据开发与运维中心模块,为您提供SSH任务的开发与调度能力,您可通过在SSH节点指定具体的SSH数据源的方式远程连接该数据源配置的主机,将 SSH节点 ...
后续操作 新版数据开发:配置完ClickHouse计算资源后,您可在数据开发中通过 离线同步节点 进行数据同步操作、通过 ClickHouse SQL节点 进行数据开发操作。旧版数据开发:配置完ClickHouse计算资源后,您可在数据开发中通过 数据集成 离线...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。鼠标悬停至 图标,单击 新建节点 数据集成 实时同步。您也可以展开业务流程,右键单击目标业务流程...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。在 数据开发 页面,展开目标业务流程。右键单击 MaxCompute,选择 新建表。在 新建表 对话框中,...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。开启强制冒烟测试 空间管理员可开启工作空间强制进行冒烟测试,开启强制冒烟测试功能后,当前工作...
EMR提供的组件包括开源和自研两大类,涵盖数据开发、计算引擎、数据服务、资源管理、数据存储、数据集成等领域,您可以按需选择和配置。说明 在创建集群时,如果没有您想使用的组件,或者想使用的开源组件仅对存量用户开放,您可以自行安装...
EMR on ECS是指在ECS上运行EMR,它将EMR的大数据处理能力与ECS的弹性灵活优势相结合,使得您能够更加便捷地配置和管理EMR集群,同时支持多种开源和自研大数据组件,适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成,分别...
数据开发模式全面升级,包括工作空间 解决方案 业务流程三级结构,抛弃陈旧的目录组织方式。背景信息 DataWorks对数据开发模式进行全面升级,按照业务种类组织相关的不同类型的节点,让您能够更好地以业务为单元、连接多个业务流程进行开发...
您可以通过MaxCompute函数面板,查看在MaxCompute计算引擎中存在的函数、函数的变更历史,并可以一键添加函数至数据开发面板的业务流程中。查看函数 进入 数据开发 页面。登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据...
在DataWorks的数据开发(DataStudio)、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能,您可将所需历史下载文件重新下载至本地使用,也可追溯历史下载记录的操作详情。前提条件 已通过如下模块...