自建hadoop 连接-自建hadoop 连接文档介绍内容-移动阿里云

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

自建Hive数据仓库迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行常见的ETL任务。客户在决策上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。方案优势易用性您可以简单选择所需ECS机型（CPU、...

什么是EMR on ECS

与自建Hadoop集群对比开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项阿里云EMR 自建Hadoop集群成本支持按量和包年包月付费方式，集群资源支持灵活调整，数据分层存储，资源使用率高。无额外软件License费用。需...

常见问题

本文为您介绍数据湖构建的常见问题。如何申请数据湖构建产品的公测资格？数据湖构建如何收费？...目前DLF支持与阿里云E-MapReduce产品组合实现Spark数据的读取，详细请参考：EMR+DLF数据湖解决方案，暂不支持与自建Hadoop/Spark集群的集成。

数据湖生态接入

生态类型引擎/平台参考文档开源生态 Elasticsearch 将Elasticsearch的快照备份至OSS Flink 使用Flink访问OSS 开源Flink写入OSS-HDFS服务 Fluentd 使用Fluentd访问OSS Flume Flume使用JindoSDK写入OSS-HDFS服务 Hadoop 自建Hadoop使用...

测试环境

场景三：1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比场景说明：使用自建Spark和DLA Spark分别访问自建Hadoop集群，运行Terasort 1 TB基准测试，对它们的耗时进行对比分析。DLA Spark+OSS配置如下：配置名称 ...

数据迁移

数据迁移和脚本迁移遇到的问题及解决方案请参见迁移自建Hadoop数据至MaxCompute实践。迁移Oracle数据至MaxCompute，详情请参见迁移Oracle数据至MaxCompute。迁移消息队列for Apache Kafka集群数据至MaxCompute，详情请参见迁移消息队列...

测试结果

1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果集群类型运行Terasort基准测试集耗时（min）DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用，自建Hadoop集群在高峰期需要...

自建数据源Elasticsearch

连接自建数据源Elasticsearch之前，需要将 Quick BI的IP地址加入到自建数据源Elasticsearch的白名单。登录 Quick BI控制台。从创建数据源入口进入创建数据源界面。单击显示更多。选择 Elasticsearch 数据源。数据库来源选择自建。在 ...

使用pg_dump和pg_restore将自建PostgreSQL数据库迁移...

步骤一：确认待迁移数据库的相关信息 连接自建PostgreSQL数据库，在psql命令行中，使用 \l 查询数据库列表信息，确认待迁移数据库的 Owner、Encoding、Collate 和 Ctype 信息。本文以迁移 testdb 数据库为例，Owner 为 testuser、Encoding ...

从自建HDFS迁移数据

自建Hadoop集群数据迁移阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时，可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示：hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...

数据源常见问题

是否支持连接自建数据库？是否支持清除MaxCompute查询缓存？如何配置关联模型？数据源连接了本地MySQL后，是否还可以导入Excel或CSV文件作为数据源？是否支持数据清洗功能？是否支持JDBC连接？如果连接的MySQL数据源主库地址修改为从库地址...

创建自定义连接流

说明若公共连接器无法满足您的业务需求，您可以在 自建连接器页签中，选择您已创建的自定义连接器。更多信息，请参见创建连接器。若触发器有入参配置，则先按要求填写入参，完成后单击完成进入下一步。选择连接器执行动作，然后单击 ...

使用限制

您在使用数据湖构建（Data Lake Formation，简称DLF）控制台和接口时，产品做了如下限制，请在使用时...不支持Hive LLAP 建议使用Presto/Spark等引擎替代目前DLF不支持与自建的Hadoop集群集成，如需使用数据湖请选择阿里云E-MapReduce集群。

从自建Redis迁移至阿里云Redis

使用redis-cli工具连接自建Redis数据库。说明安装原生Redis即可使用redis-cli，详情请参见 Redis社区版官网。redis-cli-h<host>-p<port>-a说明<host>：自建Redis数据库的访问地址，本机可使用127.0.0.1。自建Redis数据库的服务...

从自建Redis迁移至MyBase Redis

使用redis-cli工具连接自建Redis数据库。说明安装原生Redis即可使用redis-cli，详情请参见 Redis社区版官网。redis-cli-h<host>-p<port>-a说明<host>：自建Redis数据库的访问地址，本机可使用127.0.0.1。自建Redis数据库的服务...

从自建Redis迁移至Tair实例

使用redis-cli工具连接自建Redis数据库。说明安装原生Redis即可使用redis-cli，详情请参见 Redis社区版官网。redis-cli-h<host>-p<port>-a说明<host>：自建Redis数据库的访问地址，本机可使用127.0.0.1。自建Redis数据库的服务...

从自建Redis迁移至阿里云Redis

使用redis-cli工具连接自建Redis数据库。说明安装原生Redis即可使用redis-cli，详情请参见 Redis社区版官网。redis-cli-h<host>-p<port>-a说明<host>：自建Redis数据库的访问地址，本机可使用127.0.0.1。自建Redis数据库的服务...

测试方法

在DLA Spark上运行测试程序说明通过DLA Spark访问自建Hadoop集群需要配置打通VPC网络，具体DLA Spark连接VPC网络下的HDFS相关参数的含义和配置步骤，请参见 Hadoop。登录 Data Lake Analytics管理控制台，在 Serverless Spark>作业管理 ...

接入数据库

自建数据库支持连接的自建数据库有以下限制：仅支持VPC网络中的ECS自建数据库。仅支持MySQL、SQL Server和Oracle类型的ECS自建数据库。ECS自建数据库资产在连接数据安全中心之前，需要在自建数据库内，授予待连接用户指定IP段的远程访问...

Quick BI自建数据源是否可以通过域名连接

概述本文为您介绍Quick BI自建数据源是否可以通过域名进行连接。详细信息 Quick BI自建数据源目前MySQL、Oracle、SQL Server必须使用IP进行连接，其他自建数据源暂无该要求。适用于 Quick BI（公共云）

E-MapReduce数据迁移方案

经典网络与VPC网络打通如果ECS自建Hadoop，需要通过ECS的 classiclink 的方式将经典网络和VPC网络打通，详情请参见建立ClassicLink连接。VPC网络之间连通数据迁移一般需要较高的网络带宽连通，建议新旧集群尽量处在同一个区域的同一个...

从自建MySQL迁移至PolarDB MySQL版（mysqldump工具）

mysqldump-h<自建数据库的连接地址>-u user-p-opt-default-character-set=utf8-hex-blob<自建数据库名>-skip-triggers-skip-lock-tables>/tmp/<自建数据库名>.sql 示例 mysqldump-h 127.0.0.1-u user-p-opt-default-character-set=utf8-hex...

一键创建OSS数据仓库

本文介绍如何通过向导将RDS、PolarDB for MySQL、MongoDB数据库或者ECS自建数据库数据同步到OSS中，即创建OSS数据仓库（创建Schema）。操作步骤登录 Data Lake Analytics管理控制台。在页面左上角，选择DLA所在地域。在左侧导航栏单击 ...

使用MongoDB工具将自建数据库迁移至副本集实例

说明通过内网地址连接副本集实例时，您需要将自建数据库所属ECS的内网IP地址加入至副本集实例的白名单中。通过公网地址连接副本集实例时，将需要将自建数据库所属本地服务器的公网IP地址加入至副本集实例的白名单中。在自建数据库服务器上...

使用MongoDB工具将自建数据库迁移至分片集群实例

说明通过专有网络或经典网络连接分片集群实例时，您需要将自建数据库所属ECS的内网IP地址加入至分片集群实例的白名单中。通过公网地址连接分片集群实例时，将需要将自建数据库所属本地服务器的公网IP地址加入至分片集群实例的白名单中。在...

通过Reindex API迁移自建Elasticsearch数据

如果您需要迁移数据，且源索引的数据不需要进行复杂的转换和处理，您可以按照本文提供的步骤，使用Reindex API将数据从自建Elasticsearch集群迁移至Lindorm搜索引擎。前提条件自建Elasticsearch（简称ES）集群为7.0.0~7.10.1版本。已开通...

自建数据源PostgreSQL

本文为您介绍如何创建PostgreSQL类型的自建数据源。前提条件请确保您的网络连通性：您通过公网连接Quick BI与PostgreSQL数据库，请添加 Quick BI的IP地址至数据库白名单，请参见添加安全组规则。您通过内网连接Quick BI与PostgreSQL数据...

自建数据源SQL Server

本文为您介绍如何创建SQL Server类型的自建数据源。前提条件请确保您的网络连通性：您通过公网连接Quick BI与SQL Server数据库，请添加 Quick BI的IP地址至数据库白名单，请参见添加安全组规则。您通过内网连接Quick BI与SQL Server数据...

自建数据源StarRocks

Quick BI支持以公网或阿里云VPC的方式连接StarRocks数据库，本文为您介绍如何添加StarRocks自建数据源。前提条件请确保您的网络连通性：您通过公网连接Quick BI与StarRocks数据库，请添加 Quick BI的IP地址至数据库白名单，请参见添加...

自建数据源ClickHouse

Quick BI支持以公网或阿里云VPC的方式连接ClickHouse，本文为您介绍如何添加ClickHouse自建数据源。前提条件确保您的网络已连通：您通过公网连接Quick BI与ClickHouse数据库，请添加 Quick BI的IP地址至数据库白名单，请参见添加安全组...

产品优势

优势总结对比类目 自建Hadoop系统阿里云 DLA+OSS方案产品体系复杂、组件较多一体化、端到端（入湖=>管理=>ETL=>分析查询），产品体验好；组件精耕细作Presto、Spark；弹性无云原生、弹性强、一分钟可弹300节点参与计算性价比开源...

使用MongoDB工具将自建数据库迁移至单节点实例

通过公网地址连接阿里云MongoDB实例时，将需要将自建数据库所属本地服务器的公网IP地址加入至阿里云MongoDB实例的白名单中。在自建数据库服务器上执行以下语句，将备份的数据全部迁移至阿里云MongoDB实例。mongorestore-host<Primary_host>...

自建数据源SAP HANA

本文为您介绍如何创建自建数据源SAP HANA。仅专业版和高级版支持创建自建数据源SAP HANA。前提条件请确保您的网络连通性：您通过公网连接Quick BI与SAP HANA数据库，请添加 Quick BI的IP地址至数据库白名单，请参见添加安全组规则。您...

自建数据源Gbase

本文为您介绍如何创建自建数据源Gbase。仅专业版和高级版支持创建自建数据源Gbase。前提条件请确保您的网络连通性：您通过公网连接Quick BI与Gbase数据库，请添加 Quick BI的IP地址至数据库白名单，请参见添加安全组规则。您通过内网...

自建数据源Vertica

本文为您介绍如何创建自建数据源Vertica。仅专业版和高级版的群空间支持创建自建数据源Vertica。前提条件请确保您的网络连通性：您通过公网连接Quick BI与Vertica数据库，请添加 Quick BI的IP地址至数据库白名单，请参见添加安全组规则...

自建数据源SAP IQ（Sybase IQ）

本文为您介绍如何创建自建数据源Sybase IQ（简称Sybase）。仅专业版和高级版的群空间支持创建自建数据源Sybase。前提条件请确保您的网络连通性：您通过公网连接Quick BI与Sybase数据库，请添加 Quick BI的IP地址至数据库白名单，请参见 ...

Datastream JAR迁移

本文为您介绍如何将自建Flink集群上的Datastream JAR作业，迁移至实时计算Flink全托管的JAR作业类型中。背景信息本文介绍的迁移场景如下图所示。前提条件本地已安装Maven 3.x。已在 Maven资源中心下载了开源JDBC Connector包，包括 ...

为Spark集群设置元数据

EMR on ACK支持使用数据湖元数据DLF（Data Lake Formation）和自建Hive Metastore元数据两种方式，为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置...完成上述配置后，向该Spark集群提交的任务，会自动连接自建的Hive Metastore。

自建数据源Snowflake

本文为您介绍创建Snowflake类型的自建数据源。仅专业版和高级版的群空间支持创建自建数据源Snowflake。前提条件确保您的网络已连通：您通过公网连接Quick BI与Snowflake数据库，请添加 Quick BI的IP地址至数据库白名单，请参见添加安全...