hive注册-hive注册文档介绍内容-移动阿里云

常见问题

本文汇总了Hive使用时的常见问题。说明对于Hive作业报错或其他异常问题请参见 Hive作业异常排查及处理。对于Hive Metastore和HiveServer等服务相关的异常请参见 Hive服务异常排查及处理。作业长时间处于等待状态，如何处理？Map端是否读取...

Hive数据迁移至MaxCompute

整体步骤 Hive资源对象发现通过部署CMH的调研工具hive-scanner，进行Hive迁移对象的探索及资源导入，详见 Hive 资源发现。集群构建您可以在云迁移中心（CMH）的资源列表中勾选多个资源完成集群的创建，详见集群创建。迁移规划基于MMA...

Hive数据导入

云原生数据仓库AnalyticDB MySQL版湖仓版（3.0）支持通过Hive数据迁移将Hive数据迁移至OSS。本文介绍如何添加Hive数据源，新建Hive迁移链路并启动任务，以及数据迁移后如何进行数据分析和管理数据迁移任务。功能介绍 AnalyticDB MySQL版 ...

Hive作业调优

您可以通过调整内存、CPU和Task个数等，实现对Hive作业的调优。本文为您介绍如何调优Hive作业。作业调优方案作业调优方向调优方案参数调优内存参数 CPU参数 Task数量优化并行运行 Fetch task 开启向量化合并小文件代码优化代码优化...

Tez

背景信息 Tez主要使用在Apache Hive中，作为Hive的一种运行时引擎，可以优化Hive SQL的查询引擎。与Hive On MR（MapReduce）相比，Hive On Tez具有更好的查询性能和稳定性。Hive基于MapReduce提交任务和基于Tez提交任务流程图如下所示：Tez...

MMA概述

数据迁移原理 Hive数据迁移原理 Hive数据迁移包含通过Hive UDTF迁移数据到MaxCompute、通过OSS迁移Hive数据到MaxCompute，本文为您介绍两种数据迁移方式的原理。通过Hive UDTF迁移数据到MaxCompute。该场景通过Hive的分布式能⼒，实现Hive...

生成keytab配置文件

MaxCompute与Hadoop集群构建湖仓一体时，如果Hadoop集群开启了Kerberos安全机制，则...缓存Hive principal和keytab文件 kinit-kt/tmp/hive.keytab hive-查看是否缓存成功 klist 登录Hive客户端，如果可以访问，即生成的keytab配置文件正确。

Hive支持的DQL语句

本文为您介绍Dataphin计算引擎为Hadoop时，系统支持的Hive DQL命令及语法。TABLESAMPLE 数据采样。采样分桶表 TABLESAMPLE(BUCKET x OUT OF y[ON colname])块抽样 TABLESAMPLE(n PERCENT)更多信息请参见 TABLESAMPLE。QUALIFY 说明仅支持...

DLF统一元数据

使用限制 DLF统一元数据适配EMR的Hive 2.x、Hive 3.x、Presto和SparkSQL。仅EMR-3.30.0及之后版本和EMR-4.5.0及之后版本，支持选择DLF统一元数据作为Hive数据库。切换元数据存储类型您可以通过修改Hive参数的方式，切换Hive MetaStore的...

查看集群日报与分析

Hive使用量分析在Hive使用分析中，您可以获取以下图表：Hive库存储量使用量分布图 Hive用户总存储量分布 Hive表文件大小分布比例 Hive表热冷数据分布 Hive表存储格式分布 Hive详细信息在Hive信息中会展示Hive库和Hive表的详细信息。Hive...

新建Paimon数据源

版本选择Paimon数据源的来源版本，支持 EMR3.x Hive 2.3.5、EMR5.x Hive 3.1.x、CDH6.x Hive 2.1.1、CDP7.x Hive 3.1.3、亚信DP5.x Hive 3.1.0。数据源描述对数据源的简单描述。不得超过128个字符。数据源配置选择需要配置的数据源：...

在EMR集群运行TPC-DS Benchmark

hive-f./hive-testbench-hdp3/ddl-tpcds/bin_partitioned/analyze.sql \-hiveconf hive.execution.engine=tez \-database tpcds_bin_partitioned_orc_$SF 说明因为同时使用了数据湖构建（DLF）来保存Hive表的元数据，所以数据生成后，您...

新建HIVE_SQL任务

本文为您介绍如何基于Dataphin构建HIVE_SQL类型的离线计算任务。背景信息 HIVE_SQL计算任务适用于对已有数据进行加工处理，生成符合业务场景需求的数据的场景。操作步骤在Dataphin首页，单击顶部菜单栏中的研发。默认进入开发页面。...

配置Hive开启Ranger权限控制

本文介绍了Hive如何开启Ranger权限控制，以及详细的Ranger Hive权限配置示例进行说明。前提条件已创建DataLake集群，并选择了Ranger服务，创建集群详情请参见创建集群。注意事项 Hive开启Ranger权限控制后，HiveServer2服务会加载Ranger ...

从统一元数据库迁出到用户自建的RDS实例

为了保证更稳定的大规模Hive元数据服务，您可以从原有的统一元数据库迁出到您自建的RDS实例。前提条件已购买RDS，详情请参见创建RDS MySQL实例。使用限制建议选择 MySQL 的5.7版本；系列选择高可用版。RDS MySQL实例须与E-MapReduce的...

Hive兼容数据类型版本

Hive兼容数据类型版本是MaxCompute三种数据类型版本之一，该数据类型版本下仅支持Hive兼容数据类型。本文为您介绍Hive兼容数据类型版本的定义、支持的数据类型以及与其他数据类型版本的差异。定义项目空间选择数据类型版本为Hive兼容数据...

开启native查询加速

JindoTable通过Native Engine，支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速，以提升Spark、Hive和Presto的性能。前提条件已创建集群，且ORC或Parquet文件已存放至JindoFS或OSS，创建...

开启native查询加速

JindoTable通过Native Engine，支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速，以提升Spark、Hive和Presto的性能。前提条件已创建集群，且ORC或Parquet文件已存放至JindoFS或OSS，创建...

开启native查询加速

JindoTable通过Native Engine，支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速，以提升Spark、Hive和Presto的性能。前提条件已创建集群，且ORC或Parquet文件已存放至JindoFS或OSS，创建...

HiveServer2负载均衡

ktutil rkt/tmp/slb.keytab wkt/etc/ecm/hive-conf/hive.keytab hive.keytab 中应该有如下内容。修改集群的Hive配置。在EMR控制台的Hive服务的配置页签，搜索参数 hive.server2.authentication.kerberos.principal，修改参数值为 hive/121....

Dataphin提交至hive中的任务执行时间过长

问题描述 Dataphin提交至hive中的任务执行时间过长。具体情况如下：Dataphin日志显示2023-04-23 13:47:02.509 至 2023-04-23 13:51:34.297这4分32秒任务是在hive中执行；查看yarn日志，hive执行的时间只有28秒；还有4分4秒耗费在哪里呢？...

Dataphin中提交...Hive support because Hive classes...

问题描述 Dataphin中提交Spark任务报错“Unable to instantiate SparkSession with Hive support because Hive classes are not found.”是什么原因？问题原因用户使用的计算引擎是hadoop集群，任务执行机器信息配置错误。解决方案将...

EMR Hive数据整库离线同步至MaxCompute

本文以阿里云EMR Hive离线同步写入MaxCompute场景为例，为您介绍如何一次性把EMR Hive整个数据库的数据离线同步至MaxCompute。背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在...

EMR Hive数据整库离线同步至MaxCompute

本文以阿里云EMR Hive离线同步写入MaxCompute场景为例，为您介绍如何一次性把EMR Hive整个数据库的数据离线同步至MaxCompute。背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在...

Dataphin将csv文件同步到hive库，目标hive库字段值为...

产品名称 Dataphin 产品模块数据集成概述通过该问题的分析处理过程，提供以下场景问题处理排查思路和注意点：管道任务数据集成到hive之后，hive库查询集成数据为空问题描述将本地csv文件数据集成到hive库中，任务运行成功，但是查询...

Hive访问TableStore数据

本文通过示例为您介绍EMR Hive作业如何处理TableStore中的数据。前提条件已创建DataLake集群，详情请参见创建集群。已登录集群，详情请参见登录集群。已获取下方JAR包并上传到集群。JAR包名称获取方法参考下载链接 emr-tablestore-X.X...

新建Hive类型的公共节点

Hive类型的节点是离线节点，运行在Hive云计算资源之上，支持处理Hive、Hbase和Phoenix类型的数据。本文介绍如何新建Hive类型的公共节点。前提条件已新建Hive类型云计算资源，具体操作，请参见新建云计算资源。背景信息 Hive节点运行于...

使用Hive连接器读取DLF数据表

修改Hive连接器的配置后，可以正常读取DLF（Data Lake Formation）的数据表。本文为您介绍如何使用Hive连接器读取DLF数据表。前提条件已在EMR on ACK控制台上创建Presto集群，详情请参见创建集群。操作步骤进入catelog-hive.properties...

连接Kyuubi

本文为您介绍如何使用Beeline或JDBC连接Kyuubi。使用Beeline连接Kyuubi时，您可以使用Zookeeper连接，或者直接连接Kyuubi服务。前提条件已创建DataLake...} } 参考文档 Hive Beeline Getting Started With Hive JDBC Kyuubi Hive JDBC Driver

数据目录

Presto配置修改参考上述Hive配置修改并重启服务，需注意修改文件为hive.properties（Presto仅限于EMR 5.8.0/3.42.0及以上版本支持该功能）Impala配置不需要单独对Impala做此修改，它使用Hive的配置，仅修改Hive配置即可。

新建Hive类型的公共节点

Hive类型的节点是离线节点，运行在Hive云计算资源之上，支持处理Hive、Hbase和Phoenix类型的数据。本文介绍如何新建Hive类型的公共节点。前提条件已新建Hive类型云计算资源，具体操作，请参见新建云计算资源。背景信息 Hive节点运行于...

使用DLF元数据

CREATE EXTERNAL CATALOG hive_catalog properties("type"="hive","hive.metastore.type"="DLF");参数是否必选说明 type 是数据源的类型。支持的数据源类型有hive、hudi、iceberg、deltalake。dlf.catalog.id 否待读取的DLF Catalog ID...

通过EMR运行基于OSS-HDFS服务的TPC-DS Benchmark

hive-f./hive-testbench-hdp3/ddl-tpcds/bin_partitioned/analyze.sql \-hiveconf hive.execution.engine=tez \-database tpcds_bin_partitioned_orc_$SF 步骤4：运行TPC-DS SQL 本步骤分别介绍如何使用Hive和Spark运行TPC-DS SQL。...

Hive支持的DDL语句

RCFILE-(Note:Available in Hive 0.6.0 and later)|ORC-(Note:Available in Hive 0.11.0 and later)|PARQUET-(Note:Available in Hive 0.13.0 and later)|AVRO-(Note:Available in Hive 0.14.0 and later)|JSONFILE-(Note:Available in ...

Hive统一元数据

EMR-2.4.0之前版本，所有集群采用的是集群本地的MySQL数据库作为Hive元数据库；EMR-2.4.0及后续版本，E-MapReduce（简称EMR）支持统一的高可靠的Hive元数据库。背景信息因为元数据库需要使用公网IP来连接，所以集群必须要有公网IP，同时请...

HIVECLI

使用资源中心中的Hive SQL文件该示例演示了如何使用资源中心中的Hive SQL文件来执行任务。在本例中，先在资源中心中定义了 sql 类型的文件（例如，hive.sql），然后在程序类型下拉列表中选择选择资源中心文件，在资源下拉列表中...

使用Kerberos认证

方式一：直接使用 hive 命令访问Hive Client hive 方式二：使用Beeline访问Hive Client beeline-u"jdbc:hive2:/master-1-1:10000/;principal=hive/_HOST@EMR"相关文档创建Principal的官方文档，请参见 Database administration。创建TGT的...

创建并管理数据集

MaxCompute、Presto、Hive、Apache Doris等数据源不支持自动注册，需要手动下载函数脚本并在对应数据源上运行。同步日期粒度仅支持同步日期字段。当您误删除部分日期粒度字段时，您可以单击同步日期粒度，系统自动将源数据的全量日期...

开启native查询加速

因为EMR Hive 2.3.7（EMR-3.35.0）已经内置JindoTable Parquet加速的插件，所以您可以直接设置 hive.jindotable.native.enabled 来启用查询加速，或者可以在控制台配置页面的 hive-site.xml 页签，添加自定义参数 hive.jindotable.native....

Dataphin中从SAP HANA向Hive同步数据后数据精度丢失

问题描述 Dataphin中从SAP HANA向Hive同步数据，数据精度丢失。SAP HANA中字段是decimal(11,2)。同步到Hive后，小数丢失，只有整数。问题原因从Hive中表结构可以看出，字段定义的是decimal(10,0)格式，因此同步到Hive数据只有整数。解决...