Hive

#Hive#

已有2人关注此标签

内容分类

游客iwhrjhvjoyqts

通过spark-thriftserver读取hive表执行sql时,tasks 数量怎么设置

我在使用spark-thriftserver的方式,通过beeline执行sql的时候,thriftserver会扫描所查询hive表的所有分区(hdfs上面的路径)然后有多少个路径,就会自动生成多少个task,这个task的数量可以调整吗?或者这个流程怎么优化?

你们的好朋友

大家好,请教一下hbase数据导出到hive应该用什么组件

大家好,请教一下hbase数据导出到hive应该用什么组件

小六码奴

hive添加自定义udf出现权限问题,有谁遇到过没?

hive添加自定义udf出现权限问题,有谁遇到过没?

社区小助手

说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

社区小助手

Spark 【问答合集】

如何使用spark将kafka主题中的writeStream数据写入hdfs?https://yq.aliyun.com/ask/493211当Spark在S3上读取大数据集时,在“停机时间”期间发生了什么?https://yq.aliyun.com/ask/493212从Redshift读入Spark Dataframe(Spark-Redshift模块)https://yq.aliyun.com/ask/493215在初始化spark上下文后,在运行时更改pyspark的hadoop配置中的aws凭据https://yq.aliyun.com/ask/493217Window.rowsBetween - 仅考虑满足特定条件的行(例如,不为null)https://yq.aliyun.com/ask/493220spark的RDD内容直接用saveAsTextFile保存到hdfs时会出现中文乱码现象,但在控制台用foreach打印该RDD数据显示是正常的,该怎么解决呢?https://yq.aliyun.com/ask/494418请问一下如何能查看spark struct streaming内存使用情况呢?https://yq.aliyun.com/ask/494417使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达百万级别 ,这个怎么优化下?https://yq.aliyun.com/ask/494415请教大家一个问题,spark stream连kafka,在web页面的stream标签,显示好多batch处于queued状态,这些batch是已经把数据从kafka读取进rdd,等待处理,还是还没有从kafka读取数进rdd?https://yq.aliyun.com/ask/493702为什么我使用 dropDuplicates()函数报错Caused by: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location.(Ljava/lang/String;II)V ?https://yq.aliyun.com/ask/493700请教一下,我hive中数据大小为16g,通过importtsv生成了hfile 文件,导入到hbase中了,数据变成130多g,还有什么更好的办法吗?https://yq.aliyun.com/ask/493698jdbc 连接spark thrift server 如何获取日志?https://yq.aliyun.com/ask/493582Spark如何从一行中仅提取Json数据?https://yq.aliyun.com/ask/493581pyspark - 在json流数据中找到max和min usign createDataFramehttps://yq.aliyun.com/ask/493234如何计算和获取Spark Dataframe中唯一ID的值总和?https://yq.aliyun.com/ask/493231如何将csv目录加载到hdfs作为parquet?https://yq.aliyun.com/ask/493224无法使用Spark在Datastax上初始化图形https://yq.aliyun.com/ask/493222使用PySpark计算每个窗口的用户数https://yq.aliyun.com/ask/493221sql语句不支持delete操作,如果我想执行delete操作该怎么办?https://yq.aliyun.com/ask/494420spark streaming 和 kafka ,打成jar包后((相关第三方依赖也在里面)),放到集群上总是报StringDecoder 找不到classhttps://yq.aliyun.com/ask/494421json字符串中有重名但大小写不同的key,使用play.api.libs.json.Json.parse解析json没有报错,但是spark-sql使用org.openx.data.jsonserde.JsonSerDe时,会自动将key转为小写,然后putOnce函数报错Duplicate keyhttps://yq.aliyun.com/ask/494423spark DataFrame写入HDFS怎么压缩?https://yq.aliyun.com/ask/495552使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢?https://yq.aliyun.com/ask/495927 技术交流群 Apache Spark中国技术交流群 (钉钉扫码加入)

hbase小能手

请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?

请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?

社区小助手

社区小助手

大佬们,hive添加自定义udf出现权限问题,有谁遇到过没?

我们这hive整合sentry,由sentry去控制的。sentry没办法对这个授权

开源大数据EMR

Hive/Impala 作业读取 SparkSQL 导入的 Parquet 表报错

Hive/Impala 作业读取 SparkSQL 导入的 Parquet 表报错(表包含 Decimal 格式的列):Failed with exception java.io.IOException:org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file hdfs://…/…/part-00000-xxx.snappy.parquet

开源大数据EMR

Hive 创建外部表,没有数据

Hive 创建外部表,没有数据

hooyang

好blink有访问hive的案例吗?在开源的flink-examples-table中没有访问hive的案例

好blink有访问hive的案例吗?在开源的flink-examples-table中没有访问hive的案例

社区小助手

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

社区小助手

咨询个问题,hive on tez,insert overwrite table select * from A union all select * from B。插入分区表是会自动创建子目录 1、2、3如何解决?

咨询个问题,hive on tez,insert overwrite table select from A union all select from B。插入分区表是会自动创建子目录 1、2、3如何解决?

赵慧

请教个问题,blink在提交sql作业时,并发可以不同吗?比如,我想join两个hive表,但是两个表大小差很多,所以一个表的并发需要大一些,另外一个表的并发需要小一些,但是直接使用sql提交时,设置并发后,所有的节点都是一样的并发。有没有什么办法可以调的啊

转自钉钉群21789141:请教个问题,blink在提交sql作业时,并发可以不同吗?比如,我想join两个hive表,但是两个表大小差很多,所以一个表的并发需要大一些,另外一个表的并发需要小一些,但是直接使用sql提交时,设置并发后,所有的节点都是一样的并发。有没有什么办法可以调的啊

赵慧

请问一下本地可以通过blink连接远程的hive吗?

转自钉钉群21789141:请问一下本地可以通过blink连接远程的hive吗?

赵慧

连接hive,hive执行引擎是 MR 还是 Flink ?

转自钉钉群21789141:连接hive,hive执行引擎是 MR 还是 Flink ?

赵慧

请教一下blink的这个读hive meta的catalog是只适用于读取batch数据的场景吧

转自钉钉群21789141:请教一下blink的这个读hive meta的catalog是只适用于读取batch数据的场景吧

赵慧

flink写hive表有什么好的建议?

转自钉钉群21789141:flink 写 hive 表 有什么好的建议?

湘伦逐雪

blink中hive维表的支持,并支持定时的load外部数据

业务中维表主要存储在Hive中,维表的支持要实现lookuptablefunction,但是blink本身的hivetablesource并没有实现该接口,且不支持定时Load数据,请问自己要怎么实现