spark

#spark#

已有21人关注此标签

内容分类

hbase小能手

各位,spark有什么方式可以关联mysql表吗?当mysql里面有变化时,能够实时同步。

各位,spark有什么方式可以关联mysql表吗?当mysql里面有变化时,能够实时同步。

游客saqcxjoyi2n6i

关于spark分区什么时候进行的问题?

spark分区是在maptask 到reduceTask的时候进行分区,还是说在sc.textFile就开始分区了呢 我测试了一下,sc.textFile默认分区后我把每个分区的内容打印出来发现不是hash算法分区,但是当我经过了shuffle算子之后再打印各个分区的内容就是按照hash算法分区 所以很疑惑,如果是sc.textFile就开始分区,那么假设3个block块,我在sc.textFile就指定5个分区,那就得将3个block块分成5个分区,那会很占用内存和网络资源(map取各个block块中的某一个分区),感觉有点不太合理啊,然后再经过shuffle算子,再次分区,感觉很慢啊; 我在想是不是一开始sc.textFile在读取hdfs的数据时,按照平均的方式给每个一分区数据(例如:3个block块共384MB,5个分区就是各76.8Mb,每个map读取这76.bMB数据),然后在经过shuffle算子的时候才开始按照hash算法分区,生成文件,再由reduce取各个节点的分区值,这样也能说的通,最后五个part-0000文件,shuffle过程的桶也是5*5=25

社区小助手

Elasticsearch-spark依赖读取es数据的时候需要配置es的哪些参数,有没有代码参考参考,es版本是5.4.3 elasticsearch-spark也是5.4.3的

Elasticsearch-spark依赖读取es数据的时候需要配置es的哪些参数,有没有代码参考参考,es版本是5.4.3 elasticsearch-spark也是5.4.3的本问题及下方已被采纳的回答均来自云栖社区【Apache Spark中国技术交流群】。https://yq.aliyun.com/articles/690084 欢迎点击链接加入。

社区小助手

请教一下,报GC错误,这个怎么设置参数啊

请教一下,报GC错误,这个怎么设置参数啊本问题及下方已被采纳的回答均来自云栖社区【Apache Spark中国技术交流群】。https://yq.aliyun.com/articles/690084 欢迎点击链接加入。

社区小助手

请问一个问题,sqoop可以把数据从MySQL抽到Kafka吗?

请问一个问题,sqoop可以把数据从MySQL抽到Kafka吗? 本问题及下方已被采纳的回答均来自云栖社区【Apache Spark中国技术交流群】。https://yq.aliyun.com/articles/690084 欢迎点击链接加入。

hbase小能手

全量取出hbase表数据有比scan更高效的方法吗

全量取出hbase表数据有比scan更高效的方法吗,取出的数据用于spark批处理

游客qnymuwxdg3i4o

PAI-studio中线性回归算法组件的参数设置“最小似然误差设置”是如何计算出来的?

log-likehood是怎么算出来的?是直接通过spark mllib或者sklearn有直接的第三方包或API直接计算吗?

社区小助手

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

社区小助手

大佬们,请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的?

大佬们,请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的?

社区小助手

为什么这个completed的stage还有running状态的task呢

大佬们问个问题哈,为啥这个completed的stage还有running状态的task呢?而且一个dataframe的count怎么有多个stage

hbase小助手

请教下,spark缓存rdd,前端应用是否可以直接查询这个rdd?

请教下,spark缓存rdd,前端应用是否可以直接查询这个rdd?

hbase小助手

spark SQL 的bucketBy设置bucket数量

spark SQL 的bucketBy怎么设bucket数量比较好啊?感觉bucket少了join起来并发度太低,bucket多了又是一大堆小文件,有推荐值不?

社区小助手

请问有人知道datax mongodbreader里面的query查询语句应该写成什么格式呢?

请问有人知道datax mongodbreader里面的query查询语句应该写成什么格式呢?

社区小助手

我使用spark thrift jdbc 已经在spark配置文件设置了

我使用spark thrift jdbc 已经在spark配置文件设置了--conf spark.kryoserializer.buffer=64m--conf spark.kryoserializer.buffer.max=256m为什么还报错???设置的没有生效org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: 132694147. To avoid this, increase spark.kryoserializer.buffer.max value. at org.apache.spark.serializer.KryoSerializerInstance.serialize(KryoSerializer.scala:350) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:393) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) at java.lang.Thread.run(Thread.java:745) Caused by: com.esotericsoftware.kryo.KryoException: Buffer overflow. Available: 0, required: 132694147

社区小助手

编译spark2.4.0 遇到这个问题

编译spark2.4.0 遇到这个问题 [ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-first) on project spark-hive-thriftserver_2.10: Execution scala-compile-first of goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile failed.: CompileFailed -> [Help 1] org.apache.maven.lifecycle.LifecycleExecutionException: Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-first) on project spark-hive-thriftserver_2.10: Execution scala-compile-first of goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile failed.

社区小助手

在集群上为什么启动另一个spark任务会kill掉前一个spark任务

在集群上为什么启动另一个spark任务会kill掉前一个spark任务

社区小助手

咨询个问题,hive on tez,insert overwrite table select * from A union all select * from B。插入分区表是会自动创建子目录 1、2、3如何解决?

咨询个问题,hive on tez,insert overwrite table select from A union all select from B。插入分区表是会自动创建子目录 1、2、3如何解决?

社区小助手

请教各位一个问题,使用spark读写Kudu数据,如果使用spark_kudu 1.9.0的包可以读取Kudu表的数据,创建KuduContext会报错:java.lang.IllegalStateException。如果使用1.7.0或者1.8.0的jar包,无法读数据,会报错:java.lang.ClassNotFoundException: kudu.DefaultSource。这是为啥啊

请教各位一个问题,使用spark读写Kudu数据,如果使用spark_kudu 1.9.0的包可以读取Kudu表的数据,创建KuduContext会报错:java.lang.IllegalStateException。如果使用1.7.0或者1.8.0的jar包,无法读数据,会报错:java.lang.ClassNotFoundException: kudu.DefaultSource。这是为啥啊

社区小助手

有哪位遇到过这个问题,没搞明白是哪里的数组越界了

有哪位遇到过这个问题,没搞明白是那里的数组越界了

社区小助手

spark DataFrame写入HDFS怎么压缩

spark DataFrame写入HDFS怎么压缩?写成txt文件的格式