云栖问答

我的提问 我要提问

EMR 5.21,Spark 2.4 - Json4s依赖性被破坏

问题在EMR 5.21中,Spark-Hbase集成被破坏。df.write.options()。format()。s...

如何配置aws lambda以便能够访问emr主节点上的服务?

我的AWS Lambda函数无法访问主节点上运行的配置单元服务器。它会超时 - 就像您尝试从非白名单的IP访问节点一样...

有没有办法杀死hive作业而不会杀死AWS EMR集群

我使用AWS EMR集群来运行HIVE查询。对于查询优化的目的,有时我需要杀死一个长时间运行的步骤,但保持EMR集群的生...

spark s3n是否支持端点类似于s3a

我现在有一个端点服务器可以正常工作在spark中的s3a文件系统,我想支持s3n://和s3://

在Amazon EMR中执行Zeppelin笔记本作为重复工作

我正在从Databricks迁移到Amazon EMR,并计划使用Zeppelin笔记本代替Databricks笔记本。...

e-mapreduce EMR

7小时前

如何阻止Spark Structured Streaming填充HDFS

我在AWS EMR上运行了一个Spark Structured Streaming任务,它基本上是在一分钟时间窗口内连...

群集终止但在本地工作

我正在尝试在aws EMR上部署一个spark工作(使用pyspark librairies:ML)。我想创建一个包含...

WS EMR:解析参数时出错:预期:'=',收到:'EOF'表示输入:

我正试图从我的一个内部创建一个集群EC2 instances。键入以下命令以启动我的集群 - aws emr crea...

S3中的压缩数据需要用于EMR或Redshift上的机器学习

我在S3存储中有压缩格式的巨大CSV文件。我只需要数据中的一部分列用于机器学习目的。如何在不传输整个文件的情况下将这些...

使用Airflow dag运行创建EMR群集,一旦任务完成,EMR将被终止

我有Airflow作业,它们在EMR集群上运行良好。我需要的是,假设我有4个气流工作,需要一个EMR集群让我们说20分钟...

集群 e-mapreduce EMR

8小时前

在AWS EMR中启用Spark Web UI

我在EMR集群上提交Spark作业,我希望看到Spark Web UI,它提供有关主节点和工作节点的配置和状态的信息。...

运行emrfs delete时出错 - 元数据“EmrFSMetadata”不存在

我们有stage / prod emr集群,我们可能需要emrfs delete s3_path通过jenkins作业...

为emr上的`spark-submit`作业指定marksweep gc

如何spark-submit在emr上运行作业时指定我希望jvm使用MarkSweep gc ?我可以提交作业(即spa...

如何知道亚马逊emr集群上的mapred-site值?

我遇到了内存问题,所以我查找了参数的默认值,如: mapreduce.map.memory.mbmapreduce.r...

指定Hive插入的最小生成文件数

我在AWS EMR上使用Hive将查询结果插入到按日期分区的Hive表中。虽然每天的总输出大小相似,但生成的文件数量各...

集群 e-mapreduce EMR Hive

9小时前

在CloudFormation中为EMR主节点专用IP地址创建记录

我想知道是否有办法AWS::Route53::RecordSet在CloudFormation配置中声明一个指向同一配...

从Google Cloud Bigtable到AWS EMR(HBase)

如何将HBase表从cloud bigtable导出到AWS EMR? 我知道有一种官方方法可以使用谷歌的数据流运行器...

用filebeat向阿里云的kafka写入数据始终不能连接成功

公司买了阿里云的kafka,代码的方式可以正常连。但是用filebeat向阿里云的kafka写入数据始终不能连接成功。...

来自Spark的S3写入间歇性地失败,错误代码为404 NoSuchKey

我每隔5分钟写入s3的spark作业(EMR),每天都会写几次,但有以下异常。知道是什么原因引起的吗? 码: ds.w...

在单个EMR群集中调用多个spark作业

我想在单个EMR集群中使用spark-submit调用多个spark作业。EMR支持这个吗?怎么做到这一点?此时我使用A...

集群 spark e-mapreduce EMR

11小时前