开发者社区> 问答> 正文

在EMR中添加S3同步步骤

执行完所有步骤后,我想执行最后一步将S3数据复制到另一个存储桶。

我没有找到任何支持的运行shell命令的脚本

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-commandrunner.html

支持s3-dist-cp,如果允许我覆盖目标目录数据,我可以使用它。

我需要这样的东西:

{
action_on_failure = "CONTINUE"
name = "copy s3 data"
hadoop_jar_step = [{

 args    = ["bash" , "  aws s3 sync s3://bucket1/data s3://bucket2/data"]
 jar = "command-runner.jar"
}]

}

展开
收起
小六码奴 2019-04-23 11:03:52 3080 0
1 条回答
写回答
取消 提交回答
  • 看看这个链接。

    在CLI中,您可以使用此配置位执行以下步骤:

    Type=CUSTOM_JAR,Name="Copy s3 data",ActionOnFailure=CONTINUE,Jar="command-runner.jar",Args=["aws","s3","sync","s3://bucket1/data","s3://bucket2/data"]

    2019-07-17 23:34:02
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
生命密码-基因数据的EMR实践 立即下载
超大规模机器学习在EMR的实践 立即下载
EMR弹性低成本离线大数据分析最佳实践 立即下载