开发者社区> 问答> 正文

pyspark是否可以从S3中的表读取,处理数据然后保存在同一个文件夹中?

我想要做的是整合s3上文件夹中的一些数据,并将数据(统一)保存在同一目录中。可能吗 ?

我已经尝试过:

DF1.write.mode("overwrite").format("parquet").partitionBy("month").save("s3://path/db/table/")
但它似乎在可以读取和合并之前清除目录。

展开
收起
社区小助手 2018-12-19 17:02:03 2514 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    您可以使用各种不同的模式来保存数据,例如追加:附加数据,覆盖:覆盖数据等等。

    你可以在这里找到有关pyspark模式的更多信息:

    https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.save

    但是,如果上面的信息没有用,那么如果您还可以详细说明“统一”数据的含义是什么,可能会有所帮助。

    2019-07-17 23:23:04
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
HBase2.0重新定义小对象实时存取 立即下载
《Apache Flink-重新定义计算》PDF下载 立即下载
低代码开发师(初级)实战教程 立即下载