开发者社区> 问答> 正文

大佬们,请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的?

大佬们,请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的?

展开
收起
社区小助手 2019-03-28 14:29:58 2896 0
1 条回答
写回答
取消 提交回答
  • 简单一致性模型 大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题和并使高吞吐量的数据访问变得可能。一个Map-Reduce程序或者网络爬虫程序都可以完美地适合这个模型。 移动计算比移动数据更经济 在靠近计算数据所存储的位置来进行计算是最理想的状态,尤其是在数据集特别巨大的时候。这样消除了网络的拥堵,提高了系统的整体吞吐量。一个假定就是迁移计算到离数据更近的位置比将数据移动到程序运行更近的位置要更好。HDFS提供了接口,来让程序将自己移动到离数据存储更近的位置。 异构软硬件平台间的可移植性 HDFS被设计成可以简便地实现平台间的迁移,这将推动需要大数据集的应用更广泛地采用HDFS作为平台。

    答案来源于网络

    2019-09-27 19:45:02
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
海量数据分布式存储——Apache HDFS之最新进展 立即下载
HBase中的事务 立即下载
Apache Flink 流式应用中状态的数据结构定义升级 立即下载