开发者社区> 问答> 正文

基于Spark的处理存储在SSD上的数据

基于Spark的处理存储在SSD上的数据
我们目前正在使用基于Spark 2.1的应用程序,该应用程序分析和处理大量记录以生成用于报告生成的一些统计数据。现在我们正在使用150个执行器,每个执行器2个核心和每个执行器10 GB用于我们的spark作业,数据大小约为3TB,以parquet 格式存储。处理12个月的数据需要大约15分钟的时间。

现在为了提高性能,我们希望尝试基于SSD的完整节点将数据存储在HDFS中。那么问题是,是否有任何特殊的配置/优化要做SSD?基于SSD的HDFS与基于HDD的HDFS的Spark处理性能是否有任何研究?

展开
收起
社区小助手 2018-12-19 15:54:29 1863 0
1 条回答
写回答
取消 提交回答
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载