spark大数据处理-spark读取hive数据-数据处理-手机站-阿里云

spark大数据处理

阿里云 > 云栖社区> 主题地图> S> spark大数据处理

spark大数据处理相关的博客

《Spark大数据处理》—— 读后总结

前几章工作机制本文转自博客园xingoo的博客，原文链接：《Spark大数据处理》—— 读后总结，如需转载请自行联系原博主。

青夜之衫 7年前 1007

Spark大数据处理系列之Machine Learning

本文是《Spark大数据处理》系列的第四篇，其他三篇：Spark介绍、 Saprk SQL和 Spark Streaming 。最近几年，机器学习、预测分析和数据科学主题得到了广泛的关注。Spark的机器学习库（Spark MLlib），包括各种机器学习算法

沉默术士 7年前 1485

《Spark大数据处理：技术、应用与性能优化》——第1章 Spark　简　介1.1　Spark是什么

本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第1章，第1.1节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。第1章 Spark　简　介本章主要介绍Spark大数据计算框架、架构、计算模型和数据管理策

华章计算机 7年前 1705

《Spark大数据处理：技术、应用与性能优化》——1.5　Spark的企业级应用

本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第1章，第1.5节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.5　Spark的企业级应用随着企业数据量的增长，对大数据的处理和分析已经成为企业的迫切

华章计算机 7年前 3222

《Spark大数据处理：技术、应用与性能优化》——1.6　本章小结

本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第1章，第1.6节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.6　本章小结本章首先介绍了Spark分布式计算平台和BDAS。BDAS的核心框架Spa

华章计算机 7年前 859

《Spark大数据处理：技术、应用与性能优化》——1.2　Spark生态系统BDAS

本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第1章，第1.2节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.2　Spark生态系统BDAS 目前，Spark已经发展成为包含众多子项目的大数据计算平

华章计算机 7年前 1705

《Spark大数据处理：技术、应用与性能优化》——2.3　本章小结

本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第2章，第2.3节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3　本章小结本章主要介绍了如何在Linux和Windows环境下安装部署Spark集群

华章计算机 7年前 890

《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1　Spark程序模型

本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第3章，第3.1节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。第3章 Spark计算模型创新都是站在巨人的肩膀上产生的，在大数据领域也不例外。微软的Dr

华章计算机 7年前 1231

spark大数据处理相关的问答

使用Apache Spark时如何处理数据库的背压？

我们使用Apache Spark每2个小时执行一次ETL。有时，Spark在执行读/写操作时会对数据库施加很大压力。对于Spark Streaming，我可以backpressure在kafka上看到配置。有没有办法在批处理中处理这个问

社区小助手 6年前 377

基于Spark的处理存储在SSD上的数据

基于Spark的处理存储在SSD上的数据我们目前正在使用基于Spark 2.1的应用程序，该应用程序分析和处理大量记录以生成用于报告生成的一些统计数据。现在我们正在使用150个执行器，每个执行器2个核心和每个执行器10 GB用于我们的spark作业，数据大

社区小助手 6年前 332

（Spark结构化流媒体）如何处理kafka主题中的旧数据

我开始使用spark结构化流媒体。我通过waterMark从kafka主题（startOffset：latest）获取readStream，按窗口持续时间分组事件时间，并写入kafka主题。我的问题是，如何在spark结构化流媒体作业之前处理写

社区小助手 6年前 303

当Spark在S3上读取大数据集时，在“停机时间”期间发生了什么？

我在AWS S3中有一堆JSON数据 - 让我们说100k文件，每个大约5MB - 我正在使用Spark 2.2 DataFrameReader来读取和处理它们： sparkSession.read.json(...) 我发现Spark在开始计算之

社区小助手 6年前 303

spark消费kafka 从kafka拉取数据部分Task特变慢

项目中使用了sparkStreaming去消费kafka中的数据。发现了个问题，kafka一共30个分区，会起30个Task去拉取数据。在某些消费批次中会有个别Task从Kafka分区中拉取数据特别慢比别的Task慢了近10倍。直接拖慢了整个处理时

游客tpv44ii4se2r4 5年前 65

spark streaming对接kafka，出现延迟，如何处理？

请问spark streaming对接kafka，出现三个批次的延迟，这个在程序中可以判断吗？应该调用哪个接口

hbase小助手 6年前 978

Spark在创建数据集时无法反序列化记录

我正在从S3读取大量的CSV（一切都在一个键前缀下）并创建一个强类型的Dataset。 val events: DataFrame = cdcFs.getStream() events .withColumn("event", lit("I"))

社区小助手 6年前 367

2018spark技术问答集锦，希望能给喜欢spark的同学一些帮助

小编发现问答专区中有很多人在问关于spark的问题，小编把这些问题汇总一下，希望能给喜欢spark的大家一些启示和帮助本帖不定期更新，喜欢的可以收藏哦 **如何在Apache Beam中实现类似Spark的zipWithIndex？** htt

技术小能手 5年前 466

相关主题

spark读取hive数据数据处理大数据处理培训大数据量处理大数据处理公司大数据处理方法大数据处理技术数据库处理数据处理分析数据分析处理数据分析处理处理海量数据数据图像处理数据图像处理数据预处理 hadoop 大数据处理搭建Spark 学习Spark 大数据处理技术培训物联网大数据处理 RDS 处理大数据量 RDS 大数据量处理 mysql数据处理数据库处理软件数据分析与处理物联网数据处理物联网数据处理数据处理和存储系统大数据分析与处理 hadoop海量数据处理大数据处理与分析 RDS 大数据量的处理 spark是什么意思 spark云主机 spark 交互式查询 spark sql交互式查询并发处理屏蔽处理视频处理在线处理违章 android 4.0 网络编程详解 win2008网络防火墙 $.post请求网络接口开源中国证书 php捕获数据库连接异常 oracle数据库多表查询 oracle杀存储过程的进程网站最小字体电脑网络连接断开校园网网络连接没有网络