Spark安装及启动

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: Spark安装及启动

1 Spark环境安装

scala语言编写,提供多种语言接口,需要JVM。官方为我们提供了Spark 编译好的版本,可以不必进行手动编译。

Spark安装不难,配置需要注意,并且不一定需要Hadoop环境。

下载

解压

 tar zxvf spark-2.4.1-bin-hadoop2.7.tgz

2 Spark配置

  • 配置前尽量先阅读官方文档,避免直接从网上找配置教程
  • 要为节点设置好使用的内存,否则可能导致节点利用率低
  • 注意spark中IP与端口号配置,以免UnknownHostException

[官网配置]()

应用默认配置

配置文件

复制两份模板,开启自行配置:

单机环境配置

本地IP:

shell验证

 bin/spark-shell

jps验证

 75617 Master
 79700 Jps
 75684 Worker

4 实战Wordcount

4.1 Wordcount简介

◆ Wordcount 词频统计,是大数据分析中最为基础的一种任务 英文分词较容易,直接分割空格即可。

◆ 实现思路 首先将文件中所有的单词提取出来,然后合并相同单词

  • 实现示意图

项目搭建

  • 添加spark jar包
  • 全选jar包,先左键选中第一个,再拉到最后shift,再左键最后一个实现全选.
  • 新建类
  • 测试文件
 `pwd`/`ls |grep L`

  • 编写函数
  • 运行成功
  • 打包

移除这些多余的jar包

  • 构建

将jar包放到spark/bin目录下 使用 Spark-submit 运行

WebUI

目录
相关文章
|
14天前
|
分布式计算 Hadoop 大数据
安装Spark
安装Spark
23 0
|
23天前
|
机器学习/深度学习 数据采集 数据处理
构建高效机器学习模型的策略与实践
【2月更文挑战第14天】 在数据驱动的时代,机器学习已成为智能系统的核心。本文将探讨构建高效机器学习模型的关键技术要素,包括数据预处理、特征工程、模型选择和调参策略等。通过实例分析,我们将展示如何优化模型性能,减少过拟合风险,并提高泛化能力。文章旨在为开发者提供实用的技术指导,帮助他们在实际项目中实现机器学习模型的高效构建与应用。
|
14天前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的策略与实践
【2月更文挑战第23天】 在数据科学领域,构建一个高效的机器学习模型是至关重要的。本文旨在探讨并提出一系列策略和最佳实践,以指导读者如何从数据处理到模型部署的各个阶段优化其机器学习项目。我们将重点讨论特征工程、算法选择、超参数调整以及模型评估等关键环节,并通过案例分析展示如何应对常见的挑战和误区。文章的目的是为从业者提供实用的指南,帮助他们构建出既准确又高效的机器学习系统。
|
2月前
|
机器学习/深度学习 算法 TensorFlow
实战技术:如何使用Python进行机器学习建模
实战技术:如何使用Python进行机器学习建模
34 1
|
4天前
|
机器学习/深度学习 前端开发 算法
利用机器学习优化Web前端性能的探索与实践
本文将介绍如何利用机器学习技术来优化Web前端性能,探讨机器学习在前端开发中的应用,以及通过实际案例展示机器学习算法对前端性能优化的效果。通过结合前端技术和机器学习,提升Web应用的用户体验和性能表现。
|
11天前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的策略与实践
【2月更文挑战第26天】 在当今数据驱动的时代,构建高效的机器学习模型已经成为了企业获取竞争优势的关键。本文将探讨一系列实用的策略和技术,旨在指导读者如何从数据准备到模型部署的全过程中优化其机器学习项目。我们将重点讨论特征工程的重要性、超参数调优的技巧、以及模型评估和验证的最佳实践。通过这些方法的应用,读者可以提升模型的性能,确保在现实世界的复杂问题中达到更高的准确率和泛化能力。
|
12天前
|
机器学习/深度学习 算法 数据处理
构建高效机器学习模型的策略与实践
【2月更文挑战第25天】本文旨在探讨如何通过一系列策略性步骤来构建一个高效的机器学习模型。我们将从数据处理的重要性讲起,接着讨论特征选择的艺术以及模型训练的技巧。文章将提供实用的建议,并通过案例分析展示如何在实践中应用这些策略,以期帮助数据科学家和开发者提高他们的模型性能。
|
14天前
|
分布式计算 Ubuntu Java
Spark环境搭建与使用
Spark环境搭建与使用
26 0
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从基础概念到应用实践
探索机器学习:从基础概念到应用实践
12 0
|
16天前
|
存储 分布式计算 Spark
实战|使用Spark Streaming写入Hudi
实战|使用Spark Streaming写入Hudi
23 0

相关产品

  • 云消息队列 MQ
  • 云消息队列 Kafka 版
  • 微服务引擎