大数据||hadoop分布式集群安装

简介: 集群前先计划虚拟机,看文章大数据||Hadoop分布式部署虚拟机基于伪分布式环境安装进行展开规划机器与服务()HDFS 文件系统YARN “云操作系统”JobHistoryServer 历史服务监控修改配置文件,设置服务运行...

集群前先计划虚拟机,看文章大数据||Hadoop分布式部署虚拟机

  • 基于伪分布式环境安装进行展开
    规划机器与服务()
    HDFS 文件系统
    YARN “云操作系统”
    JobHistoryServer 历史服务监控
  • 修改配置文件,设置服务运行机器节点()
  • 分发HADOOP安装包至各个机器节点
  • 依据官方集群安装文档,分别启动各节点相应服务
  • 测试 HDFS 、YARN、 MapReduce ,Web UI 监控集群()
  • 配置主节点至各从节点 SSH 无密钥登陆
  • 集群基准测试(实际环境必须的,面试题)

系统基本环境配置

规划机器与服务

copy 伪分布模式步骤
image.png
配置hdfs
  • 配置jdk。


  • 配置hdfs的nameNode地址



  • 配置hadoop数据存储目录及垃圾回收时间

创建hadoop数据存储目录 mkdir -p /opt/app/hadoop-2.5.0/data/tmp


  • 配置secondaryNameNode

vi /opt/app/hadoop-2.5.0/etc/hadoop/hdfs-site.xml

  • 配置集群 slaves

vi /opt/app/hadoop-2.5.0/etc/hadoop/slaves


yarn配置
  • yarn的环境变量配置 。

vi /opt/app/hadoop-2.5.0/etc/hadoop/yarn-env.sh


  • resourceManager配置

vi /opt/app/hadoop-2.5.0/etc/hadoop/yarn-site.xml


  • 配置集群slaves

vi /opt/app/hadoop-2.5.0/etc/hadoop/slaves


配置MapReduce
  • mapReduce环境变量

vi /opt/app/hadoop-2.5.0/etc/hadoop/mapred-env.sh


  • 配置jobhistoryserver

vi /opt/app/hadoop-2.5.0/etc/hadoop/mapred-site.xml


分发Hadoop安装包至各个机器节点

  • 首先删除doc文件,此文件夹不需要分发


  • 从主节点(131)到从节点(132,133)无密码登入及测试


ssh-copy-id hadoop-senior02.beifeng.com
ssh-copy-id hadoop-senior03.beifeng.com
说明:ssh-copy-id命令可以把本地主机的公钥复制到远程主机的authorized_keys文件上,ssh-copy-id命令也会给远程主机的用户主目录(home)和~/.ssh, 和~/.ssh/authorized_keys设置合适的权限


  • 分发hadoop安装包到子节点(132,133node节点)

命令scp(ssh copy)
scp -r ./hadoop-2.5.0 root@hadoop-senior02.beifeng.com:/opt/app/
scp -r ./hadoop-2.5.0 root@hadoop-senior03.beifeng.com:/opt/app/

yarn(132)无密码登入

  • 删除复制过来的虚拟机


  • 两个linux机器之间使用ssh不需要用户名和密码

命令:ssh-keygen -t rsa 。

两个linux机器之间使用ssh不需要用户名和密码,采用了数字签名RSA或者DSA来完成这个操作
  • 公钥复制到远程主机的authorized_keys文件上

ssh-copy-id hadoop-senior02.beifeng.com
ssh-copy-id hadoop-senior.beifeng.com
ssh-copy-id hadoop-senior03.beifeng.com


image.png
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
7天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
30 2
|
3月前
|
分布式计算 Ubuntu Hadoop
百度搜索:蓝易云【Ubuntu搭建全分布式Hadoop】
请注意,以上只是概述,并不包含详细的步骤和指令。搭建全分布式Hadoop是一个复杂的过程,需要对Hadoop的架构和配置有深入的理解,并熟悉Linux系统管理。建议在搭建全分布式Hadoop之前,先学习相关知识并查阅官方文档和教程,以确保正确搭建和配置Hadoop集群。
27 0
|
7天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
1天前
|
分布式计算 负载均衡 Hadoop
Hadoop集群节点添加
Hadoop集群节点添加
|
5天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
31 9
|
6天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
【4月更文挑战第4天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
19 4
|
9天前
|
存储 分布式计算 Hadoop
【Hadoop】Hadoop的三种集群模式
【4月更文挑战第9天】【Hadoop】Hadoop的三种集群模式
|
9天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
40 1
|
10天前
|
分布式计算 Hadoop Java
centos 部署Hadoop-3.0-高性能集群(一)安装
centos 部署Hadoop-3.0-高性能集群(一)安装
12 0
|
26天前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
20 1
大数据Hadoop生态圈体系视频课程

热门文章

最新文章