阿里云ECS构建大数据平台实践-基于Apache Hadoop

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云防火墙,500元 1000GB
简介: 基于阿里云ECS云服务器进行搭建私有的大数据平台,采用Apache Hadoop生态,为大数据提供存储及处理。

0. 项目背景

基于阿里云ECS云服务器进行搭建私有的大数据平台,采用Apache Hadoop生态,为大数据提供存储及处理。


1. 购买ECS云服务器实例

在这里,因为实验需要3个节点,所以我们购买3台ECS实例。


b7a8ceb2e5d2009acfcc93352262ab22084eed9c
8e8e45292577f6ddbdc43c6a4a11a54b899692fd

2. 远程登录服务器,进行基础环境的配置。

# 工欲善其事,必先利其器

# 前提准备


# 安装系统命令

yum -y install wget vim ntpdate net-tools ntpdate


2.1 节点信息

172.18.53.98 master

172.18.53.99 slave1

172.18.53.100 slave2


2.2 修改主机名,每一个节点都需要修改。

76b34f7540a6724f100d02d7ede036d2931c1116

2.3 配置主机文件(每一个节点都需要执行)

vi /etc/hosts
172.18.53.98 master
172.18.53.99 slave1
172.18.53.100 slave2
AI 代码解读

f8b35d502324f21f724b2d5f92a5dcca244e8fa8

2.4 系统防火墙和内核防火墙配置(每一个节点都需要执行)

# 临时关闭内核防火墙

setenforce 0
AI 代码解读

# 永久关闭内核防火墙

vi /etc/selinux/config
SELINUX=disabled
AI 代码解读

0bd06bcd70b17d1ae79cc6019b69e6b5f1ee2c4f

# 临时关闭系统防火墙

systemctl stop firewalld.service

# 永久关闭内核防火墙

systemctl disable firewalld.service
6a67f26ade4ee32271cb584c7993fdd686fdedea

2.5 SSH互信配置

ssh-keygen -t rsa
AI 代码解读

# 三次回车生成密钥(每一个节点都需要执行)

0a8a8e3d25000ba0f5962c89c980f2640d5c2cd0

# 生成公钥(主节点执行)

cat /root/.ssh/id_rsa.pub > /root/.ssh/authorized_keys
chmod 600 /root/.ssh/authorized_keys
AI 代码解读

# 复制其他节点的公钥(主节点执行)

ssh slave1 cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys
ssh slave2 cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys
AI 代码解读

b33b0d10d8ea8c1303e8672658448175e67e4503

# 复制公钥到其他节点(主节点执行)

scp /root/.ssh/authorized_keys root@slave1:/root/.ssh/authorized_keys
scp /root/.ssh/authorized_keys root@slave2:/root/.ssh/authorized_keys
AI 代码解读

22bff3ea90a8ea757d0e874ee6129f0231240b5c

# 免密SSH测试

ssh slave1 ip addr
ssh slave2 ip addr
AI 代码解读

de27e8025cb95a66288266c023a563d2dd6ae396

到这一步,我们已经搞定了基础环境的配置,主要是针对时间、主机名、防火墙等服务进行配置。

3. JDK环境的安装

cd /usr/local/src
tar zxvf jdk-8u191-linux-x64.tar.gz
AI 代码解读

# 配置环境变量,在配置最后加入

vim /etc/profile
JAVA_HOME=/usr/local/src/jdk1.8.0_191
JAVA_BIN=/usr/local/src/jdk1.8.0_191/bin
JRE_HOME=/usr/local/src/jdk1.8.0_191/jre
CLASSPATH=/usr/local/src/jdk1.8.0_191/jre/lib:/usr/local/src/jdk1.8.0_191/lib:/usr/local/src/jdk1.8.0_191/jre/lib/charsets.jar
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
AI 代码解读

785594ae752e34aff7a41f4ec7664a760a9e488a

# 复制环境变量到其他节点

scp /etc/profile root@slave1:/etc/profile
scp /etc/profile root@slave2:/etc/profile
AI 代码解读


# 复制JDK包到其他节点

scp -r /usr/local/src/jdk1.8.0_191 root@slave1:/usr/local/src/jdk1.8.0_191
scp -r /usr/local/src/jdk1.8.0_191 root@slave2:/usr/local/src/jdk1.8.0_191
AI 代码解读

# 重新加载环境变量

source /etc/profile
AI 代码解读


# 测试环境是否配置成功

java -version
AI 代码解读
fbc5393be321d6d20de5a4ead138f8b4d2a7704a


到这一步,我们已经安装和配置了JAVA运行环境,因为Hadoop是Java开发的,所以我们必须需要在JAVA环境上运行Hadoop。


5. Hadoop环境安装

# 解压Hadoop包

cd /usr/local/src
tar zxvf hadoop-2.6.5.tar.gz 
AI 代码解读

# 修改配置文件 在第24行添加Java的环境变量

cd hadoop-2.6.5/etc/hadoop/
vim hadoop-env.sh
export JAVA_HOME=/usr/local/src/jdk1.8.0_191
AI 代码解读

b82c2983e9658bf8e428eba4c242f3cda3dc8186


# 修改配置文件 在第24行添加Java的环境变量

vim yarn-env.sh
export JAVA_HOME=/usr/local/src/jdk1.8.0_191
AI 代码解读

350fa25cdcdfcb839904f2f4b996ad61ac1e6d51

# 修改配置文件 添加从节点主机名

vim slaves
slave1
slave2
AI 代码解读

b5ddc8f0c907306906c0198a5565140c8c101bbe


# 修改配置文件 添加RPC配置

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://172.18.53.98:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/src/hadoop-2.6.5/tmp</value>
        </property>
</configuration>
AI 代码解读
10523bb35a494960438c830c5ef75d7448709623

# 修改配置文件 添加DFS配置

<configuration>
	<property>
		<name>dfs.namenode.secondary.http-address</name>
		<value>master:9001</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:/usr/local/src/hadoop-2.6.5/dfs/name</value>
	</property>
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:/usr/local/src/hadoop-2.6.5/dfs/data</value>
	</property>
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
</configuration>
AI 代码解读

7cae093069e35623b24e93b854750865518a0407


# 修改配置文件 添加MR配置

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>
AI 代码解读

ec30bd722f21d88c36c06352074f6c8f3506cd51

# 修改配置文件 添加资源管理配置

<configuration>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
		<value>org.apache.hadoop.mapred.ShuffleHandler</value>
	</property>
	<property>
		<name>yarn.resourcemanager.address</name>
		<value>master:8032</value>
	</property>
	<property>
		<name>yarn.resourcemanager.scheduler.address</name>
		<value>master:8030</value>
	</property>
	<property>
		<name>yarn.resourcemanager.resource-tracker.address</name>
		<value>master:8035</value>
	</property>
	<property>
		<name>yarn.resourcemanager.admin.address</name>
		<value>master:8033</value>
	</property>
	<property>
		<name>yarn.resourcemanager.webapp.address</name>
		<value>master:8088</value>
	</property>
</configuration>
AI 代码解读


2503a66a7b79f85ef4d64e8634116fb5ed4edfae


# 创建临时目录和文件目录

mkdir /usr/local/src/hadoop-2.6.5/tmp
mkdir -p /usr/local/src/hadoop-2.6.5/dfs/name
mkdir -p /usr/local/src/hadoop-2.6.5/dfs/data
AI 代码解读


# 配置环境变量,在配置最后加入

vim /etc/profile
HADOOP_HOME=/usr/local/src/hadoop-2.6.5
export PATH=$PATH:$HADOOP_HOME/bin
AI 代码解读

# 复制环境变量到从节点

scp /etc/profile root@slave1:/etc/profile
scp /etc/profile root@slave2:/etc/profile
AI 代码解读

# 复制Hadoop包到从节点
scp -r /usr/local/src/hadoop-2.6.5 root@slave1:/usr/local/src/hadoop-2.6.5
scp -r /usr/local/src/hadoop-2.6.5 root@slave2:/usr/local/src/hadoop-2.6.5
AI 代码解读

# 重新加载环境变量
source /etc/profile
AI 代码解读

# 格式化Namenode
hadoop namenode -format
AI 代码解读
a98d62aa03aa08cac44a97b1af08c4eba3a9d743

# 提示下列内容即是成功完成格式化

common.Storage: Storage directory /usr/local/src/hadoop-2.6.5/dfs/name has been successfully formatted


# 启动集群

/usr/local/src/hadoop-2.6.5/sbin/start-all.sh
AI 代码解读

f6a9aac788bfba042e6be6d7f5d67dd8555633b5

# 查看服务进程

# Master: ResourceManager - Namenode - SecondaryNameNode

07828e3b12e13c695067d6cfc6e859aa77c3908c

# Slave: NodeManager - DataNode

6f1053e700be4383ec2cfd163651a140dec5a48b 4b97077a70101fd1b61f9f3517bb301d4249395e

# 网页控制台 (需要修改本地hosts文件 添加主机记录)

# Windows C:\Windows\System32\drivers\etc

# Linux /etc/hosts

# Mac /etc/hosts

63d9041dd9066570fb8ea21602bd818bfef61aa7

# Yarn管理界面

# 浏览器访问 http://master:8088/cluster

9b669ee322924b569784877931b708833f10a4af

# HDFS管理界面

# 浏览器访问 http://master:50070

93cfed35e8888d99197423ba7e8c921a49dbdccd




目录
相关文章
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
川航选择引入 SelectDB 建设湖仓一体大数据分析引擎,取得了数据导入效率提升 3-6 倍,查询分析性能提升 10-18 倍、实时性提升至 5 秒内等收益。
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
中国联通网络资源湖仓一体应用实践
本文分享了中国联通技术专家李晓昱在Flink Forward Asia 2024上的演讲,介绍如何借助Flink+Paimon湖仓一体架构解决传统数仓处理百亿级数据的瓶颈。内容涵盖网络资源中心概况、现有挑战、新架构设计及实施效果。新方案实现了数据一致性100%,同步延迟从3小时降至3分钟,存储成本降低50%,为通信行业提供了高效的数据管理范例。未来将深化流式数仓与智能运维融合,推动数字化升级。
中国联通网络资源湖仓一体应用实践
用 Go 语言轻松构建 MCP 客户端与服务器
本文介绍了如何使用 mcp-go 构建一个完整的 MCP 应用,包括服务端和客户端两部分。 - 服务端支持注册工具(Tool)、资源(Resource)和提示词(Prompt),并可通过 stdio 或 sse 模式对外提供服务; - 客户端通过 stdio 连接服务器,支持初始化、列出服务内容、调用远程工具等操作。
231 3
天翼云:Apache Doris + Iceberg 超大规模湖仓一体实践
天翼云基于 Apache Doris 成功落地项目已超 20 个,整体集群规模超 50 套,部署节点超 3000 个,存储容量超 15PB
天翼云:Apache Doris + Iceberg 超大规模湖仓一体实践
vivo基于Paimon的湖仓一体落地实践
本文整理自vivo互联网大数据专家徐昱在Flink Forward Asia 2024的分享,基于实际案例探讨了构建现代化数据湖仓的关键决策和技术实践。内容涵盖组件选型、架构设计、离线加速、流批链路统一、消息组件替代、样本拼接、查询提速、元数据监控、数据迁移及未来展望等方面。通过这些探索,展示了如何优化性能、降低成本并提升数据处理效率,为相关领域提供了宝贵的经验和参考。
528 3
vivo基于Paimon的湖仓一体落地实践
StarRocks 在爱奇艺大数据场景的实践
本文介绍了爱奇艺大数据OLAP服务负责人林豪在StarRocks年度峰会上的分享,重点讲述了爱奇艺OLAP引擎的演进及引入StarRocks后的显著效果。在广告业务中,StarRocks替换Impala+Kudu后,接口性能提升400%,P90查询延迟缩短4.6倍;在“魔镜”数据分析平台中,StarRocks替代Spark达67%,P50查询速度提升33倍,P90提升15倍,节省4.6个人天。未来,爱奇艺计划进一步优化存算一体和存算分离架构,提升整体数据处理效率。
StarRocks 在爱奇艺大数据场景的实践
阿里云经济型e实例云服务器评测:企业官网搭建的性价比之选
阿里云服务器经济型e实例可以用来搭建企业网站吗?云服务器作为搭建企业官网的基础设施,其性能、稳定性、成本等因素直接影响着官网的运营效果。阿里云经济型e实例云服务器作为一款性价比较高的产品,备受用户关注。许多企业在选择云服务器搭建官网时,都会将其纳入考虑范围。本文将详细探讨阿里云经济型e实例云服务器的特点、性能表现、稳定性与可靠性,以及成本考量,最终解答是否适合用它来搭建企业官网。
阿里云特惠云服务器99元与199元配置与性能和适用场景解析:高性价比之选
2025年,阿里云长效特惠活动继续推出两款极具吸引力的特惠云服务器套餐:99元1年的经济型e实例2核2G云服务器和199元1年的通用算力型u1实例2核4G云服务器。这两款云服务器不仅价格亲民,而且性能稳定可靠,为入门级用户和普通企业级用户提供了理想的选择。本文将对这两款云服务器进行深度剖析,包括配置介绍、实例规格、使用场景、性能表现以及购买策略等方面,帮助用户更好地了解这两款云服务器,以供参考和选择。
DeepSeek服务器繁忙解决方法:使用阿里云一键部署DeepSeek个人网站!
通过阿里云一键部署DeepSeek个人网站,解决服务器繁忙问题。学生用户可领取300元代金券实现0成本部署,普通用户则可用99元/年的服务器。教程涵盖从选择套餐、设置密码到获取百炼API-KEY的全流程,助您快速搭建专属大模型主页,体验DeepSeek、Qwen-max、Llama等多款模型,无需代码,最快5分钟完成部署。支持绑定个人域名,共享亲友使用,日均成本仅约1元。
157 10

推荐镜像

更多
下一篇
oss创建bucket
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等