Cloudera Manager简介

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: Hadoop家族 整个Hadoop家族由以下几个子项目组成: Hadoop Common: Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。 HDFS: 是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNo
logo.jpg

Hadoop家族

整个Hadoop家族由以下几个子项目组成:

Hadoop Common:

Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。

HDFS:

是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。

MapReduce:

是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。

Hive:

Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。hive类似CloudBase,基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据 的汇总,即席查询简单化。

Pig:

Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin,开发的初衷是易于编程和保证可扩展性。

Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。

HBase:

Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。

ZooKeeper:

Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

Avro:

Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。

Sqoop:

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。

Mahout:

Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:

推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。

聚集:收集文件并进行相关文件分组。

分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。

频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。

Cassandra:

Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(column indexe)。

Chukwa:

Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。

Ambari:

Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

HCatalog

Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,它包括:

提供一个共享模式和数据类型机制。

提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。

为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。

Chukwa:

Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。

Cloudera Manager功能

cloudera manager有四大功能:

(1)管理:对集群进行管理,如添加、删除节点等操作。

(2)监控:监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控。

(3)诊断:对集群出现的问题进行诊断,对出现的问题给出建议解决方案。

(4)集成:对hadoop的多组件进行整合。

示例,管理4集群:

xhosts.png.pagespeed.ic.ZMT1OQCVid.png

管理的服务包括:

host.png

Cloudera Manager架构

cloudera manager的核心是管理服务器,该服务器承载管理控制台的Web服务器和应用程序逻辑,并负责安装软件,配置,启动和停止服务,以及管理上的服务运行群集。

cm_arch.png

Cloudera Manager Server由以下几个部分组成:

Agent:安装在每台主机上。该代理负责启动和停止的过程,拆包配置,触发装置和监控主机。

Management Service:由一组执行各种监控,警报和报告功能角色的服务。

Database:存储配置和监视信息。通常情况下,多个逻辑数据库在一个或多个数据库服务器上运行。例如,Cloudera的管理服务器和监控角色使用不同的逻辑数据库。

Cloudera Repository:软件由Cloudera 管理分布存储库。

Clients:是用于与服务器进行交互的接口:

              Admin Console - 基于Web的用户界面与管理员管理集群和Cloudera管理。

              API - 与开发人员创建自定义的Cloudera Manager应用程序的API。



相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
目录
相关文章
|
9月前
|
数据可视化 Go API
安装Grafana并使用Cloudera Manager DataSource
安装Grafana并使用Cloudera Manager DataSource
168 1
|
存储 SQL 分布式计算
Cloudera Manager 术语和架构
本文介绍了Cloudera Manager 的常见术语和架构
Cloudera Manager 术语和架构
|
2天前
|
存储 监控 网络安全
Doris Manager 24.0 版本正式发布!
Doris Manager 24.0,SelectDB 的 Apache Doris 集群管理工具,迎来重大更新,包括管控模式升级至安全的 Agent 模式、新增任务审计、主机监控、计算节点部署支持等。此版本已获上千企业用户认可。新特性如 Agent 与 Server 间的 HTTP 通信,提升安全性;任务审计记录操作详情;监控模块扩展主机指标;集群巡检支持定时检查。此外,Doris Manager 提供了集群部署、扩缩容、升级、参数配置、日志查看、告警和审计等一系列高效管理功能。体验新版本,请参考安装和使用手册。
Doris Manager 24.0 版本正式发布!
|
消息中间件 SQL 分布式计算
Cloudera Enterprise 6.0发布【集成Hadoop3.0】
Cloudera Enterprise 6.0发布【集成Hadoop3.0】
95 0
|
SQL 分布式计算 关系型数据库
Cloudera Manager环境搭建【二】
默认的方式下linux会把文件访问的时间atime做记录,文件系统在文件被访问、创建、修改等的时候记录下了文件的一些时间戳,比如:文件创建时间、最近一次修改时间和最近一次访问时间;这在绝大部分的场合都是没有必要的。
266 0
Cloudera Manager环境搭建【二】
|
SQL 分布式数据库 HIVE
ambari发布新服务(HDP自带的服务)流程简介
ambari发布新服务(HDP自带的服务)流程简介
118 0
ambari发布新服务(HDP自带的服务)流程简介
Cloudera Manager 进程管理
本文主要介绍了使用 Cloudera Manager 启动和停止进程。
Cloudera Manager 进程管理
|
存储 SQL 资源调度
Cloudera Manager主机管理
Cloudera Manager 提供了多种功能来管理集群中的主机
Cloudera Manager主机管理
|
SQL 资源调度 分布式计算
Cloudera Manager 管理控制台
Cloudera Manager 管理控制台是基于 Web 的界面,可用于配置、管理和监控 Cloudera Runtime。
Cloudera Manager 管理控制台
|
关系型数据库 MySQL API
Cloudera Edge Manager简述
一.Description CDF(Cloudera DataFlow)源自HDF(Hortonworks DataFlow),HDF是一个可缩放的实时流分析平台,它可以提取、组织和分析数据,以获得关键洞察和即时的可操作情报。
2082 0