Fusion Insight大数据平台介绍

简介: 1. 概述 华为Fusion Insight是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力。Fusion Insight在Hadoop集群上又封装了一层,类似于开源的CDH,HDP等大数据平台。

1. 概述

华为Fusion Insight是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力。Fusion Insight在Hadoop集群上又封装了一层,类似于开源的CDH,HDP等大数据平台。

2. Fusion Insight框架介绍

这里写图片描述
Fusion Insight 组成结构图

Fusion Insight解决方案由4个子产品Fusion Insight HD、Fusion Insight MPPDB、Fusion Insight Miner、Fusion Insight Farmer和1个操作运维系统Fusion Insight Manager构成。
Fusion Insight HD:企业级的大数据处理环境,是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。
Fusion Insight MPPDB:企业级的大规模并行处理关系型数据库。Fusion Insight MPPDB采用MPP(Massive Parallel Processing)架构,支持行存储和列存储,提供PB(Petabyte,2的50次方字节)级别数据量的处理能力。
Fusion Insight Miner:企业级的数据分析平台,基于华为Fusion Insight HD的分布式存储和并行计算技术,提供从海量数据中挖掘出价值信息的平台。
Fusion Insight Farmer:企业级的大数据应用容器,为企业业务提供统一开发、运行和管理的平台。
Fusion Insight Manager:企业级大数据的操作运维系统,提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等功能。
这次华为搭建的平台,可以描述为Fusion Insight HD,其他的子产品后续需要使用的话,需要另外搭建。

3. Fusion Insight HD架构概述

这里写图片描述
Fusion Insight HD系统逻辑架构图

FusionInsight HD对开源组件进行封装和增强,包含Manager和众多组件,分别提供功能如下:

  • Manager

作为运维系统,为Fusion Insight HD提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等。

  • Hue

提供了Fusion Insight HD应用的图形化用户Web界面。Hue支持展示多种组件,目前支持HDFS、YARN、Hive和Solr。
Loader
实现Fusion Insight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具;同时提供REST API接口,供第三方调度平台调用。

  • Flume

一个分布式、可靠和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写入各种数据接受方(可定制)的能力。

  • FTP-Server

通过通用的FTP客户端、传输协议提供对HDFS文件系统进行基本的操作,例如:文件上传、文件下载、目录查看、目录创建、目录删除、文件权限修改等。

  • Hive

建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。

  • MapReduce

提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。

  • Streaming

提供分布式、高性能、高可靠、容错的实时计算平台,可以为海量数据提供实时处理。CQL(Continuous Query Language)提供的类SQL流处理语言,可以快速进行业务开发,缩短业务上线时间。

  • Spark

基于内存进行计算的分布式计算框架。

  • Solr

一个高性能,基于Lucene的全文检索服务器。Solr对Lucene进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文检索引擎。

  • Oozie

提供了对开源Hadoop组件的任务编排、执行的功能。以Java Web应用程序的形式运行在Java servlet容器(如:Tomcat)中,并使用数据库来存储工作流定义、当前运行的工作流实例(含实例的状态和变量)。

  • Redis

一个开源的、高性能的key-value分布式存储数据库,支持丰富的数据类型,弥补了memcached这类key-value存储的不足,满足实时的高并发需求。

  • Kafka

一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、低延迟、高可靠的消息分发服务。

  • YARN

资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。

  • HDFS

Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。

  • SmallFS

提供小文件后台合并功能,能够自动发现系统中的小文件(通过文件大小阈值判断),在闲时进行合并,并把元数据存储到本地的LevelDB中,来降低NameNode压力,同时提供新的FileSystem接口,让用户能够透明的对这些小文件进行访问。

  • DBService

一个具备高可靠性的传统关系型数据库,为Hive、Hue、Spark组件提供元数据存储服务。

  • HBase

提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。

  • ZooKeeper

提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
存储 关系型数据库 大数据
Hologres是阿里云自研的HSAP(Hybrid Serving/Analytical Processing)服务/分析一体化系统
Hologres是阿里云自研的HSAP(Hybrid Serving/Analytical Processing)服务/分析一体化系统
190 2
|
5月前
|
SQL 消息中间件 存储
TuGraph Analytics动态插件:快速集成大数据生态系统
插件机制为GeaFlow任务提供了外部数据源的集成能力扩展,GeaFlow支持从各类Connector中读写数据,GeaFlow将它们都识别为外部表,并将元数据存储在Catalog中。GeaFlow已有一些内置的插件,例如FileConnector,KafkaConnector,JDBCConnector,HiveConnector等。
|
存储 缓存 并行计算
Electronic Design Automation (EDA) 数据上云解决方案
基于文件存储 CPFS 的 EDA 解决方案可大大加速 EDA 工作流,提高效能。 CPFS 提供高性能文件处理,缩短芯片上市周期;其云端的弹性扩展,使得业务快速上线;并行计算共享存储,加速工作流效率;同时提供简单易用的特性简化数据管理。本文详细剖析了 EDA 行业背景、EDA 芯片设计流程及 EDA 工具、EDA 工作流的存储需求和 IO 模型以及EDA 工作流的数据挑战。详细阐述了 EDA 数据上云整体解决方案以及基于 CPFS 的 EDA 解决方案、最佳实践及案例。
1904 0
Electronic Design Automation (EDA) 数据上云解决方案
|
机器学习/深度学习 人工智能 算法
从Analytics Experience 2017看数据智能演进
从Analytics Experience 2017看数据智能演进
106 0
从Analytics Experience 2017看数据智能演进
|
传感器 安全 物联网
未来的loT展望
未来的loT展望
194 0
未来的loT展望
|
SQL 监控 Oracle
PostgreSQL Oracle 兼容性之 - performance insight - AWS performance insight 理念与实现解读 - 珍藏级
PostgreSQL , perf insight , 等待事件 , 采样 , 发现问题 , Oracle 兼容性
780 0
|
边缘计算 Kubernetes Cloud Native
|
容器 Kubernetes Cloud Native
Canonical 开源 MicroK8 | 云原生生态周报 Vol. 25
业界要闻 1.Canonical 开源 MicroK8 面向工作站和边缘/物联网的零运维 Kubernetes!MicroK8 是 Canonical 提供的一款功能强大的企业级 Kubernetes 发行版,我们认为它是市面上最小巧最快速的多节点 Kubernetes。
|
存储 SQL 运维
云上的Growth hacking之路,打造产品的增长引擎
增长关乎产品的存亡 增长!增长!增长!业务增长是每一个创业者每天面临的最大问题。无论你的产品是APP,还是web,或者是小程序,只能不断的维持用户的增长,才能向资本市场讲出一个好故事,融资活下去。活到最后的产品,才有机会盈利。
4378 0
【直播回顾及资料下载】Fusion Design - 企业级UI解决方案揭秘
专家:钱陈(潕量)Fusion 是一套企业级UI的解决方案。解决传统项目流程中设计和前端之间工作协同、体验一致性等方面的问题。Fusion 从大量的中后台场景中沉淀出通用的基础组件,再对基础组件进一步提取、拆解需要变更的部件,打造出一套可以定制的设计系统。
6676 0