阿里云HBase产品体系架构及特性解析

简介: 2017云栖大会HBase专场,阿里云高级技术专家封神带来阿里云HBase产品体系架构及特性解析。本文主要从HBase在大数据中的价值谈起,进而介绍了产品架构和产品特性,接着分享了应用场景和后续计划。

2017云栖大会HBase专场,阿里云高级技术专家封神带来阿里云HBase产品体系架构及特性解析。本文主要从HBase在大数据中的价值谈起,进而介绍了产品架构和产品特性,接着分享了应用场景和后续计划。
以下是精彩内容整理:
在阿里已经有12000多台在跑HBase,为什么会有这样的规模?接下来让我们一起来看看HBase产品体系架构及特性。
我们发现客户有各种不同的要求,把单独HBase拿过来用的话会碰到很多问题,那么,我们做了哪些特定的需求?

HBase在大数据中的价值

1


关系型数据库到分库分表,再到以HBase为代表的分布式存储。HBase支持实时更新、增量导入、多维删除、随机查询、范围查询、高伸缩、高可用、高可靠、高性能、高适应和分布式NOSQL数据库。

2


传统数据库有这些问题,包括成本、QPS、容量、分析,传统数据库没有什么分析能力,要么就是一个群的分析。像以前就是小型机、高端存储等等,我们从HBase阶段开始在PC机上弄数据库。最大的HBase集群是有四五千台的容量存储,HBase也可以搞很多小集群服务不同的业务。

3


新型数据库面对的办法,正好把船库存的问题解决了,很多公司在HBase上做事务,但是很多时候吃力不讨好,90%以上的业务场景都是非事务场景。阿里为什么用它?就是因为它有这些特性,所以阿里在各个业务线,几乎只要想得到的,淘宝、天猫、搜索各种业务团队都会用HBase解决自己的问题,主要是有如图特性。

阿里云HBase架构

4


我们一台武力机虚拟成虚拟机以后效率是有提升,我们在VM层面做安全隔离层面,我们的VM基本上是独享的,保证在VM迁移的时候环境不会变。底下的磁盘有多种选择,第一个选择是基于共享存储,第二个选择是基于HDFS,第三种选择是直接进入本地磁盘,disk就是一块块磁盘。基于云盘、本地盘架构、基于共享存储,本地盘架构成本要比云盘成本下降700%。当然基于共享存储也很便宜,就是稳定性和时间有一定的问题,毕竟是远端的。我们三种都支持,以满足不同客户的需求。

5


我们做这个系统不是把一个开源的架构拿过来就可以了,我们阿里从2010年到现在做了七八年时间,在各个层面都会有很多相关的做法。产品层,我们会接云监控、DMS;接入层就是数据上云、物联网;网络层会有安全保障。HBase是没有帐户密码的概念,我们现在是给HBase加一个帐户密码的提示。这三层提供上云方案、工作服务、公网访问、监控指控报警、方案支持等一站的DBaas服务。
中间件,ApsaraDB-HBase内核是基于社区的HBase1.1版本打造,目前在阿里集团内部有数千业务使用,万台机器的规模,在性能、稳定性、功能方案均有提升及改进,在历年双十一均有考验。
存储层,HBase基于HDFS、共享存储OSS,小容量直接采取盘古云盘降低成本,高容量直接采取本地磁盘,提高性能及容量,如果比较大的话还是建议用本地层,因为便宜又稳定。运维管控上我们也做了一些事情,包括运维自动化、15分钟全自动部署集群、自动守护进程、可用性检测及报警、修改配置、扩容节点、扩容磁盘、链路监控报警、指标可视化、自动升级内核等,现在所有阿里云的数据库其实都是基于这一整套体系,这一套体系已经做了三四年。如果回去要做这个平台的话也要这么去做,这么多东西都跑不了,可能有一些HBase是分布式的,可能是单机的,但都大同小异。

产品特性

6


我们会做企业级安全,我们是跟英特尔、Udp一起去做这个事情,我们会在11月份上线用户/密码直接访问HBase。这是一个开源项目,是英特尔和我们一起去做的。第一期自己会创立一个用户和密码,这个已经满足绝大多数的用户。云上有很多共享的,包括ODPS、CDP全都是共享的环境,你没有帐户密码的话怎么访问HBase?在自己家里面其实都无所谓,但云上的话绝对不能马虎,安全机制必须全部做好。后面我们会和产品体系一键结合。

7


公网访问。很多人都会问这样的开放软件在电脑上怎么访问,所以我们就做了一个公网访问,而且混访中网络同时可以访问HBase,包括公网、经典、VPC,为什么三个都支持?因为经典网络和VPC会涉及到迁移问题,从经典网络迁移到VPC,如果速度不支持同时访问的话就麻烦了。

8


HBase性能方面大家也可以去测。其他特性,包括HBase on OSS、本地磁盘存储、经典网络和公网马上可以支持了。

应用场景

9


其实阿里云内部和外部还是有点不同,HBase的核心就是高存储、高并发。中国电信存保单、公安部政府云等等,囊括各种行业,包括金融领域也很多,包括报表类、时序类、消息类等不同种类。

10


HBase发展起来的组件如图,我们现在有客户自己去把存储放在上面,还有搞图数据库的,我们是把云上的客户尽量服务好。

11


具体到物联网,温度计、GPS、车联网,核心就是有一些特性基于LSM、查询效率高、搭配使用。

12


还有交互式实时分析,能满足毫秒级的访问需求,这个好处就是scan数据效率高。

13


高并发高容量的大数据应用,大容量、成本低、稀疏表,这些都有相关的团队在支持。

14


还有大屏,为什么强调大屏,因为适应三种不同的场景,阿里内部三款产品集群上万了,GPDS(音译)、Blink(音译)、HBase。

15


实时风控,根据HBase一些特性,比如说过期淘汰、过载淘汰、低价清理,通过离线计算实现实时风控,我给你转钱,它就会转,下面就在算,如果算出来有问题就把你卡住。

16


海量数据存储—大量历史数据,把一些历史的数据,包括电信的订单、旺旺消息都存在里面,历史数据查得比较多,定时数据查得比较多。我们内部做了冷热分离,三个月以内放在热频,三个月以外放在冷频,查的时候自动地把老的放在低频上去了。我们这些东西,用户自己做很麻烦,我们把这个产品提供出来,客户配备。

17


数据链路,这是阿里整个大数据流程,不管你怎么做基本都是如此,可能HBase换成其他的。云产品就是把HBase跟其他东西打通,不需要配,就跑起来了,这就是云产品带来的魅力,这也是阿里云的技术能力,不仅是HBase多么牛。很多客户还是喜欢用开源的产品,这也是为什么开源发展快速的原因。

未来计划

  • HBase2.0上线。
  • 丰富HBase生态组件,包括可能是Phoenix,现在也有一部分同学在搞Phoenix。
  • 高可用性—双集群建设。有的客户用得起,比如说国家的项目用得起双集群。
  • 支持HBase On OSS。
  • 云HBase数据推送。
相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
22天前
|
存储 分布式计算 大数据
HBase分布式数据库关键技术与实战:面试经验与必备知识点解析
【4月更文挑战第9天】本文深入剖析了HBase的核心技术,包括数据模型、分布式架构、访问模式和一致性保证,并探讨了其实战应用,如大规模数据存储、实时数据分析及与Hadoop、Spark集成。同时,分享了面试经验,对比了HBase与其他数据库的差异,提出了应对挑战的解决方案,展望了HBase的未来趋势。通过Java API代码示例,帮助读者巩固理解。全面了解和掌握HBase,能为面试和实际工作中的大数据处理提供坚实基础。
34 3
|
26天前
|
Linux 编译器 开发者
Linux设备树解析:桥接硬件与操作系统的关键架构
在探索Linux的庞大和复杂世界时🌌,我们经常会遇到许多关键概念和工具🛠️,它们使得Linux成为了一个强大和灵活的操作系统💪。其中,"设备树"(Device Tree)是一个不可或缺的部分🌲,尤其是在嵌入式系统🖥️和多平台硬件支持方面🔌。让我们深入了解Linux设备树是什么,它的起源,以及为什么Linux需要它🌳。
Linux设备树解析:桥接硬件与操作系统的关键架构
|
22天前
|
消息中间件 监控 大数据
Kafka消息队列架构与应用场景探讨:面试经验与必备知识点解析
【4月更文挑战第9天】本文详尽探讨了Kafka的消息队列架构,包括Broker、Producer、Consumer、Topic和Partition等核心概念,以及消息生产和消费流程。此外,还介绍了Kafka在微服务、实时数据处理、数据管道和数据仓库等场景的应用。针对面试,文章解析了Kafka与传统消息队列的区别、实际项目挑战及解决方案,并展望了Kafka的未来发展趋势。附带Java Producer和Consumer的代码示例,帮助读者巩固技术理解,为面试做好准备。
26 0
|
4天前
|
前端开发 测试技术 数据处理
安卓开发中的MVP架构模式深度解析
【4月更文挑战第30天】在移动应用开发领域,模型-视图-呈现器(Model-View-Presenter, MVP)是一种广泛采用的架构模式。它旨在通过解耦组件间的直接交互来提高代码的可维护性和可测试性。本文将深入探讨MVP在安卓开发中的应用,揭示其如何促进代码的模块化,提升用户界面的响应性,并简化单元测试过程。我们将从理论概念出发,逐步过渡到实践案例,为读者提供一套行之有效的MVP实施策略。
|
8天前
|
SQL 数据采集 运维
日志服务产品架构
日志服务产品架构
12 6
|
12天前
|
前端开发 Java
SpringBoot之三层架构的详细解析
SpringBoot之三层架构的详细解析
23 0
|
13天前
|
敏捷开发 数据可视化 物联网
云效产品使用常见问题之用ARM架构的机器意义不知道如何解决
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
3天前
|
存储 弹性计算 固态存储
阿里云服务器CPU内存配置详细指南,如何选择合适云服务器配置?
阿里云服务器配置选择涉及CPU、内存、公网带宽和磁盘。个人开发者或中小企业推荐使用轻量应用服务器或ECS经济型e实例,如2核2G3M配置,适合低流量网站。企业用户则应选择企业级独享型ECS,如通用算力型u1、计算型c7或通用型g7,至少2核4G配置,公网带宽建议5M,系统盘可选SSD或ESSD云盘。选择时考虑实际应用需求和性能稳定性。
|
5天前
|
域名解析 弹性计算 Linux
阿里云购买云服务器、注册域名、备案及绑定图文教程参考
本文为大家介绍了2024年购买阿里云服务器和注册域名,绑定以及备案的教程,适合需要在阿里云购买云服务器、注册域名并备案的用户参考,新手用户可通过此文您了解在从购买云服务器到完成备案的流程。
阿里云购买云服务器、注册域名、备案及绑定图文教程参考

热门文章

最新文章

推荐镜像

更多