阿里云HBase产品体系架构及特性解析

简介: 2017云栖大会HBase专场,阿里云高级技术专家封神带来阿里云HBase产品体系架构及特性解析。本文主要从HBase在大数据中的价值谈起,进而介绍了产品架构和产品特性,接着分享了应用场景和后续计划。

2017云栖大会HBase专场,阿里云高级技术专家封神带来阿里云HBase产品体系架构及特性解析。本文主要从HBase在大数据中的价值谈起,进而介绍了产品架构和产品特性,接着分享了应用场景和后续计划。
以下是精彩内容整理:
在阿里已经有12000多台在跑HBase,为什么会有这样的规模?接下来让我们一起来看看HBase产品体系架构及特性。
我们发现客户有各种不同的要求,把单独HBase拿过来用的话会碰到很多问题,那么,我们做了哪些特定的需求?

HBase在大数据中的价值

1


关系型数据库到分库分表,再到以HBase为代表的分布式存储。HBase支持实时更新、增量导入、多维删除、随机查询、范围查询、高伸缩、高可用、高可靠、高性能、高适应和分布式NOSQL数据库。

2


传统数据库有这些问题,包括成本、QPS、容量、分析,传统数据库没有什么分析能力,要么就是一个群的分析。像以前就是小型机、高端存储等等,我们从HBase阶段开始在PC机上弄数据库。最大的HBase集群是有四五千台的容量存储,HBase也可以搞很多小集群服务不同的业务。

3


新型数据库面对的办法,正好把船库存的问题解决了,很多公司在HBase上做事务,但是很多时候吃力不讨好,90%以上的业务场景都是非事务场景。阿里为什么用它?就是因为它有这些特性,所以阿里在各个业务线,几乎只要想得到的,淘宝、天猫、搜索各种业务团队都会用HBase解决自己的问题,主要是有如图特性。

阿里云HBase架构

4


我们一台武力机虚拟成虚拟机以后效率是有提升,我们在VM层面做安全隔离层面,我们的VM基本上是独享的,保证在VM迁移的时候环境不会变。底下的磁盘有多种选择,第一个选择是基于共享存储,第二个选择是基于HDFS,第三种选择是直接进入本地磁盘,disk就是一块块磁盘。基于云盘、本地盘架构、基于共享存储,本地盘架构成本要比云盘成本下降700%。当然基于共享存储也很便宜,就是稳定性和时间有一定的问题,毕竟是远端的。我们三种都支持,以满足不同客户的需求。

5


我们做这个系统不是把一个开源的架构拿过来就可以了,我们阿里从2010年到现在做了七八年时间,在各个层面都会有很多相关的做法。产品层,我们会接云监控、DMS;接入层就是数据上云、物联网;网络层会有安全保障。HBase是没有帐户密码的概念,我们现在是给HBase加一个帐户密码的提示。这三层提供上云方案、工作服务、公网访问、监控指控报警、方案支持等一站的DBaas服务。
中间件,ApsaraDB-HBase内核是基于社区的HBase1.1版本打造,目前在阿里集团内部有数千业务使用,万台机器的规模,在性能、稳定性、功能方案均有提升及改进,在历年双十一均有考验。
存储层,HBase基于HDFS、共享存储OSS,小容量直接采取盘古云盘降低成本,高容量直接采取本地磁盘,提高性能及容量,如果比较大的话还是建议用本地层,因为便宜又稳定。运维管控上我们也做了一些事情,包括运维自动化、15分钟全自动部署集群、自动守护进程、可用性检测及报警、修改配置、扩容节点、扩容磁盘、链路监控报警、指标可视化、自动升级内核等,现在所有阿里云的数据库其实都是基于这一整套体系,这一套体系已经做了三四年。如果回去要做这个平台的话也要这么去做,这么多东西都跑不了,可能有一些HBase是分布式的,可能是单机的,但都大同小异。

产品特性

6


我们会做企业级安全,我们是跟英特尔、Udp一起去做这个事情,我们会在11月份上线用户/密码直接访问HBase。这是一个开源项目,是英特尔和我们一起去做的。第一期自己会创立一个用户和密码,这个已经满足绝大多数的用户。云上有很多共享的,包括ODPS、CDP全都是共享的环境,你没有帐户密码的话怎么访问HBase?在自己家里面其实都无所谓,但云上的话绝对不能马虎,安全机制必须全部做好。后面我们会和产品体系一键结合。

7


公网访问。很多人都会问这样的开放软件在电脑上怎么访问,所以我们就做了一个公网访问,而且混访中网络同时可以访问HBase,包括公网、经典、VPC,为什么三个都支持?因为经典网络和VPC会涉及到迁移问题,从经典网络迁移到VPC,如果速度不支持同时访问的话就麻烦了。

8


HBase性能方面大家也可以去测。其他特性,包括HBase on OSS、本地磁盘存储、经典网络和公网马上可以支持了。

应用场景

9


其实阿里云内部和外部还是有点不同,HBase的核心就是高存储、高并发。中国电信存保单、公安部政府云等等,囊括各种行业,包括金融领域也很多,包括报表类、时序类、消息类等不同种类。

10


HBase发展起来的组件如图,我们现在有客户自己去把存储放在上面,还有搞图数据库的,我们是把云上的客户尽量服务好。

11


具体到物联网,温度计、GPS、车联网,核心就是有一些特性基于LSM、查询效率高、搭配使用。

12


还有交互式实时分析,能满足毫秒级的访问需求,这个好处就是scan数据效率高。

13


高并发高容量的大数据应用,大容量、成本低、稀疏表,这些都有相关的团队在支持。

14


还有大屏,为什么强调大屏,因为适应三种不同的场景,阿里内部三款产品集群上万了,GPDS(音译)、Blink(音译)、HBase。

15


实时风控,根据HBase一些特性,比如说过期淘汰、过载淘汰、低价清理,通过离线计算实现实时风控,我给你转钱,它就会转,下面就在算,如果算出来有问题就把你卡住。

16


海量数据存储—大量历史数据,把一些历史的数据,包括电信的订单、旺旺消息都存在里面,历史数据查得比较多,定时数据查得比较多。我们内部做了冷热分离,三个月以内放在热频,三个月以外放在冷频,查的时候自动地把老的放在低频上去了。我们这些东西,用户自己做很麻烦,我们把这个产品提供出来,客户配备。

17


数据链路,这是阿里整个大数据流程,不管你怎么做基本都是如此,可能HBase换成其他的。云产品就是把HBase跟其他东西打通,不需要配,就跑起来了,这就是云产品带来的魅力,这也是阿里云的技术能力,不仅是HBase多么牛。很多客户还是喜欢用开源的产品,这也是为什么开源发展快速的原因。

未来计划

  • HBase2.0上线。
  • 丰富HBase生态组件,包括可能是Phoenix,现在也有一部分同学在搞Phoenix。
  • 高可用性—双集群建设。有的客户用得起,比如说国家的项目用得起双集群。
  • 支持HBase On OSS。
  • 云HBase数据推送。
相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
3天前
|
物联网 云计算
电子好书发您分享《阿里云产品手册2024版》
**《阿里云产品手册2024版》电子书分享:** 探索阿里云最新产品与服务,涵盖云计算、物联网及安全等领域。降价优惠高达55%,详尽指南助你高效利用云资源。[阅读电子版](https://developer.aliyun.com/ebook/8326/116556?spm=a2c6h.26392459.ebook-detail.4.7424272ayuuPGu) ![阿里云手册](https://ucc.alicdn.com/pic/developer-ecology/cok6a6su42rzm_066de4cfe9654074b30718f57e8e27f4.png)
18 3
|
2天前
|
Rust 安全 程序员
Rust vs Go:解析两者的独特特性和适用场景
在讨论 Rust 与 Go 两种编程语言哪种更优秀时,我们将探讨它们在性能、简易性、安全性、功能、规模和并发处理等方面的比较。同时,我们看看它们有什么共同点和根本的差异。现在就来看看这个友好而公平的对比。
|
9天前
|
API
阿里云微服务引擎及 API 网关 2024 年 3 月产品动态
阿里云微服务引擎及 API 网关 2024 年 3 月产品动态。
|
10天前
|
安全 云计算
电子好书发您分享《阿里云产品手册2024版.阿里云产品手册2024版》
**《阿里云产品手册2024版》电子书分享:** 探索阿里云最新技术与服务,涵盖云计算、安全、移动研发等领域,详尽指南助您高效上云。[阅读链接](https://developer.aliyun.com/ebook/8326/116556?spm=a2c6h.26392459.ebook-detail.4.176b272aLerqlg)
26 1
|
15天前
|
云安全 数据采集 安全
阿里云安全产品,Web应用防火墙与云防火墙产品各自作用简介
阿里云提供两种关键安全产品:Web应用防火墙和云防火墙。Web应用防火墙专注网站安全,防护Web攻击、CC攻击和Bot防御,具备流量管理、大数据防御能力和简易部署。云防火墙是SaaS化的网络边界防护,管理南北向和东西向流量,提供访问控制、入侵防御和流量可视化。两者结合可实现全面的网络和应用安全。
阿里云安全产品,Web应用防火墙与云防火墙产品各自作用简介
|
15天前
|
弹性计算 运维 安全
阿里云服务器的特性与优势
阿里云ECS是安全、灵活且高性价比的云计算服务,提供多样化产品如x86和ARM实例、裸金属服务器、专有宿主机。它支持全球多地域部署,具备纵向和横向弹性扩展能力,保证99.975%至99.995%的实例及数据可靠性。用户友好的界面和一键部署功能使得管理简便,同时集成多种安全服务和硬件加密。ECS提供包年包月、按量付费等计费模式,结合优惠机制帮助降低成本。
27 0
|
16天前
|
消息中间件 人工智能 监控
|
16天前
|
JavaScript API UED
Vue3.0新特性解析与实战:Composition API、Teleport与Suspense
【4月更文挑战第6天】Vue3.0引入了颠覆性的Composition API,通过函数式方法提升代码可读性和复用性,例如`setup()`、`ref`等,便于逻辑模块化。实战中,自定义的`useUser`函数可在多个组件中共享用户信息逻辑。另外,Teleport允许组件渲染到DOM特定位置,解决模态框等场景的上下文问题。再者,Suspense提供异步组件加载的延迟渲染,使用fallback内容改善用户体验。这些新特性显著优化了开发和性能,适应现代Web需求。
19 0
|
22天前
|
测试技术 PHP 开发者
PHP 7.4新特性深度解析
【4月更文挑战第4天】 本文将深入探讨PHP 7.4的新特性,包括预加载,数组解构,扩展的箭头函数等。我们将详细解释这些新特性的作用,以及如何在项目中使用它们来提高代码的效率和可读性。
|
24天前
|
消息中间件 Cloud Native Serverless
飞天发布时刻丨阿里云 ApsaraMQ 全面升级,携手 Confluent 发布全新产品
阿里云在3月29日的飞天发布时刻宣布ApsaraMQ全面升级,实现全系产品Serverless化,与Confluent合作推出新产品,强化云原生消息队列服务。

推荐镜像

更多