HBaseCon亚洲2018峰会盛大开幕 阿里带你洞悉HBase大数据生态最新发展和行业实践

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 作为国内的主要社区贡献者,阿里巴巴此次联合小米、华为、滴滴等国内主流互联网企业承办的HBaseCon亚洲2018峰会落户北京,本次HBaseCon亚洲峰会不仅得到了Apache官方授权,还得到了来自Cloudera,Intel等商业公司社区PMC的强烈支持。

8月17日,HBaseCon亚洲2018峰会在北京歌华开元大酒店盛大开幕。作为Apache基金会旗下HBase社区的顶级用户峰会,HBaseCon大会是Apache HBase™官方从2012年开始发起和延续至今的技术会议,先后在美国加州、日本东京和中国深圳等地举办,得到了Google、Facebook、雅虎和阿里巴巴等众多全球顶级互联网公司大力支持。
image
作为国内的主要社区贡献者,阿里巴巴此次联合小米、华为、滴滴等国内主流互联网企业承办的HBaseCon亚洲2018峰会落户北京,本次HBaseCon亚洲峰会不仅得到了Apache官方授权,还得到了来自Cloudera,Intel等商业公司社区PMC的强烈支持。在本次峰会上,三十余位来自亚洲一线互联网和大数据生态相关企业的技术专家和社区领袖集体亮相,为广大开发者带来了HBase及大数据技术生态的最新洞察和行业实践。
image
在本次HBaseCon亚洲峰会的主论坛上,HBase资深PMC、Cloudera HBase负责人Michael Stack,以及HBase PMC、阿里巴巴高级技术专家Yu Li(李钰)站在开源社区的角度为大家分享了HBase的前世今生;同时,阿里巴巴资深技术专家Chunhui Shen(沈春辉)以及阿里云HBase技术负责人Long Cao(曹龙)则为大家分享了HBase在阿里巴巴集团以及阿里云中的最新发展动态。

此外,在本次HBaseCon亚洲峰会上,三十余位HBase高级技术专家还围绕HBase Internal、Ecology and Solution以及Application三个话题进行了深入的探讨和交流分享。本次HBaseCon亚洲峰会不仅为广大开发者提供了一个了解HBase社区的最新动态和发展计划的窗口,还分享了国内外一线大厂围绕HBase生态的生产实践经验,更为广大HBase开发者以及使用者带来了一场优质的技术盛宴。
image

本文就来看看HBaseCon亚洲2018峰会上来自阿里巴巴HBase技术专家的精彩分享。

1、Use CCSMap to improve HBase YGC time (Chance Li, Xiang Wang and Lijin Bin)

在本次分享中,三位阿里巴巴技术专家为我们分享了使用CCSMap的原因,CCSMap的具体数据结构,阿里巴巴又是如何通过使用CCSMap来提升HBase YGC时间,以及对于未来进一步相关工作的展望。除此之外,在演讲中还分享了2018年以来,阿里巴巴在搜索方面对于提升服务等级协议(SLA)所作出的努力。
image

CCSMap是采用了紧凑的数据格式实现的排序Map,其支持无锁的并发写入和查询,能够降低系统的内存消耗,并大幅度降低GC的停顿时间,提升系统的吞吐。与JDK自带的ConcurrentSkipListMap相比而言,CCSMap在50Byte长度KV的测试中,读写吞吐提升了 20~30%,内存占用减少了40%。

2、Separating hot-cold data into heterogeneous storage based on layered compaction (Wenlong Yang)

在本次分享中,HBase Committer,阿里巴巴技术专家,HBase内核负责人WenLong Yang(杨文龙)为大家介绍了HBase上的一种基于分层Compaction和异构存储的冷热分离方案。这种冷热自动分离的特性,能够在系统内部对数据按时间进行物理分层和异构存储(如冷数据使用低成本介质和高压缩率算法,热数据使用高速介质和低压缩率算法),并且对用户访问保持透明。在分享中,杨文龙结合阿里巴巴集团的典型业务场景,从冷热数据的识别、分层压实以及查询优化三个方面深入浅出地为大家讲解了HBase上的内建的冷热多层异构存储特性。
image

以往的冷热分离方案通常需要构建多个表或者集群来分散地存放冷热数据,而在阿里巴巴内部的HBase分支AliHB中,实现了一套全新的冷热分离方案。这套方案在一张表里通过compaction将冷热数据自动分开,并且能根据冷热数据的特点使用异构介质来平衡存储的性能和成本。同时,针对业务的查询,该方案能够自动地帮助用户进行存储优化,整个过程完全对业务完全透明。在阿里巴巴对于内部业务的测试中发现,这套新的冷热分离存储方案能够降低50%的RT以及25%的存储空间。

3、Kerberos—based Big Data Security Solution and Practice in Alibaba Cloud HBase (Jiajia Li and Chao Guo)

在本次分享中,Apache Kerby/Directory PMC,Intel大数据研发工程师Jiajia Li(李佳佳)与阿里云高级开发工程师Chao Guo(郭超)为大家分享了基于Kerberos的大数据安全解决方案以及其在阿里云HBase上的应用实践。本次分享从Hadoop的鉴权服务谈起,为大家介绍了Hadoop的鉴权服务的背景以及HAS(Hadoop Authentication Service)的相关知识,之后结合具体的实践介绍了阿里云HBase的大数据安全解决方案,以及阿里云在该方案的基础之上所做的相关优化工作。
image

本次分享中介绍的基于Kerberos的大数据安全解决方案是一种全新的认证解决方案HAS,阿里巴巴已经将该方案应用于阿里云数据库HBase(ApsaraDB for HBase)上的安全和工程应用实践中。HAS支持插件的方式将企业现有的身份认证系统接入Kerberos,使得安全管理人员不需要在已有用户账号系统和Kerberos数据库之间迁移和同步。因此,开源大数据生态系统的大部分组件可以以很小的成本接入HAS。阿里云ApsaraDB for HBase对HAS实现了高可用、高性能、强安全、定制化plugin认证方式等安全和生产环境的稳定性功能。

4、HTAP DB—System : ApsaraDB HBase Phoenix and Spark (Yun Zhang and Wei Li)

在本次分享中,阿里云高级开发工程师Yun Zhang(张赟)和阿里云技术专家Wei Li(李伟)首先从架构设计、用例场景、最佳实践以及挑战与提升这四个方面为大家介绍了基于阿里云ApsaraDB HBase的Phoenix,之后又为大家介绍了如何将ApsaraDB HBase/Phoenix与Spark结合起来发挥更大的价值,不仅为大家分析了选用Spark的原因,还详细地介绍了融合使用ApsaraDB HBase和Spark的架构设计与具体实现,最后还针对于此方案适用的大数据在线报表服务、日志索引以及查询等4种典型应用场景进行了介绍。
image

Phoenix查询引擎支持使用SQL进行HBase数据的查询,会将SQL查询转换为一个或多个HBase API,协同处理器与自定义过滤器的实现,并编排执行。使用Phoenix进行简单查询,性能量级能够达到毫秒级别。

5、A real—time cold backup solution for HBase with zero HBase modification,low latency and heterogeneous storage (QingYi Meng)

在本次分享中,阿里巴巴技术专家QingYi Meng(孟庆义)为大家介绍了能够实现一种零侵入,低延时,异构存储的HBase实时冷备解决方案。在分享中,QingYi Meng首先从HBase的备份发展现状谈起,之后介绍了阿里巴巴对于HBase数据备份的具体需求,在需求之后,重点介绍了阿里巴巴的零侵入的存量备份方案,以及在低延时,快速集群重建方面的设计和实践,在分享的最后还对于数据备份的未来进行了展望。
image

数据可靠性是业务的生命线,同时也是分布式存储系统的核心价值之一。常见的主备容灾,异地多活可以做到机房级、城市级的容灾保障,但通常的解决方案使用的是同构系统,并且由单一团队运维,由于软件缺陷或者运维人员失误而造成的数据丢失案例是真实存在的。另一方面,可能发生的数据污染要求系统具备回溯到任意历史时间点的能力。而独立于HBase部署的零侵入,低延时,异构存储的HBase实时冷备方案,能够在不影响线上业务的情况下通过周期存量备份+实时增量备份的方式将数据存储在异构系统中。

更多精彩欢迎观看大会视频https://yq.aliyun.com/promotion/631

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
2月前
|
数据采集 监控 算法
利用大数据和API优化电商决策:商品性能分析实践
在数据驱动的电子商务时代,大数据分析已成为企业提升运营效率、增强市场竞争力的关键工具。通过精确收集和分析商品性能数据,企业能够洞察市场趋势,实现库存优化,提升顾客满意度,并显著增加销售额。本文将探讨如何通过API收集商品数据,并将这些数据转化为对电商平台有价值的洞察。
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
719 2
|
4月前
|
存储 SQL 分布式计算
开源大数据比对平台设计与实践—dataCompare
开源大数据比对平台设计与实践—dataCompare
70 0
|
4月前
|
SQL 存储 大数据
某互联网大厂亿级大数据服务平台的建设和实践
某互联网大厂亿级大数据服务平台的建设和实践
68 0
|
1月前
|
SQL 关系型数据库 MySQL
Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
【2月更文挑战第9天】Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
95 7
|
24天前
|
机器学习/深度学习 分布式计算 数据挖掘
阿里云 MaxCompute MaxFrame 开启免费邀测,统一 Python 开发生态
阿里云 MaxCompute MaxFrame 正式开启邀测,统一 Python 开发生态,打破大数据及 AI 开发使用边界。
307 1
|
1月前
|
存储 数据处理 Apache
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
76 0
|
4月前
|
数据采集 搜索推荐 Java
【大数据实训】用Hbase模拟电影搜索引擎(四)
【大数据实训】用Hbase模拟电影搜索引擎(四)
53 1
|
4月前
|
大数据 Scala
大数据生态思维导图____2021最新最全Scala语法思维导图!(待更新)
大数据生态思维导图____2021最新最全Scala语法思维导图!(待更新)
17 0
|
4月前
|
分布式计算 大数据 Spark
大数据生态思维导图____2021最新最全Spark生态圈思维导图!
大数据生态思维导图____2021最新最全Spark生态圈思维导图!
21 0