HBase+Spark技术双周刊第1期

萌萌怪兽 2018-11-22

大数据 架构 hbase 人工智能 spark 开源大数据 对象存储 索引 离线分析 自然语言处理 存储

精彩直播

HBase多模式,包括 分析层:支持复杂分析、算子下推;多模式层:提供各种模型转换,贴切业务;索引引擎:提供索引支持,基于 Lucene ;存储引擎:提供 KV 支持,基于LSM;分布式文件层:保障低成本、与上层分离、共享降低成本。本次直播,阿里云数据架构师明惠就为大家分享HBase多模式。

HBase内核及能力包括:HBase的特性与生态:自动分区、LSM Tree、存储计算分离、HBase生态;全新的HBase2.0版本新功能:小对象存储MOB、读写链路Off-heap 、Region Replica 、In Memory Compaction 、Assignment MangerV2。在本次直播中,阿里巴巴技术专家正研就将为大家分享HBase内核及能力。


  • Spark介绍及Spark多数据源分析
  • 开源大数据处理首选Spark,Spark引擎助力数据构架升级,大数据构架分为多种系统,如:流式处理系统、离线分析系统、算法分析系统、交互式分析系统,通过阿里多模型数据库专家沐远的讲解学习Spark并解决各种业务问题。

技术分享

近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储起来,这些数据的特点主要有如下几点:大、稀疏、列动态变化。

小对象,特别指1K~10MB范围的数据,比如图片,短视频,文档等广泛的存在于人工智能,医疗,教育,生活分享,电子商务等领域。HBase 2.0在MOB技术的加持下重新定义小对象实时存取,具有低延迟,读写强一致,检索能力强,水平易扩展等关键能力。本文将以一条SQL展开小对象实时存取的方案演进,介绍不同架构的优缺点。然后提供人工智能和医疗方面两个采用HBase2.0的案例分析。最后总结小对象实时存取的最佳实践。

阿里云HBase2.0版本是基于社区2018年发布的HBase2.0.0版本开发的全新版本。在社区HBase2.0.0版本基础上,做了大量的改进和优化,吸收了众多阿里内部成功经验,比社区HBase版本具有更好的稳定性和性能,同时具备了HBase2.0提供的全新能力。HBase2.0提供的新功能介绍可以参照这篇文章。如果想要申请使用全新的HBase2.0版本,可以在此链接申请试用。

技术社群

【HBase生态+Spark社区大群】

群福利:群内每周进行群直播技术分享及问答

加入方式1:
点击link申请加入 https://dwz.cn/Fvqv066s

加入方式2:
钉钉扫码加入:
link


登录 后评论
下一篇
我是你爱豆
3401人浏览
2019-08-22
相关推荐
0
2
0
1236