HBase 分布式数据库

简介: 我从来没见过我们单位的主库系统,无论是小机或者EMC。如果哪天在值班时,收到通知主库挂了,我会觉得是一个深藏在机房沉重铁门里的大家伙,冒了几缕青烟,紧接着监控上各种Web小图标就都红了....在5、6年前,我们就希望能用分布式存储和分布式数据库来替代集中存储,觉得分布式廉价,而且高可靠。

我从来没见过我们单位的主库系统,无论是小机或者EMC。如果哪天在值班时,收到通知主库挂了,我会觉得是一个深藏在机房沉重铁门里的大家伙,冒了几缕青烟,紧接着监控上各种Web小图标就都红了....

在5、6年前,我们就希望能用分布式存储和分布式数据库来替代集中存储,觉得分布式廉价,而且高可靠。

其实,分布式存储不能替代集中存储。如果你问一个老鸟,他会给你一个关键字--事务。传统的集中存储有很强大的事务支持能力,而分布式系统不支持事务。

菜鸟就会很懵逼,事务?增删改查是事务吗?
什么是事务,我确实也不清楚,但我觉得分布式不能替换集中存储,主要因为性能,在小量数据规模下集中存储提供更高的性能。1000万条数据选择Mysql,1亿左右选择Oracle,10亿条数据用大数据。

至于高可靠,加各种HA吧。


bigtable

一、BigTable传说

03年(作者上大二),谷歌发表了三篇论文:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!

HBase就是基于BigTable思想,由开源社区发布的实现,除了CURD之外,还有很多特点:

  • 基于HDFS系统,存储空间不受限制
  • 可不断增加维度
  • 基于列的存储
  • 信息多版本

很多时候,HBase被当做HDFS系统的管理系统,将文件作为内容直接存储在HBase中,实现海量文件的索引、查找。

二、安装HBase,伪分布式

环境搭建,

  1. HDFS
  2. Zookeeper

下载tar包

  1. 解压
  2. 修改conf/hbase-env.sh,设置JAVA_HOME
  3. 修改配置文件conf/hbase-site.xml
   <property>
      <name>hbase.rootdir</name>
      <value>hdfs://namenode:9000/hbase</value>
   </property>
   <property>
      <name>hbase.zookeeper.quorum</name>
      <value>hbase</value>
   </property>

启动命令

bin/start-hbase.sh 
>jps
HMaster
HRegionServer

随着版本迭代,安装步骤可能变化,参照https://hbase.apache.org/book.html#getting_started

三、Shell

和MySql一样,先用shell完成一些操作。

Table操作

  • list 列出全部表
  • create "scores","grade","course"
    创建一张表,命为scores,两个列族grade和course。
  • describe "score"
    查看表信息。

Table scores is ENABLED
scores
COLUMN FAMILIES DESCRIPTION
{NAME => 'course', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false',
KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER',
COMPRESSION => 'NONE', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '
65536', REPLICATION_SCOPE => '0'}
{NAME => 'grade', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', K
EEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', C
OMPRESSION => 'NONE', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '6
5536', REPLICATION_SCOPE => '0'}

CURD

  • put 'scores', 'Tom', 'grade', 5
    Tom是该条记录的RowKey,插入grade=5的记录;当Tom对应grade存在时,更新。
  • put 'scores', 'Tom', 'course:math', 97
    Tom是该条记录的RowKey,插入course:math=97的记录
  • get 'scores', 'Tom', 'grade', 'course'
    获得RowKey为Tom的记录

COLUMN CELL
course:math timestamp=1534492933043, value=97
grade: timestamp=1534492881763, value=5

  • delete 'scores', 'Tom', 'course:math'
    删除Rowkey 为Tom的记录。

hbase(main):011:0> delete 'scores', 'Tom', 'course:math'
0 row(s) in 0.0640 seconds
hbase(main):012:0> get 'scores', 'Tom', 'grade', 'course'
COLUMN CELL
grade: timestamp=1534492881763, value=6
1 row(s) in 0.0210 seconds

Alert操作

  • alter 'scores', NAME => 'profile'
    添加一列族
  • alter 'scores', NAME => 'profile', METHOD => 'delete'
    删除列族

四、JavaApi

1.pom.xml

<dependency>
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase-client</artifactId>
    <version>1.2.5</version>
</dependency>

2.创建Connection,获取Table对象

        Configuration conf = HBaseConfiguration.create();
        conf.set("hbase.zookeeper.quorum","172.18.0.12");
        Connection connection = ConnectionFactory.createConnection(conf);

3.插入Put操作

Table table = connection.getTable(TableName.valueOf("scores"));
try {
// Use the table as needed, for a single operation and a single thread
    Put p = new Put(Bytes.toBytes("Rose"));
    p.addColumn(Bytes.toBytes("grade"),null,Bytes.toBytes("3"));
    p.addColumn(Bytes.toBytes("course"),Bytes.toBytes("math"),Bytes.toBytes("90"));
    table.put(p);
} finally {
    table.close();
    connection.close();
}

4.读取Get操作

Get get= new Get(Bytes.toBytes("Rose"));
//get.addColumn(Bytes.toBytes("course"),Bytes.toBytes("math"));
//指定列
Result result = table.get(get);
for (KeyValue keyValue : result.raw()) {
          System.out.println("列:" + new String(keyValue.getFamily())
                        +":"+ new String(keyValue.getQualifier())
                        + "====值:" + new String(keyValue.getValue()));
}

列:course:math====值:90
列:grade:====值:3

五、总结

作者接触HBase时间不长,无法估量在企业中流行程度,但已深感这个系统的强大。本文是作者一点感悟,和HBase的入门shell和Api,希望作为入门参考。

相关实践学习
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
1月前
|
Oracle 关系型数据库 分布式数据库
分布式数据库集成解决方案
分布式数据库集成解决方案
200 0
|
3月前
|
分布式数据库 数据库 数据库管理
什么是分布式数据库
什么是分布式数据库
|
3月前
|
NoSQL 中间件 API
分布式锁【数据库乐观锁实现的分布式锁、Zookeeper分布式锁原理、Redis实现的分布式锁】(三)-全面详解(学习总结---从入门到深化)(下)
分布式锁【数据库乐观锁实现的分布式锁、Zookeeper分布式锁原理、Redis实现的分布式锁】(三)-全面详解(学习总结---从入门到深化)
80 2
|
25天前
|
存储 数据采集 数据挖掘
【软件设计师备考 专题 】数据仓库和分布式数据库基础知识
【软件设计师备考 专题 】数据仓库和分布式数据库基础知识
194 0
|
1月前
|
存储 SQL 分布式计算
TiDB整体架构概览:构建高效分布式数据库的关键设计
【2月更文挑战第26天】本文旨在全面概述TiDB的整体架构,深入剖析其关键组件和功能,从而帮助读者理解TiDB如何构建高效、稳定的分布式数据库。我们将探讨TiDB的计算层、存储层以及其他核心组件,并解释这些组件是如何协同工作以实现卓越的性能和扩展性的。通过本文,读者将能够深入了解TiDB的整体架构,为后续的学习和实践奠定坚实基础。
|
1月前
|
存储 供应链 安全
新一代数据库技术:融合区块链与分布式存储的未来前景
传统的数据库技术在面对大规模数据存储和安全性方面存在诸多挑战,而新一代数据库技术正在崭露头角。本文将探讨如何融合区块链与分布式存储技术,为数据库领域带来全新的发展机遇,并分析其在实际应用中的潜力与前景。
|
1月前
|
运维 关系型数据库 分布式数据库
客户说|从4小时到15分钟,一次分布式数据库的丝滑体验
识货APP致力于为广大用户提供专业的网购决策指导,为喜欢追求性价比的网购朋友带来及时劲爆的运动、潮流、生活、时尚等网购优惠资讯,产品覆盖国内外主流购物商城。它提供了全球范围内的时尚品牌、潮流单品的信息,帮助用户发现和购买最新、最热、最具性价比的时尚商品。近年来,各大电商平台上的商品信息持续增加,海量商品信息增加了消费者的选购成本。识货从用户视角出发,不断整合行业渠道供给,降低发现和筛选成本,帮助用户更高效地购买到最具性价比的产品。
|
1月前
|
运维 关系型数据库 分布式数据库
客户说|从4小时到15分钟,一次分布式数据库的丝滑体验
识货APP引入PolarDB分布式版,轻松完成分布式演进
客户说|从4小时到15分钟,一次分布式数据库的丝滑体验
|
1月前
|
Oracle 关系型数据库 分布式数据库
分布式数据库集成解决方案2
分布式数据库集成解决方案2
151 0
|
1月前
|
Oracle 关系型数据库 分布式数据库
分布式数据库设计与实现
分布式数据库设计与实现
178 1