hbase

#hbase#

已有19人关注此标签

内容分类

云栖号资讯小编

有哪些大数据处理工具?

本文分享作者在大数据系统实践过程中接触过的一些工具及使用感受,抛砖引玉,和同学们一起构建一个分布式产品的全景图。

林明

Phoenix索引构建最佳实践

介绍三种的不同的索引构建方法及其适用场景

阿里云实时计算Flink

Flink 在快手实时多维分析场景的应用

作为短视频分享跟直播的平台,快手有诸多业务场景应用了 Flink,包括短视频、直播的质量监控、用户增长分析、实时数据处理、直播 CDN 调度等。此次主要介绍在快手使用 Flink 在实时多维分析场景的应用与优化。

阿里云实时计算Flink

数仓大法好!跨境电商 Shopee 的实时数仓之路

本文讲述 Flink 在 Shopee 新加坡数据组(Shopee Singapore Data Team)的应用实践,主要内容包括:实时数仓建设背景、Flink 在实时数据数仓建设中结合 Druid、Hive 的应用场景、实时任务监控、Streaming SQL 平台化、Streaming Job 管理、未来规划优化方向。

云栖号资讯小哥

如何优雅的理解HBase和BigTable

云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 学习 HBase 最难的地方在于要让你的脑子真正理解它是什么。 HBase:Google BigTable 的开源实现 我们经常会把关系型数据库(RDBMS,比如 MySQL)和 HBase 搞混,因为在这两个系统中都包含 table 和 base(HBase,Database)。

云栖号资讯小编

大白话彻底搞懂 HBase RowKey 详细设计

RowKey作为HBase的核心知识点,RowKey设计会影响到数据在HBase中的分布,还会影响我们查询效率,所以RowKey的设计质量决定了HBase的质量。

阿里云小秘

云数据库 HBase应用场景及优势介绍

总览 ApsaraDB for HBase是一个键值/宽表型的分布式数据库,适用于任何数据规模,可以提供单个毫秒响应的性能,尤其擅长低成本、高并发的场景,支持水平扩展到PB级存储和千万级QPS,在淘宝、支付宝、菜鸟等众多阿里巴巴核心服务中起到了关键支撑的作用。

小生生

云数据库 HBase应用场景及优势

ApsaraDB for HBase是一个键值/宽表型的分布式数据库,适用于任何数据规模,可以提供单个毫秒响应的性能,尤其擅长低成本、高并发的场景,支持水平扩展到PB级存储和千万级QPS,在淘宝、支付宝、菜鸟等众多阿里巴巴核心服务中起到了关键支撑的作用。

云栖号资讯小编

过了这么久,我终于看懂了HBase,太不容易了QAQ

在我还不了解分布式和大数据的时候已经听说过HBase了,但对它一直都半知不解,这篇文章来讲讲吧。

好程序员

好程序员大数据培训分享HBase Filter过滤器概述

  好程序员大数据培训分享HBase Filter过滤器概述,过滤器介绍HBase过滤器是一套为完成一些较高级的需求所提供的API接口。过滤器也被称为下推判断器(push-down predicates),支持把数据过滤标准从客户端下推到服务器,带有 Filter 条件的 RPC 查询请求会把 Filter 分发到各个 RegionServer,所有的过滤器都在服务端生效,使被过滤掉的数据不会被传送到客户端,这些过滤逻辑在读操作时使用,可以有效降低网络传输的压力。

好程序员

HBase知识点集中总结

  好程序员大数据培训分享:HBase知识点集中总结,HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

好程序员

HBase协处理器加载的三种方式

  好程序员大数据培训分享HBase协处理器加载的三种方式,协处理器加载的三种方式 Shell加载 1. 上传HDFS 将打包好的HelloCoprocessor-0.0.1.jar上传服务器,然后放到HDFS上。

五维空间s

kafka 三种消费语义

消费语义at most once:最多消费一次,消息可能会丢失-------log日志at least once:至少消费一次,但是会重复消费 例如手动异步提交offsetexactly once:正好一次,不丢失,不重复 0.10.0.1不支持,官方说0.11已支持 例子1.log日志允许丢失 使用第一种2.log日志算钱的不允许丢,使用第二种+去重+redis部分公司去重方法,对每一条日志取一个hash值,存放到redis里面,如果redis里面有了,就不放到下游去处理3.mysql sql语句入库 选择第二种并使用hbase的put保证去重复。

好程序员

好程序员大数据培训分享之Hadoop的生态系统

  好程序员大数据培训分享之Hadoop的生态系统,这次,我整理了一下hadoop的生态系统。hadoop生态系统,意思就是以hadoop为平台的各种应用框架,相互兼容,组成了一个独立的应用体系,也可以称之为生态圈。

峰七

Maxcompute Spark 访问 阿里云 Hbase

引子 本来这个东西是没啥好写的,但是在帮客户解决问题的时候,发现链路太长,不能怪客户弄不出来,记录一下 需求列表 MaxCompute Spark包 (写文章时刻为版本 0.32.1, 请自行更新,本文不是文档) Spark 配置 spark.

易虹

HBase2 使用协处理器删除指定qualifier的全部数据

用户画像的场景中,通常会开发很多标签,每个标签作为一个qualifier,其中有一些不再使用后需要下线,但hbase提供的delete相关api都只能针对单行,要清理某个qualifier的全部数据不太容易,这里提供一个基于协处理器的实现方案; hbase对于compact过程提供了以下5个hoo...

好程序员

Ambari和ClouderaManager对比

  好程序员大数据培训分享之Ambari和ClouderaManager对比,1 、什么是CDH,Ambari?   Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。

公众号胖滚猪学编程

大数据采集和抽取怎么做?这篇文章终于说明白了!

数据是数据中台\数据平台核心中的核心,因此数据汇聚必然是数据中台/平台的入口,本文详细讲述采集模块的方方面面、采集框架的使用选型以及企业真实落地

云栖号资讯小哥

使用phoenix踩的坑与设计思考

云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 本文主要介绍在压测HBase的二级索引phoenix时踩的一个坑,使用时需要特别注意,而且背后的原因也很有意思,可以看出HBase和Phoenix对元数据设计上的差异。

伴弋

数据中台的存储系统和计算平台枚举

采集&传输层 SqoopHadoop、关系型数据库之间传输数据的工具。传输时,会启动多个MR作业并发的传输数据 DataX阿里巴巴开源的数据同步工具,用来在各种异构数据源之间同步数据。