好程序员大数据培训分享HBase Filter过滤器概述

简介:

  好程序员大数据培训分享HBase Filter过滤器概述,过滤器介绍
HBase过滤器是一套为完成一些较高级的需求所提供的API接口。
过滤器也被称为下推判断器(push-down predicates),支持把数据过滤标准从客户端下推到服务器,带有 Filter 条件的 RPC 查询请求会把 Filter 分发到各个 RegionServer,所有的过滤器都在服务端生效,使被过滤掉的数据不会被传送到客户端,这些过滤逻辑在读操作时使用,可以有效降低网络传输的压力。
过滤器组成
过滤器主要有过滤器本身、比较器和比较运算符组成。

  1. 操作符
    抽象操作符,也叫比较运算符。

LESS:小于
LESS_OR_EQUAL:小于等于
EQUAL:等于
NOT_EQUAL:不等于
GREATER:大于
GREATER_OR_EQUAL:大于等于
NO_OP:排除一切值

  1. 比较器
    BinaryComparator:二进制比较器,用于按字典顺序比较指定字节数组。

BinaryPrefixComparator:二进制比较器,只比较前缀是否与指定字节数组相同。
NullComparator:控制比较式,判断当前值是不是为null。
BitComparator:位比价器,通过BitwiseOp提供的AND(与)、OR(或)、NOT(非)进行比较。
RegexStringComparator:提供一个正则的比较器,支持正则表达式的值比较,仅支持 EQUAL 和非 EQUAL。
SubstringComparator:判断提供的子串是否出现在value中,并且不区分大小写。
过滤器家族
HBase 内置了多种过滤器,这些过滤器或直接或间接都继承于FilterBase抽象类。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
SQL 分布式计算 大数据
大数据Spark框架概述
大数据Spark框架概述
159 0
|
7月前
|
分布式计算 资源调度 Hadoop
大数据Hadoop概述
大数据Hadoop概述
147 0
|
4月前
|
存储 分布式计算 大数据
【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )
【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )
96 0
|
7月前
|
资源调度 分布式计算 监控
大数据YARN概述
大数据YARN概述
82 0
|
7月前
|
SQL 存储 分布式计算
大数据Hive入门概述
大数据Hive入门概述
111 1
|
8月前
|
存储 数据采集 传感器
大数据概述
大数据概述
149 0
|
存储 SQL 缓存
高并发与大数据解决方案概述
高并发与大数据解决方案概述
156 0
|
存储 消息中间件 分布式计算
大数据概述
大数据概述
|
Java 分布式数据库 索引
HBASE 比较器和过滤器
HBASE 比较器和过滤器
121 0
|
存储 SQL 分布式计算
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
高可靠性、高扩展性、高效性、高容错性YARN架构概述、MapReduce架构概述、HDFS、YARN、MapReduce三者关系、1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。 3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。MapReduce将计算过程分为两个阶段:
562 1
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图

热门文章

最新文章