包阅导读总结
1. 关键词:HBase、大数据存储、列式存储、基本操作、数据模型
2. 总结:
本文主要介绍了 HBase 的基础知识,包括其官网、特点、基本操作和数据模型。特点如列式存储、数据压缩、海量存储等。基本操作涵盖创建表、添加删除更新数据、查询数据等。还介绍了数据模型中的逻辑结构、物理架构等要素。
3. 主要内容:
– HBase 基础知识
– 文章收录网站
– 官网:hbase.apache.org/
– HBase 特点
– 列式存储:列族动态增减,列不同
– 数据压缩:类型相同可压缩
– 海量存储:PB 级数据仍快速响应
– HBase 基本操作
– Shell 操作
– 进入客户端
– 查看帮助命令
– 查看表
– 创建表
– 添加数据
– 查询数据
– 插入一批数据
– 查询所有数据
– 列族查询
– 多列族查询
– 指定列族与列名查询
– 范围值查询
– 模糊查询
– 更新数据值
– 删除数据
– HBase 数据模型
– 逻辑结构
– 物理架构
– 行键
– 列族
– 时间戳
– 列
– 单元格
思维导图:
文章地址:https://juejin.cn/post/7403657162528522281
文章来源:juejin.cn
作者:程序员清风
发布时间:2024/8/17 11:38
语言:中文
总字数:2011字
预计阅读时间:9分钟
评分:88分
标签:HBase,大数据存储,列式数据库,数据操作,分布式数据库
以下为原文内容
本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com
文章内容收录到个人网站,方便阅读:hardyfish.top/
文章内容收录到个人网站,方便阅读:hardyfish.top/
文章内容收录到个人网站,方便阅读:hardyfish.top/
基本介绍
HBase官网:hbase.apache.org/
Apache HBase 是 Hadoop中一个支持分布式的、可扩展的大数据存储的数据库。
当需要对大数据进行随机、实时读/写访问时,可以用 Apache HBase。
HBase特点
列式存储:
HBase是面向列族的非关系型数据库,每行数据列都可以不同,并且列可以按照需求进行动态增加。
因此在开始创建HBase表时,可以只创建列族,等需要时再创建相应的列。
数据压缩:
列式存储意味着数据往往类型相同,可以采用某种压缩算法进行统一的压缩存储。
海量存储:
HDFS支持的海量存储,存储PB级数据仍能有百毫秒内的响应速度。
基本操作
Shell操作
进入HBase客户端命令操作界面:
hbase shell
查看帮助命令:
hbase(main):001:0> help
查看当前数据库中有哪些表:
hbase(main):006:0> list
创建一张表:
创建user表, 包含base_info、extra_info两个列族
hbase(main):007:0> create 'user', 'base_info', 'extra_info'create 'user', {NAME => 'base_info', VERSIONS => '3'},{NAME => 'extra_info'}
添加数据操作:
向user表中插入信息,row key为 rk0001,列族base_info中添加name列标示符,值为zhangsan
hbase(main):008:0> put 'user', 'rk0001', 'base_info:name', 'zhangsan'
向user表中插入信息,row key为rk0001,列族base_info中添加age列标示符,值为20
hbase(main):010:0> put 'user', 'rk0001', 'base_info:age', 20
查询数据:
通过rowkey进行查询:
- 获取user表中row key为rk0001的所有信息
hbase(main):006:0> get 'user', 'rk0001'
查看rowkey下面的某个列族的信息:
- 获取user表中row key为rk0001,base_info列族的所有信息
hbase(main):007:0> get 'user', 'rk0001', 'base_info'
查看rowkey指定列族指定字段的值:
- 获取user表中row key为rk0001,base_info列族的name、age列标示符的信息
hbase(main):008:0> get 'user', 'rk0001', 'base_info:name', 'base_info:age'
查看rowkey指定多个列族的信息
- 获取user表中row key为rk0001,base_info、extra_info列族的信息
hbase(main):010:0> get 'user', 'rk0001', 'base_info', 'extra_info'hbase(main):011:0> get 'user', 'rk0001', {COLUMN => ['base_info', 'extra_info']}hbase(main):012:0> get 'user', 'rk0001', {COLUMN => ['base_info:name', 'extra_info:address']}
指定rowkey与列值查询:
- 获取user表中row key为rk0001,cell的值为zhangsan的信息
hbase(main):013:0> get 'user', 'rk0001', {FILTER => "ValueFilter(=, 'binary:zhangsan')"}
指定rowkey与列值模糊查询:
- 获取user表中row key为rk0001,列标示符中含有a的信息
hbase(main):015:0> get 'user', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"}
插入一批数据:
hbase(main):016:0> put 'user', 'rk0002', 'base_info:name', 'fanbingbing'hbase(main):017:0> put 'user', 'rk0002', 'base_info:gender', 'female'hbase(main):018:0> put 'user', 'rk0002', 'base_info:birthday', '2000-06-06'hbase(main):019:0> put 'user', 'rk0002', 'extra_info:address', 'Shanghai'
查询所有数据:
hbase(main):020:0> scan 'user'
列族查询:
- 查询user表中列族为 base_info 的信息
Scan:
- 设置是否开启Raw模式,开启Raw模式会返回包括已添加删除标记但是未实际删除的数据。
- VERSIONS指定查询的最大版本数。
hbase(main):021:0> scan 'user', {COLUMNS => 'base_info'}hbase(main):022:0> scan 'user', {COLUMNS => 'base_info', RAW => true, VERSIONS => 5}
多列族查询:
hbase(main):023:0> scan 'user', {COLUMNS => ['base_info', 'extra_info']}hbase(main):024:0> scan 'user', {COLUMNS => ['base_info:name', 'extra_info:address']}
指定列族与某个列名查询:
- 查询user表中列族为base_info、列标示符为name的信息。
hbase(main):025:0> scan 'user', {COLUMNS => 'base_info:name'}
指定列族与列名以及限定版本查询:
- 查询user表中列族为base_info、列标示符为name的信息,并且版本最新的5个
hbase(main):026:0> scan 'user', {COLUMNS => 'base_info:name', VERSIONS => 5}
指定多个列族与按照数据值模糊查询:
- 查询user表中列族为 base_info 和 extra_info且列标示符中含有a字符的信息
hbase(main):027:0> scan 'user', {COLUMNS => ['base_info', 'extra_info'], FILTER => "(QualifierFilter(=,'substring:a'))"}
rowkey的范围值查询:
- 查询user表中列族为info,rk范围是[rk0001, rk0003)的数据
hbase(main):028:0> scan 'user', {COLUMNS => 'base_info', STARTROW => 'rk0001', ENDROW => 'rk0003'}
指定rowkey模糊查询:
hbase(main):029:0> scan 'user',{FILTER=>"PrefixFilter('rk')"}
更新数据值:
- 把user表中rowkey为rk0001的base_info列族下的列name修改为zhangsansan
hbase(main):030:0> put 'user', 'rk0001', 'base_info:name', 'zhangsansan'
指定rowkey以及列名进行删除:
- 删除user表row key为rk0001,列标示符为 base_info:name 的数据
hbase(main):032:0> delete 'user', 'rk0001', 'base_info:name'
指定rowkey,列名以及字段值进行删除:
- 删除user表row key为rk0001,列标示符为base_info:name,timestamp为1392383705316的数据
hbase(main):033:0> delete 'user', 'rk0001', 'base_info:age', 1564745324798
删除 base_info 列族
hbase(main):034:0> alter 'user', NAME => 'base_info', METHOD => 'delete'hbase(main):035:0> alter 'user', 'delete' => 'base_info'
删除user表数据:
hbase(main):036:0> truncate 'user'
删除user表:
hbase(main):036:0> disable 'user'hbase(main):037:0> drop 'user'ERROR: Table user is enabled. Disable it first.
数据模型
逻辑结构:
物理架构:
Rowkey(行键):
- Table 的主键,Table 中的记录按照 Rowkey 的字典序进行排序。
Column Family(列族):
- 表中的每个列,都归属与某个列族。
- 列族是表的 Schema 的一部分,必须在使用表之前定义。
Timestamp(时间戳):
- 每次数据操作对应的时间戳,可以看作是数据的 Version 版本号。
Column(列):
- 列族下面的具体列。
- 属于某一个 ColumnFamily,类似于 MySQL 当中创建的具体的列。
Cell(单元格):
- 由
{rowkey, column, version}
唯一确定的单元。- Cell 中的数据没有类型,全部是以字节数组进行存储。