深入理解Cassandra中用户指定的Compaction执行-阿里云开发者社区

深入理解Cassandra中用户指定的Compaction执行

2019-11-03 2217

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生多模数据库 Lindorm，多引擎多规格 0-4节点

云数据库 Redis 版，社区版 2GB

云数据库 MongoDB，通用型 2核4GB

简介： 深入理解Cassandra中用户指定的Compaction执行

在本文中，我将向您介绍Apache Cassandra中的一个高级选项，称为用户自定义compaction。顾名思义，这是一个告诉Cassandra显式地为一个或多个表创建compaction任务，然后这个任务被移交给Cassandra运行时，像其他任何compaction一样执行。

这不是你每天都需要做的操作。但是，当您希望立即回收磁盘空间，而不希望等待正常compaction启动时，它非常有用。

除非您运行的是Cassandra 3.4版（请参阅CASSANDRA-10660），否则需要使用JMX来发布用户定义的Compact.如果您以前没有使用过jmx命令，那么一开始可能会觉得很难接受。如果您来自非java背景，那么它很可能是一个完全陌生的概念。别让那吓跑你！在本文结束时，您将能够使用名为jmxterm的实用程序执行用户定义的compact。

为了演示这个过程，我们将使用本地安装的Cassandra 3.0.9，它加载了movielens数据（请参阅Movielens项目），使用CDM实用程序并强制刷新到磁盘（要了解更多关于CDM的信息，请参阅此TLP博客文章）：

cdm install movielens
nodetool flush

需要调用nodetool flush以确保memtables已写入磁盘，如果我们不这样做，我们的数据将被放在内存中，Compaction是需要数据存在磁盘上。

我注意到movielens keyspace的用户目录中的数据文件：

jhaddad@rustyrazorblade ~/dev/cassandra$ find data/data/movielens/  -name '*Data.db'
data/data/movielens//movies-6728183094d311e68b105dbb96ed2de2/mc-1-big-Data.db
data/data/movielens//ratings_by_movie-6c2408d094d311e68b105dbb96ed2de2/mc-1-big-Data.db
data/data/movielens//ratings_by_user-69a85a7094d311e68b105dbb96ed2de2/mc-1-big-Data.db
data/data/movielens//users-68668ba094d311e68b105dbb96ed2de2/mc-1-big-Data.db

你可以在上面的输出中看到，我们有一个“users”目录，其中有一个数据文件mc-1-big-data.db。我们稍后需要完整的路径。

既然磁盘上有SSTables，那么让我们使用JMX来调用compact，因此我们首先需要获取jmxterm，这可能是整个过程中最棘手的部分，因为原始jmxterm页面上的下载链接已断开。从下载jmxterm的目录中使用以下命令启动它：

  java -jar jmxterm-1.0-alpha-4-uber.jar

要查看所有可用的命令，请使用help命令（输出被截断）：

$>help
#following commands are available to use:
about    - Display about page
bean     - Display or set current selected MBean.
beans    - List available beans under a domain or all domains
...
open     - Open JMX session or display current connection
option   - Set options for command session
quit     - Terminate console and exit
run      - Invoke an MBean operation
set      - Set value of an MBean attribute

不过，我们要做的第一件事实际上是链接上Cassandra。标准的jmx端口是7199，你可以将其与主机一起传递给open命令：

$>open localhost:7199
#Connection to localhost:7199 is opened

在连接打开的情况下，我们可以在这里键入bean以获取可以访问的mbean列表。mbean只是通过jmx控制数据库的一种方式。我简化了输出，以便更容易找到我们要找的东西，CompactionManager：

$>beans -d org.apache.cassandra.db
#domain = org.apache.cassandra.db:
org.apache.cassandra.db:columnfamily=IndexInfo,keyspace=system,type=ColumnFamilies
org.apache.cassandra.db:columnfamily=aggregates,keyspace=system_schema,type=ColumnFamilies
...
org.apache.cassandra.db:type=CompactionManager
...

现在我们知道了mbean的名称，可以调用run命令，将mbean方法名forceuserdefinedcompaction和一个或多个文件路径作为参数传递：

$>run -b org.apache.cassandra.db:type=CompactionManager forceUserDefinedCompaction data/data/movielens//users-68668ba094d311e68b105dbb96ed2de2/mc-1-big-Data.db
#calling operation forceUserDefinedCompaction of mbean org.apache.cassandra.db:type=CompactionManager
#operation returns:
null

不幸的是，不是很令人高兴的输出。只有在查看目录后，我们才能看到文件号已从mc-1更改为mc-2：

jhaddad@rustyrazorblade ~/dev/cassandra$ ls data/data/movielens/users-68668ba094d311e68b105dbb96ed2de2/*Data.db
data/data/movielens/users-68668ba094d311e68b105dbb96ed2de2/mc-2-big-Data.db

Compact多个文件只是将它们传递给MBean，用逗号分隔。

此时，您应该熟悉使用jmxterm通过JMX启动用户定义的compact的过程我建议您在笔记本电脑上尝试一下，以适应这个过程，并探索其他可用的MBean。如果您更喜欢使用可视化工具而不是命令行工具，请查看jconsole，它随oracle jdk一起提供，但通常在生产中不太有用。

本文翻译自：https://thelastpickle.com/blog/2016/10/18/user-defined-compaction.html

入群邀约
为了营造一个开放的 Cassandra 技术交流环境，社区建立了微信群公众号和钉钉群，为广大用户提供专业的技术分享及问答，定期开展专家技术直播，欢迎大家加入。
阿里云为广大开发者提供云上Cassandra资源，可用于动手实践：9.9元可使用三月（限首购）。
直达链接：https://www.aliyun.com/product/cds
8a55f5a99463a7276265074b1079d74f4ab3d164

深入理解Cassandra中用户指定的Compaction执行

NoSQL数据库

热门文章

最新文章

相关电子书