CLI使用案例7:使用CLI进行高速跨域日志复制、历史数据重新索引与数仓投递

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 高速跨域日志复制、对历史数据重新索引,投递历史数据到OSS/ODPS?现在这些操作CLI都可以支持了。

背景

使用日志服务是不是常常遇到如下烦恼?

  1. 开启了字段索引却无法对历史日志起作用,而手动重建索引又很困难怎么办?
  2. 需要迁移数据,复制数据到其他区域logstore,写代码实现大并发复制又很复杂怎么办?
  3. 投递日志到OSS/ODPS仅仅对新数据起作用,又想投递历史日志怎么办?

现在使用CLI就可以帮你轻松实现这些操作。

介绍

复制数据(CopyData)支持将特定时间范围内的logstore的数据复制到特定logstore中去。其具备如下一些特点:

  1. 没有索引的数据也可以同步.
  2. 速度快, 易并发, 且支持传输压缩.
  3. 拉取的数据按照服务器接受的时间排序.
  4. 支持跨域、跨项目库复制。
  5. 支持复制数据到同一个logstore(重新索引)。

前提

这里假设已经完成了CLI的安装.

配置多区域账户

首先CLI中配置多个区域账户, 以便后续操作, 这一步也是一次性的. 如果之前已经做过, 这里可以跳过.

这里配置2个域的账户, 一个杭州公有云, 一个北京公有云.

> aliyunlog configure AKID****123 AKKEY****123 cn-hangzhou.log.aliyuncs.com
> aliyunlog configure AKID****123 AKKEY****123 cn-beijing.log.aliyuncs.com bj

注意: 这里的最后一个参数, 仅仅用于表明这个账户的名字, 以便后续使用. 不传入默认是main, 也是默认使用的账户, 这里使用杭州的账户作为默认账户.

参考:

  • 关于秘钥的配置, 可以参考配置
  • 关于日志服务在各个域的Endpoint地址, 可以参考入口服务

重新索引

如果因为某些特定原因,某个时间范围内的日志没有建立索引,无法被查询和统计。可以如下操作将日志重新写入,就可以实现重新索引的效果。

例如:

aliyunlog log copy_data --project="源project" --logstore="源logstore" --from_time="2018-09-05 0:0:0+8:00" --to_time="2018-09-06 0:0:0+8:00"

这里将杭州区域的源project源logstore中服务器在时间范围["2018-09-05 0:0:0+8:00","2018-09-06 0:0:0+8:00")内接收到的数据,重新写入到源logstore中去。

注意:
这里仅仅是复制一份数据进入目标logstore,并在写入时自动对其索引,原来的没有被索引的日志依然存在。

跨区域复制数据

有时需要将某一个logstore的日志迁移到另外一个logstore中去时,可以如下操作:

准备好目标logstore

假设目标logstore已经创建好了,并且配置好了索引。这一步操作可以在Web控制台完成,也可以通过CLI的复制logstore配置来完成,或者使用CLI的create_logstore创建日志库,再配置索引,通过命令get_index_config获取索引,调用命令create_index来实现。

复制数据

例如:

aliyunlog log copy_data --project="源项目" --logstore="源logstore" --from_time="2018-09-05 0:0:0+8:00" --to_time="2018-09-06 0:0:0+8:00" --to_project="目标project" --to_logstore="目标logstore" --to_client="bj"

这里将杭州区域的源project源logstore中服务器在时间范围["2018-09-05 0:0:0+8:00","2018-09-06 0:0:0+8:00")内接收到的数据,写入到北京区域的目标project目标logstore中去。

注意:
这里用--to_client指定操作目标project的账户为bj,是前面前提中配置的账户名。

投递历史日志到OSS/ODPS

日志服务的投递任务配置好后,仅仅对新接受数据产生作用。这里也可以借助复制数据来实现投递历史日志的效果:

  1. 创建一个临时的logstore(不需要配置索引)
  2. 在临时logstore上配置投递OSS/ODPS的任务
  3. 复制需要投递的日志到目标logstore
  4. 投递结束后,删除临时logstore

时间格式

时间格式推荐是%Y-%m-%d %H:%M:%S %Z, 如2018-01-24 17:00:00+8:00, 但也支持其他合法的时间格式, 例如:Jan 01 2018 10:10:10+8:00

注意: +8:00是时区信息.

CLI还支持更多其他格式的时间格式,例如2 day ago等,参考这里.

时间范围

传入的时间范围, 需要注意几点:

  1. 这里的时间指的是服务器接受日志的时间
  2. 时间的范围是左闭右开[), 上面例子中16:00:00服务器接受到的日志会被拉取到, 但是17:00:00服务器所接受到的日志不会.

特殊的时间范围

有时我们不关心数据的某一边界, 例如期望获得所有存储的数据到某一天日期位置. 或者获取从某一天开始到目前存储的数据为止的话, 就可以使用特殊游标.

特殊游标包括beginend. 例如:

aliyunlog log copy_data --project="p1" --logstore="l1" --from_time="begin" --to_time="2018-01-24 17:00:00+8:00" --to_logstore="l2"

这里复制所有2018-01-24 17:00:00+8:00之前服务器接收到的日志到logstorel2

又例如:

aliyunlog log copy_data --project="p1" --logstore="l1" --from_time="2018-01-24 17:00:00+8:00" --to_time="end" --to_logstore="l2"

这里复制所有2018-01-24 17:00:00+8:00开始及之后服务器接收到的日志到logstorel2

进一步参考

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
3月前
|
监控 Android开发 C语言
深度解读Android崩溃日志案例分析2:tombstone日志
深度解读Android崩溃日志案例分析2:tombstone日志
78 0
|
4月前
|
存储 算法 数据挖掘
带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(2)
带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(2)
|
4月前
|
存储 SQL 大数据
带你读《Apache Doris 案例集》—— 01 招商信诺人寿 基于 Apache Doris 统一 OLAP 技术栈实践(1)
带你读《Apache Doris 案例集》—— 01 招商信诺人寿 基于 Apache Doris 统一 OLAP 技术栈实践(1)
142 0
|
4月前
|
存储 运维 关系型数据库
带你读《Apache Doris 案例集》——04 星云零售信贷 基于 Apache Doris 的 OLAP 演进之路(1)
带你读《Apache Doris 案例集》——04 星云零售信贷 基于 Apache Doris 的 OLAP 演进之路(1)
带你读《Apache Doris 案例集》——04 星云零售信贷  基于 Apache    Doris 的 OLAP  演进之路(1)
|
4月前
|
存储 安全 数据挖掘
带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(1)
带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(1)
|
22天前
|
关系型数据库 MySQL OLAP
PolarDB +AnalyticDB Zero-ETL :免费同步数据到ADB,享受数据流通新体验
Zero-ETL是阿里云瑶池数据库提供的服务,旨在简化传统ETL流程的复杂性和成本,提高数据实时性。降低数据同步成本,允许用户快速在AnalyticDB中对PolarDB数据进行分析,降低了30%的数据接入成本,提升了60%的建仓效率。 Zero-ETL特性包括免费的PolarDB MySQL联邦分析和PolarDB-X元数据自动同步,提供一体化的事务处理和数据分析,并能整合多个数据源。用户只需简单配置即可实现数据同步和实时分析。
|
1月前
|
SQL 数据采集 存储
数据仓库(12)数据治理之数仓数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
136 0
|
1月前
|
存储 大数据 数据管理
数据仓库(09)数仓缓慢变化维度数据的处理
数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。
207 2
数据仓库(09)数仓缓慢变化维度数据的处理
|
1月前
|
SQL 缓存 关系型数据库
MySQL的万字总结(缓存,索引,Explain,事务,redo日志等)
MySQL的万字总结(缓存,索引,Explain,事务,redo日志等)
65 0
|
3月前
|
SQL 分布式计算 Java
数仓学习---7、数据仓库设计、数据仓库环境准备、模拟数据生成
数仓学习---7、数据仓库设计、数据仓库环境准备
118 2

相关产品

  • 日志服务