DigitalOcean添加监控和告警特性

简介:

 云基础设施提供商DigitalOcean最近释放了监控服务器和发送告警的功能。尽管这不是什么新奇的功能,但是这个免费的特性带有一定的象征性,代表了行业越来越关注服务器和应用内部的运行情况。
DigitalOcean的监控服务是基于agent的。它能用于新的和已有的虚拟机(被称为“droplets”)。开发人员可以在供应基于Linux的droplets时安装这个agent,也可以在事后运行一个构建脚本。agent会捕获各种指标,包括:CPU、内存使用、磁盘I/O、磁盘使用率、输入带宽和输出带宽。这些指标只能通过仪表盘来查看,无法通过API访问。因为这些指标是通过内置(on-box)的agent来收集的,像“top进程”这样的信息也是可以获取到的。开发人员能够创建告警策略,当达到一定的性能阈值就会产生警报。这些策略可以用于单个droplet,也可以用于一组droplet。报警能够通过Email地址或Slack channel来进行发送。DigitalOcean最多会将指标信息存储30天。但是,如果用户销毁某个droplet的话,指标信息也会立即消除。

在提供监控服务之前,DigitalOcean依赖于合作伙伴来弥补这块缺失的功能。DigitalOcean的联合创始人Mitch Wainer对记者Ben Kepes说,他们的核心合作伙伴并没有对这些功能感到惊讶。

当然,对于Wainer来说,一个明显的问题在于如何处理与DigitalOcean已有的合作伙伴的关系。Wainer非常开放和坦诚,他承认这会影响到合作伙伴。但是他很快补充说,DigitalOcean一直对它的发展意图非常开放,给了这些供应商很长的时间来准备这种变更。

其他主要的IaaS厂商也支持范围广泛的合作伙伴,但是多年来一直都会提供内置的监控功能。Amazon CloudWatch有一个用于服务器监控的免费层级(free tier),能够存储性能数据超过一年的时间。另外,AWS还提供了可视化、告警、API访问、更高级的层级(需要收取一定费用)、自定义指标和日志监控的功能。微软为Azure虚拟机也提供了综合的监控功能。用户可以创建告警,将指标归档到长期存储中,然后通过API来消费和查询数据。Google Stackdriver监控支持Google Compute Engine和AWS服务器。它有一个免费层级,同时还有一个更高层级的服务。与其他的IaaS供应商类似,Google提供了自定义指标、告警策略、丰富的提醒方案、API访问等功能。

用户对服务器和应用监控的期望在发生着变化。The New Stack的一份报告指出了容器化对监控需求会带来什么样的影响。临时性服务(Ephemeral service)、要跟踪的“东西”呈现多样化、关注“服务”而不是“服务器”以及新类型的终端用户,上述的这些变化都导致传统的监控方式力不从心。临时性服务意味着厂商需要有新的方式来定价,因为服务实例会随时加入或销毁。为了应对更复杂的应用拓扑架构所带来的挑战,AWS在2016年引入了X-Ray。在帮助现代团队监控服务和解决问题方面,工具和服务出现了爆炸性地增长。已有的厂商,比如New Relic、Dynatrace和Datadog在不断演化其产品,以满足新的需求。新出现的解决方案也都引起了业界的关注,比如Prometheus、Pivotal Cloud Foundry Metrics、Honeycomb和Zipkin。

DigitalOcean的监控是免费使用的,在全球范围内的八个机房都可以访问。在宣布该项服务的博客文章的结尾,DigitalOcean给出了这项服务的未来规划。

监控服务的第一个迭代成果已经和大家见面了,我们已经致力于下一个迭代的工作。很快将会推出的特性包括:

对告警策略的API支持

告警的可视化增强

监控块存储(Block Storage)

将告警通知外部服务的Webhooks

本文转自d1net(转载)

相关文章
|
7月前
|
存储 消息中间件 监控
代码级别监控:常见的全链路监控工具介绍
代码级别监控:常见的全链路监控工具介绍
WGCLOUD学习使用 - 服务器负载值过高会告警吗
会 如果主机的负载值超过告警阈值,就会发送告警通知
|
12月前
|
Prometheus 资源调度 Kubernetes
【夜莺监控】管理Kubernetes组件指标(上)
【夜莺监控】管理Kubernetes组件指标(下)
|
12月前
|
存储 缓存 Prometheus
【夜莺监控】管理Kubernetes组件指标(下)
【夜莺监控】管理Kubernetes组件指标(下)
|
6天前
|
SQL 运维 监控
基于访问日志构建应用服务的SLO监控
背景随着系统自动化的不断深入,核心业务系统的日益复杂,服务开发运维人员越来越迫切的需要了解系统的当前状态,在出现异常时及时了解服务异常原因以及评估业务的受损情况。服务提供方以及使用者都可以基于该关键指标实时观测系统状态,及观测到解服务异常。下面我们以OSS访问日志为例,来看下如何计算特定服务的可用性...
基于访问日志构建应用服务的SLO监控
|
6天前
|
存储 数据采集 监控
【最佳实践】无数据告警配置
背景在对SLS的Logstore和Metricstore进行监控的过程中,有时候会出现一些无数据的情况,例如数据采集阶段出现故障Logtail采集异常、数据导入任务异常或者SDK写入数据出错等情况都有可能导致日志库中没有数据。业务系统出现问题例如用户的业务日志中有某个系统模块的日志,在一段时间内,由...
46 0
【最佳实践】无数据告警配置
|
运维 监控 微服务
在ASM中为应用服务启用SLO(1):服务等级目标SLO概览
服务等级目标 (SLO) 提供了一种形式化的方式来描述、衡量和监控微服务应用程序的性能、质量和可靠性。SLO 为应用开发和平台团队、运维团队提供了一个共享的质量基准,作为衡量服务水平质量以及持续改进的参考。SLO 由一个或多个服务等级指标 (SLI) 组成。使用 SLI 组合定义的 SLO 允许团队以更精确和相关的方式描述服务健康状况。 阿里云服务网格ASM提供了开箱即用的基于服务等级目标SLO的监控和告警能力,用于监控应用服务之间调用的延迟和错误率特征。
466 1
在ASM中为应用服务启用SLO(1):服务等级目标SLO概览
|
运维 监控 安全
启用控制面日志采集及告警提升系统稳定性
服务网格的控制面组件扮演的一个重要角色是负责推送网格的规则配置到数据面的Sidecar代理或者网关中。如果用户配置的网格规则内容存在一些冲突导致推送失败, 因此代理或者网关就接收不到最新的配置内容。 因为代理或网关在不重启的情况下, 仍然可以使用已经接收到的配置继续运行, 但是一旦这些Pod重启, 很有可能导致Sidecar代理或网关启动失败。 在很多实际的客户场景中, 经常出现用户误配置引发的网关或代理不可用问题, 因此启用控制面的日志告警, 及时发现问题、解决问题势在必行。 ASM支持采集控制平面日志和日志告警,例如采集ASM控制平面向数据平面Sidecar推送配置的相关日志。
245 0
启用控制面日志采集及告警提升系统稳定性
|
JSON 运维 Kubernetes
K8s场景下Logtail组件可观测方案升级-Logtail事件监控发布
SLS针对Logtail本身以及Logtail的管控组件alibaba-log-controller,采用K8s事件的方式,将处理流程中的关键事件透出,从而让用户能够更清楚的感知其中发生的异常。
496 0
K8s场景下Logtail组件可观测方案升级-Logtail事件监控发布
|
存储 数据采集 监控
【笔记】用户指南—监控与告警—存储资源监控
为方便您掌握实例的运行状态,PolarDB-X提供监控查询功能。您可以在控制台上查看计算资源监控和存储资源监控信息。其中存储资源监控展示了实例存储层资源的性能数据,本文将介绍如何查看存储资源监控信息。
【笔记】用户指南—监控与告警—存储资源监控