质量监控流程故障排除

_相关内容

快速入门-ECS容灾

您可以通过云备份控制台对ECS实例进行跨地域、跨可用区的容灾保护。本文介绍这两个场景涉及的主要步骤。使用云备份控制台进行ECS容灾保护的流程如下所示:说明 跨地域容灾和跨可用区容灾的操作基本一致,此处以跨地域容灾为例。开通云备份 ...

概览

本文为您介绍站点监控的含义、典型应用场景和监控类型。站点监控是一款定位于网络探测的监控产品,主要用于通过遍布全国的探测点,发送模拟真实用户访问的探测请求,监控全国各省市运营商网络终端用户到您服务站点的访问情况。计费说明 当...

业务流量隔离功能实践

安全生产环境 区别于一般的灰度发布,安全生产环境是搭建一套与生产环境中间件隔离的环境,包含独立配套的监控告警系统,便于灰度发布、故障演练、链路压测、算法调优等,能有效优化研发流程和线上产品服务稳定性。由于中间件隔离,上游...

接入ARMS监控

故障演练时通过接入应用实时监控服务ARMS(Application Real-Time Monitoring Service)可以对演练过程的指标进行监控,包含JVM内存、JVM线程数、JVMGC相关、网络出入口流量、磁盘、CPU等指标。本文介绍如何在故障演练中接入ARMS并监控演练...

什么是云监控

监控涵盖IT设施基础监控和外网网络质量拨测监控,是基于事件、自定义指标和日志的业务监控,为您全方位提供更高效、全面、省钱的监控服务。使用云监控,不但可以帮助您提升系统服务可用时长,还可以降低企业IT运维监控成本。云监控通过...

DataWorks模块使用说明

通过对数据质量规则的高效校验,以及与任务调度流程的紧密结合,可以帮助用户第一时间发现质量问题、有效防止数据质量问题扩散,为业务提供高效、可靠、可信赖的数据。使用流程概览:参考文档:数据质量概述 数据分析 子模块:数据分析 ...

手动创建监控任务

监控任务管理可针对不同来源的任务进行统一监控任务的配置管理,支持批量创建、手动创建以及通过内置监控端对第三方系统和其他需要监控的任务创建。本文介绍如何手动创建监控任务。前提条件 任务来源处已完成任务配置且任务已运行。已添加...

手动创建监控任务

监控任务管理可针对不同来源的任务进行统一监控任务的配置管理,支持批量创建、手动创建以及通过内置监控端对第三方系统和其他需要监控的任务创建。本文介绍如何手动创建监控任务。前提条件 任务来源处已完成任务配置且任务已运行。已添加...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

设计方案

从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队对软件生产运行的...

故障管理

在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别的目标和服务级别质量。在IT和互联网企业的实践...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

混合云应用双活容灾最佳实践

多活控制台提供MSFE集群界面白屏化的部署、扩缩容、监控等常规运维能力,以及应对故障场景的分钟级切流能力。服务互通和同单元优先调用:业务应用需要按业务产品线分批上云,过程中存在下游应用仅IDC部署的情况。利用MSHA注册中心同步功能...

2017年

V2.2.6 发布时间:2017-08-31 新特性:全新发布针对质量和性能监控的前端监控功能。支持使用MQ数据源进行业务监控。V2.2.5 发布时间:2017-07-26 新特性:ARMS数据源支持MQ数据接入。数据集支持百万级数据查询。同类报警支持聚合展示,展示...

通过企业监控大盘实现本地日志监控

登录 云监控控制台。在左侧导航栏,选择 云资源监控>应用分组。在 应用分组 页签,单击左上角的 创建应用分组。在 创建应用分组 面板,选择 创建实例方法 为 手动创建,输入 应用分组名称,打开 初始化安装监控插件 开关,选择 报警联系人...

附录:SOFAStack 产品目录

微服务治理中心 提供一系列的服务治理策略,保障服务高质量运行,最终达到对外承诺的服务质量等级协议。高可靠的轻量级配置中心 提供应用运行时动态修改配置的服务,并提供图形化的集中化管理界面。多活数据中心 支持同城双活/异地多活架构...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

产品架构介绍

MSHA产品架构图 控制控制台是用户侧控制台入口,提供MSFE、HSF、Dubbo、MQ、RDS和DRDS等各类技术架构下的容灾配置及容灾切换。业务LDC定义与多活实例创建。接入层、应用层和数据层的各类技术架构容灾配置。多活架构下的全栈监控。多活...

EDAS直播公告

EDAS围绕应用实现了轻量化运维:支持监控报警和全流程可视化的发布变更流程等功能。EDAS支持分批发布、金丝雀发布、多可用区的高可用部署等能力。2020-07-07 阿里云EDAS 3.0版重磅升级发布会 阿里云EDAS 3.0里程碑版本重磅发布,打造全新的...

什么是云拨测

云拨测(Synthetics Monitor)通过部署在全球各地的监测点,模拟真实用户从全球不同地区不同网络条件访问在线服务,持续对网络质量、网站性能、文件传输等场景进行可用性监测和性能监测。您可以通过可视化大盘查看监测数据,并对数据进行多...

新功能发布记录

30 响应云盒维修事件 新增地域 新增以下两个地域:华东2(上海)华北1(青岛)2023-06-21 关联地域 2023年5月 功能名称 功能概述 发布时间 相关文档 故障服务器维修方案 云盒内的服务器出现故障时,阿里云将按照流程拆除和更换故障服务器,...

变更管理

运维事件中心是阿里云提供的云上变更管理服务,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

管理站点监控任务

登录 云监控控制台。在左侧导航栏,选择 网络分析与监控>站点监控。在 站点监控 页面,您可以查看站点监控列表中的所有报警任务数、近24小时报警数和昨日探测次数。在 监控任务 页签,单击目标站点监控任务名称链接。您可以查看站点监控...

功能更新记录

全部地域 2021-09-15 故障场景参数分层 将故障场景的配置参数分为故障配置(故障的基础参数配置)、影响范围(故障的爆破半径)、通用配置(场景通用参数,如“debug日志开关”等)、流程配置(节点等执行方式手动/自动、容忍度等),从而...

创建演练

背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 操作步骤 登录 AHAS控制台,在左侧导航栏中选择 故障演练>我的空间。在 我的空间 页面,单击 新建演练。选择 新建空白演练 或 从经验库新建。...

产品优势

对比项 计算巢 传统服务方式 服务交付 标准化交付,自动化执行服务部署流程,效率高,交付质量稳定。依赖人工完成服务部署,效率低,交付质量容易受到交付人员自身水平影响。无需人工参与,降低交付成本。依赖人工交付,受人力和交付时长...

功能概览

使用流程 在混合云容灾服务控制台,实现对关键应用的容灾保护,主要步骤包括如下:步骤一:资源规划。进行容灾前,您需要提前规划容灾所需的计算、存储、网络等资源。例如服务器数量、存储容量、划分网络VPC等。步骤二:创建容灾站点对。...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

云盒故障服务器维修流程

流程说明 对于故障服务器的更换和数据擦除工作,按以下流程进行:现场拆除 阿里云工程师与客户预约上门时间,并按约定时间到现场拆除云盒内的故障服务器。拆除过程需严格按照内部工单进行操作,将故障服务器关机下架。如果服务器没有关机,...

应用场景

服务网格 ASM主要适用于需要对应用服务进行流量管理、安全管理、故障恢复、观测监控以及微服务架构迁移的应用场景。本文介绍ASM的常见应用场景。流量管理 通过ASM,可以轻松实现基于配置的流量管理:将流量管理与基础设施管理分隔开来,并...

功能特性

拨测监控 智能接入网关支持拨测监控功能,您可以通过为智能接入网关实例创建应用拨测监控对具体的业务目标进行监控,并通过云监控控制台设置报警规则,从而获知监控数据异常,以便您及时处理问题。更多信息,请参见 拨测监控。

故障协同处理(基于钉钉)

云钉运维故障协同效果 功能概述 移动应用端(目前仅支持“钉钉”,以下功能说明均基于钉钉场景)支持接收故障消息提示和进行故障操作,且支持移动端操作管理故障,操作记录实时同步到 运维事件中心 控制台。故障协同处理使用条件 成功开通...

操作流程

操作流程 在云备份服务控制台,实现对关键应用的容灾保护,主要步骤包括如下:步骤一:资源规划。进行容灾前,您需要提前规划容灾所需的计算、存储、网络等资源。例如服务器数量、存储容量、划分网络VPC等。步骤二:创建容灾站点对。准备好...

基础设施安全

AIMaster作为任务级别组件,当任务开启容错监控功能后,会拉起AIMaster实例,与任务其它实例一起运行,进行任务监控、容错判断、资源控制的作用。详细请参见 AIMaster:弹性自动容错引擎。算力健康检测 进行AI训练时,DLC提供算力健康检测...

操作流程

操作流程 在混合云容灾服务控制台,实现对关键应用的容灾保护,主要步骤包括如下:步骤一:资源规划。进行容灾前,您需要提前规划容灾所需的计算、存储、网络等资源。例如服务器数量、存储容量、划分网络VPC等。步骤二:创建容灾站点对。...

新功能发布记录

2021-07-30 全部地域 接入外部报警 2021年05月 功能名称 功能描述 发布时间 发布地域 相关文档 监控大盘 线下IDC、阿里云产品和其他云厂商产品的监控数据接入云监控后,您可以为监控数据创建监控大盘,通过监控大盘查看指定监控指标的监控...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止...

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组后,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行容灾恢复。本文主要介绍如何通过一致性复制组进行容灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

PTS压测快速入门

阿里云提供的业务高可用架构体系,为企业提供营销活动、成本控制(压测、容量规划、流量控制)、应急(开关)、容灾逃逸(架构感知、故障演练、异地多活)的解决方案。其中PTS压测作为容量规划阶段重要的环节,可模拟海量用户的真实业务...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用