持久故障工作原理-持久故障工作原理文档介绍内容-移动阿里云

发现并处理大Key和热Key

在使用云原生内存数据库Tair 的过程中，如果未能及时发现并处理Big keys（下文称为“大Key”）与Hotkeys（下文称为“热Key”），可能会导致服务性能下降、用户体验变差，甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

分布式工作流Argo集群概述

分布式工作流Argo集群（简称工作流集群）采用无服务器模式，使用阿里云弹性容器实例ECI运行工作流，通过优化Kubernetes集群参数，实现大规模工作流的高效弹性调度，同时配合抢占式ECI实例，优化成本。本文介绍工作流集群的控制台操作...

跟踪概览

工作原理 跟踪的工作原理如下图所示。使用场景在阿里云操作审计服务（ActionTrail）中，跟踪（Trail）是个非常推荐的功能，您可以通过跟踪中心化收集更长时间的审计日志后，用于安全监控、合规审计、故障诊断、资源变更追踪等多个领域。...

购买与绑定域名

工作原理 权威代理域名权威代理域名是一种权威DNS缓存代理，企业无需对原有DNS系统做数据迁移即可享受阿里DNS提供的全球DNS服务基础设施，帮助企业提升IPv6合规改造、DNS安全攻击防护、DNS访问速度、DNS服务备份的服务能力。使用场景【IPv...

前言

工作原理 创建 App：创建 App 时，将运行作业需要的软件或脚本安装在自定义的镜像中，并设置资源的默认配置，以及输入输出的格式。提交 App 作业：提交作业时，按照上述资源配置启动虚拟机镜像或 Docker 镜像，使用用户输入的数据运行软件...

产品架构

数据迁移工作原理 数据迁移过程包括三个阶段，即结构迁移、全量数据迁移和增量数据迁移。如果需要在迁移期间保持源数据库的正常运行，当您在配置迁移任务时，必须将结构迁移、全量数据迁移和增量数据迁移都选为所需的迁移类型。结构迁移：...

设置Fallback服务

Fallback服务工作原理 如图所示，现有路由/app，目标服务为 ServiceA-v1，设置的Fallback服务为 ServiceA。当 ServiceA-v1 服务不存在，或者无健康、可用的节点时，流量会自动容灾到 ServiceA。操作步骤登录 MSE管理控制台，并在顶部菜单...

常见问题

云工作流的工作原理是什么？云工作流的优势是什么？云工作流最长执行多长时间？怎么执行云工作流？云工作流使用什么语言编写流程？云工作流是集成了云监控？云工作流是否集成了事件源？什么是云工作流？云工作流是一个用来协调多个分布式...

限流防护

使用ASMGlobalRateLimiter对入口网关和应用服务入口流量配置全局限流本地限流的工作原理 Envoy代理使用令牌桶算法实现本地限流。令牌桶算法是一种限制发送到服务端的请求数量的方法，基于一定数量的令牌桶。存储桶以恒定的速率不断填充...

工作原理

本文介绍智能巡检的背景信息、工作原理、功能特性、基本概念、调度与执行场景和使用建议。背景信息基于时间的数据（例如日志、指标）日积月累后会积累大量的数据。例如，某个服务每天产生1000万条数据，则一年大约为36亿条数据。对于这些...

备份中心概述

本文介绍备份中心的工作原理及使用场景。工作原理 基于Velero实现集群中应用（资源YAML）的备份和恢复，并将备份数据安全地存储在指定的对象存储OSS Bucket中。基于ECS的云盘快照功能实现云盘类型存储卷的数据备份和恢复。具体操作，请参见...

实例FAQ

持久内存作为内存使用时，我想用持久内存型实例来运行我的参数服务器（PS），持久内存设置为内存使用方式，可以直接部署吗？购买持久内存型实例后，我如何将持久内存设置为本地盘使用方式？我的哪些应用需要更高性能的本地盘？持久内存作为...

Page Cache限制功能

工作原理 开启Page Cache限制功能后，memcg粒度的工作原理如下。当memcg进程分配Page Cache时，判断当前memcg的Page Cache是否超过限制，并从当前memcg开始往上遍历，逐级检查父memcg的 memory.pagecache_limit 值，如果该值为0，表示父...

网络诊断

工作原理 拓扑构建：在提供诊断信息后，网络诊断会根据所提供的信息，以及集群中所收集到的资源信息（例如Pod、Node、Service、NetworkPolicy等），去构建本次诊断的访问拓扑图。信息采集：网络诊断采集运行时信息、网络协议栈信息以及网络...

专家成长计划技术培训课程

现场面授（特殊情况可调整为线上钉钉群直播）深入运维故障处理技术弹性计算方向弹性计算通用技术 1天 30人该课程的创新点在于全面深入的理解和云计算相关的基础技术，并通过相关产品演示，能够让学员全面理解云计算相关技术，如虚拟化、...

YARN高可用特性使用指南

特性说明 RM HA RM HA工作原理是在不同节点上启动多个RM进程，通过Leader选举决定有且只有1个Active RM，并由Active RM记录应用的基本信息与状态，写入Zookeeper存储中。如果Active RM进程或其所在节点存在问题，Standby RM能够基于...

主备方案介绍

主备容灾原理介绍当云数据库HBase实例因不可预料的原因（例如设备故障、机房断电断网等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。云数据库HBase提供两种灾备方案供您选择，可满足不同的业务场景。灾备方案说明单可用区...

CLB健康检查FAQ

更多信息，请参见 CLB健康检查工作原理。推荐的健康检查配置是什么？为了避免由于健康检查频繁失败引起的切换对系统可用性造成的冲击，健康检查只有在健康检查时间窗内连续多次检查成功或失败后，才会进行状态切换。更多信息，请参见配置...

组复制简介

组复制层组复制层的主要工作是向集群发送、接收并回放事务，其在主节点和备节点上的工作原理如下：在主节点上：当一个事务在主节点进入提交阶段时，事务的Binlog会先被传到XCom层中，发送给其他节点。当确认多数派收到事务后，会对事务...

集成MNS队列

集成模式模式（pattern）参数适用场景说明请求响应模式 requestResponse 事件通知持久化通知工作流执行外的服务，流程执行不关心被通知者如何处理该消息。等待回调模式 waitForCallback 编排自定义任务类型发送消息到队列，任意环境...

跨地域容灾

容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性...

功能更新记录

全部规格全部地域 2021-09-08 混沌工程动手实验室通过免费云资源和真实云环境，帮助您了解混沌工程的原理，体验故障演练。2021-09-06 2021年8月功能名称功能概述支持资源包规格支持地域发布时间容灾演练容灾演练支持可用区级别。...

同城容灾架构概述

基本原理同城容灾是在相隔较远的两地（同城）建立两套功能相同的IT系统，当一处系统因意外（火灾、地震等）停止工作时，整个应用系统可以切换到另一处，使得该系统功能可以继续正常工作。对于中大型企业来说，如果希望业务系统具备同城容...

合理利用存储备份保障业务数据可还原

背景容器场景下，应用本身大多是无状态化的，凭借K8s提供的故障重启、自动注册和发现机制，在多实例部署的场景下，能够较大程度地保障业务的高可靠，但对于有状态服务，如中间件等，为了保障持久稳定的运行，需要考虑业务数据在问题场景下...

Tair选型指南

创建云原生内存数据库Tair 实例前，您需要结合产品性能、价格、业务场景、工作负载等因素，做出性价比与稳定性最优的决策。本文围绕以上因素，着重介绍实例类型、引擎版本、架构、存储介质，为您的选型提供相关参考。免费试用阿里云免费...

高阶使用

配置为故障转移方式，则表示多个Sink是一主多备的工作方式，当工作的Sink中止后，Event会被转移到备用的Sink上。相关示例如下：示例1：故障转移方式 a1.sinkgroups=g1 a1.sinkgroups.g1.sinks=k1 k2 a1.sinkgroups.g1.processor.type=...

什么是云数据库Redis版

标准版-双副本系统工作时主节点（Master）和副本（Replica）数据实时同步，若主节点发生故障，系统会快速将业务切换至备节点，全程自动且对业务无影响，保障服务高可用性。集群版-单副本单副本集群版实例采用集群架构，每个分片服务器...

集群管理FAQ

问题解决后，请参见以下方法预防该问题：使用ACK提供的存储插件实现持久化存储。详细信息，请参见使用云盘动态存储卷。周期性地为kubelet软件所使用的数据卷创建快照。详细信息，请参见使用云盘存储快照。个别节点关机，即该节点上的所有...

产品功能

支持数据持久化及备份恢复策略，有效的保证数据可靠性，可避免物理节点故障缓存失效对后端数据库造成的巨大压力冲击。多层安全防护体系，为您抵御90%以上的网络攻击 DDoS 防护：在网络入口实时监测，当发现超大流量攻击时，对源IP进行清洗...

定时/延时消息

云消息队列 RocketMQ 版定时消息的状态支持持久化存储，系统由于故障重启后，仍支持按照原来设置的定时时间触发消息投递。若存储系统异常重启，可能会导致定时消息投递出现一定延迟。使用示例和普通消息相比，定时消费发送时，必须设置...

什么是应用高可用服务AHAS

故障演练故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品，提供丰富故障场景实现，能够帮助分布式系统提升容错性和可恢复性。流程故障演练建立了一套标准的演练流程，包含准备阶段、执行阶段、检查阶段和恢复阶段。...

多可用区部署

传统的主备容灾概述传统的主备容灾为了实现高可用性，通常的原理是分别在两个不同的可用区（可用区A和可用区B）中购买一个Lindorm实例（主实例1和备实例2），使用数据通道服务（简称LTS）实现Lindorm实例间的双向同步。当主实例1发生故障...

云数据库Redis版产品选型必读

创建Redis实例前，您需要结合产品性能、价格、业务场景、工作负载等因素，做出性价比与稳定性最优的决策。本文围绕以上因素，着重介绍实例类型、引擎版本、架构、存储介质，为您的选型提供相关参考。免费试用阿里云免费试用面向符合条件的...

托管节点池概述

如果您希望将节点进行分组纳管，同时降低节点的运维负担，例如操作系统（OS）CVE漏洞自动修复、kubelet自动升级、节点故障时重启节点等，您可以启用托管节点池。托管节点池是ACK推出的自动化运维型节点池，在普通节点池的基础上支持多种...

功能概览

故障恢复数据同步后切换该故障恢复会停止保护组中被保护的实例，并且一直等到所有被保护的实例停止，再进行最后一轮数据同步，并等待数据同步完成后再启动恢复，服务不可用时间会大于“立即切换”的时间，主要用在生产站点正常工作等场景...

功能概览

故障恢复数据同步后切换该故障恢复会停止保护组中被保护的实例，并且一直等到所有被保护的实例停止，再进行最后一轮数据同步，并等待数据同步完成后再启动恢复，服务不可用时间会大于“立即切换”的时间，主要用在生产站点正常工作等场景...

安装云原生AI套件

安装配置工作流当工作流选中 Kubeflow Pipelines 后，您需要选择工作流数据存储方式。集群内置MinIO 如果没有选择阿里云OSS的存储模式，则默认使用集群内置MinIO。因为稳定性和SLA保障问题，该方式建议仅作为测试使用，不推荐作为生产...

X-Engine简介

这种结构对于写入是非常友好的，只要追加到最新的内存表中即完成，为实现故障恢复，只需记录Redo Log，因为新数据不会覆盖旧版本，追加记录会形成天然的多版本结构。但是如此累积，冻结的持久化层次越来越多，会对查询产生不利的影响。例如...

安全告警概述

适用于Linux系统的告警告警类型具体检测项检测原理说明持久化后门篡改内核模块配置文件检测模型发现您的服务器上有篡改内核模块配置文件行为，该行为常见于Rootkit修改配置文件以达到自启动的目的。恶意启动项脚本检测模型发现您...

附录：SOFAStack 产品目录

同步机制、重试机制、数据持久化。应用场景异步解耦通过生产消费模型解耦上下游业务系统，可提升业务连续性。上游应用作为生产方，将比较耗时且不需要即时（同步）返回结果的操作作为消息放入消息队列；下游应用作为消费者进行消息订阅和...