软件容错

_相关内容

创建StarRocks集群

本文为您介绍创建StarRocks集群的详细操作步骤...打开服务高可用开关即为高可用集群，可以提供容错和负载均衡的能力。StarRocks的BE部署在Core节点，每个Core机器会部署一个StarRocks的BE进程，您可以根据实际业务场景选择部署的节点数量。

时间同步

当出现时钟与对应服务器同步成功时表示已与服务器进行时间同步，若时间同步失败，请检查防火墙或安全软件是否阻止了UDP 123端口。命令提示符若需要对多台实例配置时间同步，可使用云助手批量执行。一、配置 NTP 服务器建议将 Windows ...

计算类资源成本优化方案

应用程序的分布度、可扩展性和容错能力越高，越适合使用抢占式实例节省成本和提升吞吐量。预留实例券包年包月实例虽然在成本上会有较大的费用节省，但流程上账单和ECS实例绑定，退款时可能需要手续费。退款需要人工接入，不能自动化进行。...

概述

系统容错的目标是使系统能够在面对硬件故障、软件错误、通信故障或其他异常情况时，能够继续执行，并且不会导致整个系统崩溃或数据损坏。分布式系统常按云端部署架构划分为IaaS、PaaS、SaaS，每层又都依赖计算、存储、网络资源进行构建，在...

优化求解器

优化求解器产品是求解优化问题的专业设计软件，技术来自达摩院决策智能实验室的MindOpt Solver。可广泛应用于云计算、电力能源、工业制造、交通物流、零售、金融等领域，能帮助做设计或生产方案优化、资源合理分配、辅助决策等，是深埋于...

重试和死信

容错策略容错策略即在错误发生时的处理方式，目前支持两类容错方式：允许容错（推荐）：允许异常容错，当异常发生时不会阻塞执行，超过最大重试次数后会根据配置将消息投递至死信队列或直接丢弃。禁止容错：不允许容错，当异常发生并超过...

重试和死信

容错策略容错策略即在错误发生时的处理方式，目前支持两类容错方式：允许容错（推荐）：允许异常容错，当异常发生时不会阻塞执行，超过最大重试次数后会根据配置将消息投递至死信队列或直接丢弃。禁止容错：不允许容错，当异常发生并超过...

重试和死信

容错策略容错策略即在错误发生时的处理方式，目前支持两类容错方式：允许容错（推荐）：允许异常容错，当异常发生时不会阻塞执行，超过最大重试次数后会根据配置将消息投递至死信队列或直接丢弃。禁止容错：不允许容错，当异常发生并超过...

重试和死信

容错策略容错策略即在错误发生时的处理方式，目前支持两类容错方式：允许容错（推荐）：允许异常容错，当异常发生时不会阻塞执行，超过最大重试次数后会根据配置将消息投递至死信队列或直接丢弃。禁止容错：不允许容错，当异常发生并超过...

重试和死信

容错策略容错策略即在错误发生时的处理方式，目前支持两类容错方式：允许容错（推荐）：允许异常容错，当异常发生时不会阻塞执行，超过最大重试次数后会根据配置将消息投递至死信队列或直接丢弃。禁止容错：不允许容错，当异常发生并超过...

重试和死信

容错策略容错策略即在错误发生时的处理方式，目前支持两类容错方式：允许容错（推荐）：允许异常容错，当异常发生时不会阻塞执行，超过最大重试次数后会根据配置将消息投递至死信队列或直接丢弃。禁止容错：不允许容错，当异常发生并超过...

启用节点容错

为了提升阿里云EMR集群的可靠性和可用性，您可以采用两种策略：一是在集群扩容时开启尽力交付，这样即使部分节点创建失败，系统也会将所有...本文为您介绍阿里云EMR集群的节点容错功能，包括自动补偿和尽力交付。开启尽力交付开启节点补偿

计算资源

以下详细介绍5个计算资源风险点和应对的容错策略。资源分配不均指因任务分配策略缺陷、长连接等问题造成的某些节点的负载过重，而其他节点的负载压力小。另外分布式系统中不同节点之间可能会竞争有限的计算资源，例如某个节点过度占用了...

基础设施安全

AIMaster作为任务级别组件，当任务开启容错监控功能后，会拉起AIMaster实例，与任务其它实例一起运行，进行任务监控、容错判断、资源控制的作用。详细请参见 AIMaster：弹性自动容错引擎。算力健康检测进行AI训练时，DLC提供算力健康检测...

PAI分布式训练开启基于AIMaster的容错监控

PAI分布式训练（DLC）开启基于AIMaster的容错监控，视为“合规”。无训练任务时视为“不适用”。风险等级默认风险等级：高风险。当您使用该规则时，可以按照实际需求变更风险等级。检测逻辑 PAI分布式训练（DLC）开启基于AIMaster的容错...

其他子产品SDK参考文档

基于AIMaster的容错监控介绍 DLC 提供的基于AIMaster的容错监控功能，包括容错监控参数说明、通过SDK开启容错监控功能、通过AIMaster的SDK配置容错监控增强功能。DSW SDK文档入口链接创建DSW实例介绍如何通过Python SDK创建DSW实例。...

算力检测与容错

EAS提供算力检测与容错功能，可以自动检测GPU算力、节点通信等资源的健康状态，提升问题诊断效率，保障大规模部署下服务的可用性与稳定性。适用范围算力检测与容错功能适用于使用灵骏智算资源部署的多机分布式推理服务。核心概念检测...

TRY_PARSE_JSON

同类函数对比函数默认错误处理机制非法JSON输入返回值容错需求场景 PARSE_JSON 显式报错。默认抛出异常。需严格校验输入合法性。TRY_PARSE_JSON 静默容错。默认返回 NULL。需兼容异常数据流。示例测试表T1数据 jsonString(VARCHAR){"k...

JobSettings

取值如下：true false false ErrorMonitoringArgs string 启用容错监控后，用于指定容错监控的配置参数，比如指定是否启动基于 log hang 的检测。enable-log-hang-detection true EnableRDMA boolean 允许作业使用 RDMA。取值如下：true ...

读CSV文件

是否容错输入数据与 Schema 中定义的不一致时，例如类型不一致或列数不一致的容错方法：打开是否容错开关：当解析失败时，丢弃该行数据。关闭是否容错开关：当解析失败时，运行终止，并打印出错行。引号字符默认为半角双引号（"）。...

功能特性

微服务平台提供高性能和透明化的 RPC 远程服务调用，具有高可伸缩性、高容错性的特点。高性能分布式服务框架提供高性能和透明化的 RPC 远程服务调用，具有高可伸缩性、高容错性的特点。支持多协议/多序列化/多语言包括 Bolt（默认自由...

使用闲时资源

自动容错由于闲时计算任务在资源紧张时有被抢占的风险，为了优化这类任务的运行效率并提升整体算力的有效利用率，建议您开启自动容错功能。在闲时资源被回收的情况下，系统将自动寻找合适的资源，重新运行任务。具体配置方法，请参见 ...

使用ASM构建分布式系统的容错能力

因此构建一个具有容错能力的分布式系统非常重要。本文介绍如何通过ASM设置超时、重试、隔板和熔断机制构建分布式系统的容错能力。背景信息容错能力是指系统在部分故障期间，仍然能够继续运行的能力。创建一个可靠的弹性系统会对其中的所有...

JobSettings

false ErrorMonitoringArgs string 用户指定容错监控的配置参数，比如指定是否启动基于 log hang 的检测。enable-log-hang-detection true EnableRDMA boolean 允许作业使用 RDMA。true EnableOssAppend boolean 运行 OSS 追加写。true ...

使用ASM构建分布式系统的容错能力

因此构建一个具有容错能力的分布式系统非常重要。本文介绍如何通过ASM设置超时、重试、隔板和熔断机制构建分布式系统的容错能力。背景信息容错能力是指系统在部分故障期间，仍然能够继续运行的能力。创建一个可靠的弹性系统会对其中的所有...

使用ASM构建分布式系统的容错能力

因此构建一个具有容错能力的分布式系统非常重要。本文介绍如何通过ASM设置超时、重试、隔板和熔断机制构建分布式系统的容错能力。背景信息容错能力是指系统在部分故障期间，仍然能够继续运行的能力。创建一个可靠的弹性系统会对其中的所有...

PARSE_JSON

同类函数对比函数默认错误处理机制非法JSON输入返回值容错需求场景 PARSE_JSON 显式报错。默认抛出异常。需严格校验输入合法性。TRY_PARSE_JSON 静默容错。默认返回 NULL。需兼容异常数据流。示例测试表T1数据 jsonString(VARCHAR){"k...

应用场景

高可用：主备双活容灾，请求自动容错，满足99.95%SLA。金融&零售：海量订单记录与风控数据的实时存储使用Lindorm存储金融交易中的海量订单记录，金融风控中的用户事件、画像特征、规则模型、设备指纹等重要数据，提供低成本、高并发、灵活...

SanityCheck：算力健康检测

容错与诊断配置：打开健康检测开关，并配置以下参数：参数描述检测时机任务运行前（默认）：即任务获取到资源后，先基于该训练任务的算力节点进行预先检测，再执行用户代码。任务重启后：即当任务运行异常，AIMaster自动容错将任务...

ListRules-查询一个事件总线的所有规则

允许异常容错，当异常发生时不会阻塞执行，超过重试策略后会根据配置将消息投递至死信队列或直接丢弃。NONE：禁止容错。不允许容错，当异常发生并超过重试策略配置时会阻塞执行。ALL FilterPattern string 事件模式，JSON 格式。取值说明...

ListTargets-查询一个事件规则的所有投递目标

允许异常容错，当异常发生时不会阻塞执行，超过重试策略后会根据配置将消息投递至死信队列或直接丢弃。NONE：禁止容错。不允许容错，当异常发生并超过重试策略配置时会阻塞执行。ALL Id string 事件目标 ID。1453 EventBusName string 事件...

使用竞价任务

安全组交换机容错与诊断自动容错在使用灵骏智算竞价资源提交任务时，强烈建议您打开自动容错开关。开启AIMaster功能后，竞价任务可以在由于系统平均价格超过客户设定的上限价格导致资源回收后，自动重新进入竞价中，再次进行尝试竞价...

DetectStackGroupDrift-对资源栈组进行偏差检测

一个资源栈组操作中，若操作结果的失败总数不超过失败容错数，则操作成功，反之操作失败。若不指定 FailureToleranceCount，则默认为 0。不能同时指定 FailureToleranceCount 和 FailureTolerancePercentage。取值范围：0~20。...

离线集成管道通道配置

通过离线集成管道通道，您可定义离线集成任务运行时的容错、并发数、JVM资源、数据库配置及集成管道流量监控。本文将为您介绍如何配置离线集成管道通道。操作步骤在Dataphin首页，单击顶部菜单栏的研发-数据开发。按照以下操作指引，进入...

离线集成管道通道配置

通过离线集成管道通道，您可定义离线集成任务运行时的容错、并发数、JVM资源、数据库配置及集成管道流量监控。本文将为您介绍如何配置离线集成管道通道。操作步骤在Dataphin首页，单击顶部菜单栏的研发-数据开发。按照以下操作指引，进入...

应用场景

高可用：主备双活容灾，请求自动容错，满足99.95%SLA。车联网使用云数据库HBase存储车联网中的行驶轨迹、车辆状况、精准定位等重要数据，提供低成本、弹性、灵活可靠的能力，帮助您构建更先进的网约车、物流运输、新能源车检测等场景服务...

通过EventBridge快速订阅ECS事件

容错策略如果您有事件顺序场景的诉求，当发生异常时，需要暂停任务，直到该事件成功推送，否则会出现事件乱序，此时需要选择禁止容错。如果是非顺序场景，建议优先选择允许容错，以提供最大并发推送能力。允许容错（允许异常容错，当异常...

通过EventBridge快速订阅ECS事件

容错策略如果您有事件顺序场景的诉求，当发生异常时，需要暂停任务，直到该事件成功推送，否则会出现事件乱序，此时需要选择禁止容错。如果是非顺序场景，建议优先选择允许容错，以提供最大并发推送能力。允许容错（允许异常容错，当异常...

快照概述

快照主要功能如下功能说明参考文档创建快照支持以下创建快照方式：手动快照：由您手动创建，作为重大操作的准备工作，提高操作容错率。支持创建单个数据库文件系统快照。自动快照：将自动快照策略应用到数据库文件系统上，在您设置的...

使用流程

提交DLC任务时，支持以下高阶功能配置：AIMaster：弹性自动容错引擎介绍如何在提交DLC任务时开启自动容错功能。开启该功能后，系统会拉起一个AIMaster实例和任务其他实例一起运行，起到任务监控、容错判断、资源控制的作用。SanityCheck：...

< 1 2 3 4 ... 114 >

共有114页跳转至： GO