某金融科技公司,它主要提供信贷,理财,电商等 服务,目前已经拥有千万级注册用户。该公司在将 在线业务系统和大数据业务从自建 IDC 机房迁移 到阿里云后,今年大数据集群经历过多次因为资 源不足导致弹性扩容失败的故障,运维负责人非 常苦恼。由于该公司从事互联网金融的借贷业务, 白天的催收非常依赖晚上大数据计算的结果,若 因为资源不足导致计算结果失败则意味着白天催 收业务员无事可做,会对公司业务造成严重影响。 后来,通过阿里云解决方案架构师建议的方案,将 大数据集群迁移到资源较充足的可用区以及配置 弹性伸缩多规格 ECS 选型增加交付成功率等方 法,目前已阶段性的解决因资源不足导致弹性扩 容失败的问题,但该方案在 Spot 计算资源不足 时,启用大量按量收费算力,带来了较高的成本, 并且抢占式实例和按量付费实例都不保证资源 100%交付,还是存在交付失败的可能性,特别是 在双 11 期间由于其他客户的资源需求上升带来 的资源挤兑客观上存在,就进一步增加了弹性扩 容失败的风险,从而影响业务正常运行。
文档版本:20210329 40 云上成本优化 workshop 成本可视 通知列表:可以选择邮件或者 WebHook-钉钉机器人的方式发送订阅的报告。钉 钉 机 器 人 的 请 求 地 址可参考 WebHook-钉 钉 机 器 人(https://help.aliyun.com/document_detail/91785.html)进行获取。本示例以邮件 为例。步骤3 设置告警。首次使用,需要选择一个...