当 K8s 集群达到万级规模,阿里巴巴如何解决系统各组件性能问题?

一绿舟 2019-09-23

算法 性能 集群 容器 node API Server etcd 存储 云原生

作者 | 阿里云容器平台高级技术专家 曾凡松(逐灵)

本文主要介绍阿里巴巴在大规模生产环境中落地 Kubernetes 的过程中,在集群规模上遇到的典型问题以及对应的解决方案,内容包含对 etcd、kube-apiserver、kube-controller 的若干性能及稳定性增强,这些关键的增强是阿里巴巴内部上万节点的 Kubernetes 集群能够平稳支撑 2019 年天猫 618 大促的关键所在。

背景


从阿里巴巴最早期的 AI 系统(2013)开始,集群管理系统经历了多轮的架构演进,到 2018 年全面的应用 Kubernetes ,这期间的故事是非常精彩的,有机会可以单独给大家做一个分享。这里忽略系统演进的过程,不去讨论为什么 Kubernetes 能够在社区和公司内部全面的胜出,而是将焦点关注到应用 Kubernetes 中

登录 后评论
下一篇
corcosa
8834人浏览
2019-10-08
相关推荐
Kubernetes日志采集Sidecar模式介绍
15592人浏览
2018-10-10 21:38:56
0
1
1
1466