阿里云Kubernetes CSI实践 - 云盘数据卷扩容

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 数据卷扩容 使用云盘存储卷,往往在服务初始化的时候申请了一个适当容量的云盘,但是随着数据的增长,数据盘的容量不能满足需求,需要扩容。 传统应用的扩容场景中,往往是先手动停掉应用,再对数据盘进行备份,然后执行扩容操作,最后重新启动应用。

数据卷扩容

使用云盘存储卷,往往在服务初始化的时候申请了一个适当容量的云盘,但是随着数据的增长,数据盘的容量不能满足需求,需要扩容。

传统应用的扩容场景中,往往是先手动停掉应用,再对数据盘进行备份,然后执行扩容操作,最后重新启动应用。

Kubernetes本身是一个自动化调度、编排系统,实现了对数据卷的生命周期管理。最新版本中已经提供对数据卷扩容的功能;下面是一些介绍:

https://kubernetes.io/blog/2018/08/02/dynamically-expand-volume-with-csi-and-kubernetes/

数据卷扩容目前支持以下类型:

gcePersistentDisk
awsElasticBlockStore
OpenStack Cinder
glusterfs
rbd
csi

CSI数据卷扩容目前属于Alpha阶段(1.14),需要开启Feature Gates才可以使用;

ExpandCSIVolumes=true

注:数据卷扩容只支持通过storageclass创建的动态pv,静态pv不能实现扩容;

实现原理

Resizer架构上分为controller部分node部分,实现过程也分2个阶段:

image

阶段1:Controller部分实现云盘扩容

这个阶段由csi-resizer实现完成,在controller中通过云盘api调用实现扩容。

下面逻辑决定是否扩容:

resizer watch pvc,判断pvc是否需要resize:

比较pvc现在和之前的值,当pvc值变大时;

比较pvc和volume的值,当pvc值大于pv值时;

扩容是通过resizeVolume函数实现的,过程:

对需要扩容的pvc,配置pvc状态为resizing;

调用csi-plugin中 ControllerExpandVolume函数,调用云盘api实现云盘扩容;

更新pv对象的size,size变成扩容后大小;

如果需要文件系统扩容,更新pvc状态为:FileSystemResizePending,等待node部分进行文件系统扩容;

此时pvc的conditions字段变为:

  conditions:
  - lastProbeTime: null
    lastTransitionTime: "2019-07-23T12:44:34Z"
    message: Waiting for user to (re-)start a pod to finish file system resize of volume on node.
    status: "True"
    type: FileSystemResizePending

阶段2:Node部分实现文件系统扩容

kubelet 一直watch pvc,执行逻辑如下:

云盘attach后,执行MountDevice;编辑pv为已挂载:MarkDeviceAsMounted;

然后调用resizeFileSystem函数(通过RequiresFSResize()方法判断是否进行文件系统扩容)

调用CSI的NodeExpand接口,进而调用CSI Plugin的NodeExpandVolume,实现文件系统扩容;

更新pvc的size大小,并更新pvc的FileSystemResizePending 状态;

ACK中云盘扩容实践

为了确保数据的一致性,在执行扩容操作前,请对云盘进行打快照保护;

1. 依赖准备

申请1.14版本阿里云Kubernetes集群;

kubelet中配置feature gates:--feature-gates=ExpandCSIVolumes=true

安装部署csi-plugin,模板:https://github.com/AliyunContainerService/csi-plugin/tree/master/deploy/ack

csi-plugin需要更新到最新版本,支持NodeExpandVolume;

2. resizer插件部署:

resizer插件部署为statefulset应用,默认跑在master上;配置优先级,保证pod可以优先启动;

resizer和csi-plugin通过socket通信,只负责phase1的云盘扩容工作;

kind: Service
apiVersion: v1
metadata:
  name: csi-resizer
  namespace: kube-system
  labels:
    app: csi-resizer
spec:
  selector:
    app: csi-resizer
  ports:
    - name: dummy
      port: 12345
---
kind: StatefulSet
apiVersion: apps/v1beta1
metadata:
  name: csi-resizer
  namespace: kube-system
spec:
  serviceName: "csi-resizer"
  template:
    metadata:
      labels:
        app: csi-resizer
    spec:
      tolerations:
      - operator: "Exists"
      nodeSelector:
         node-role.kubernetes.io/master: ""
      priorityClassName: system-node-critical
      serviceAccount: admin
      hostNetwork: true
      containers:
        - name: csi-resizer
          image: registry.cn-hangzhou.aliyuncs.com/acs/csi-resizer:v0.1.0
          args:
            - "--v=5"
            - "--csi-address=$(ADDRESS)"
            - "--leader-election"
          env:
            - name: ADDRESS
              value: /socketDir/csi.sock
          imagePullPolicy: "Always"
          volumeMounts:
            - name: socket-dir
              mountPath: /socketDir/

        - name: csi-diskplugin
          securityContext:
            privileged: true
            capabilities:
              add: ["SYS_ADMIN"]
            allowPrivilegeEscalation: true
          image: registry.cn-hangzhou.aliyuncs.com/plugins/csi-plugin:v1.13.2-f21f9ba2
          imagePullPolicy: "Always"
          args:
            - "--endpoint=$(CSI_ENDPOINT)"
            - "--v=5"
            - "--driver=diskplugin.csi.alibabacloud.com"
          env:
            - name: CSI_ENDPOINT
              value: unix://socketDir/csi.sock
            - name: ACCESS_KEY_ID
              value: ""
            - name: ACCESS_KEY_SECRET
              value: ""
          volumeMounts:
            - mountPath: /var/log/
              name: host-log
            - mountPath: /socketDir/
              name: socket-dir
            - name: etc
              mountPath: /host/etc

      volumes:
        - name: socket-dir
          emptyDir: {}
        - name: host-log
          hostPath:
            path: /var/log/
        - name: etc
          hostPath:
            path: /etc
  updateStrategy:
    type: RollingUpdate

3. 创建云盘应用

创建storageclass,allowVolumeExpansion配置为true;

apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
   name: alicloud-disk-expand
provisioner: diskplugin.csi.alibabacloud.com
parameters:
    type: cloud_efficiency
reclaimPolicy: Retain
allowVolumeExpansion: true

创建pvc,云盘大小为20G,动态生成pv:

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: pvc-disk
spec:
  accessModes:
  - ReadWriteOnce
  resources:
    requests:
      storage: 20Gi
  storageClassName: alicloud-disk-expand
# kubectl get pvc
NAME       STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS           AGE
pvc-disk   Bound    pvc-4bf230a9-adc6-11e9-ae51-00163e105050   20Gi       RWO            alicloud-disk-expand   8s

# kubectl get pv
NAME                                       CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM              STORAGECLASS           REASON   AGE
pvc-4bf230a9-adc6-11e9-ae51-00163e105050   20Gi       RWO            Retain           Bound    default/pvc-disk   alicloud-disk-expand            3s

创建应用,挂载上面的云盘卷:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: dynamic-create
  labels:
    app: nginx
spec:
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:1.7.9
        ports:
        - containerPort: 80
        volumeMounts:
          - name: disk-pvc
            mountPath: "/data"
      volumes:
        - name: disk-pvc
          persistentVolumeClaim:
            claimName: pvc-disk
云盘块设备为:/dev/vdd,大小20G,挂载容器内/data目录;
# kubectl exec dynamic-create-857bd875b5-6rmzn df | grep data
/dev/vdd        20511312    45080  20449848   1% /data
# kubectl exec dynamic-create-857bd875b5-6rmzn ls /data
lost+found

创建测试数据:
# kubectl exec dynamic-create-857bd875b5-6rmzn touch /data/test
# kubectl exec dynamic-create-857bd875b5-6rmzn ls /data
lost+found test

4. 执行云盘扩容

更新pvc大小,会驱动resizer调用云盘api进行扩容,控制台可以检查云盘已经变成了30G,且pv的size也更新到30G;

更新pvc的size:
# kubectl patch pvc pvc-disk -p '{"spec":{"resources":{"requests":{"storage":"30Gi"}}}}'

# kubectl get pvc
NAME       STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS           AGE
pvc-disk   Bound    pvc-4bf230a9-adc6-11e9-ae51-00163e105050   20Gi       RWO            alicloud-disk-expand   7m57s

# kubectl get pv
NAME                                       CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM              STORAGECLASS           REASON   AGE
pvc-4bf230a9-adc6-11e9-ae51-00163e105050   30Gi       RWO            Retain           Bound    default/pvc-disk   alicloud-disk-expand            8m22s

此时pod内文件系统还是20G:
# kubectl exec dynamic-create-857bd875b5-6rmzn df | grep data
/dev/vdd        20511312    45080  20449848   1% /data

上面更新了云盘存储的大小,但是文件系统并没有更新,即扩容空间在pod中还不能使用。

重启pod,触发调用nodeExpand方法进行文件系统扩容:

# kubectl delete pod dynamic-create-857bd875b5-6rmzn
pod "dynamic-create-857bd875b5-6rmzn" deleted

# kubectl get pvc
NAME       STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS           AGE
pvc-disk   Bound    pvc-4bf230a9-adc6-11e9-ae51-00163e105050   30Gi       RWO            alicloud-disk-expand   18m
# kubectl get pv
NAME                                       CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM              STORAGECLASS           REASON   AGE
pvc-4bf230a9-adc6-11e9-ae51-00163e105050   30Gi       RWO            Retain           Bound    default/pvc-disk   alicloud-disk-expand            18m

# kubectl get pod
NAME                              READY   STATUS    RESTARTS   AGE
dynamic-create-857bd875b5-9fmcs   1/1     Running   0          62s
# kubectl exec dynamic-create-857bd875b5-9fmcs df | grep data
/dev/vdc        30832548    45036  30771128   1% /data
# kubectl exec dynamic-create-857bd875b5-9fmcs ls /data
lost+found test

pvc的大小更新为30G,且pod中文件系统的大小也扩容到30G,并保持数据的完整性;

CSI开发交流群

image

相关实践学习
Docker镜像管理快速入门
本教程将介绍如何使用Docker构建镜像,并通过阿里云镜像服务分发到ECS服务器,运行该镜像。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
29天前
|
存储 Kubernetes Docker
容器服务ACK常见问题之阿里云控制台进不去了如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。
|
30天前
|
SQL 弹性计算 安全
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程
当我们通过阿里云的活动购买完云服务器之后,并不是立马就能使用了,还需要我们设置云服务器密码,配置安全组等基本操作之后才能使用,有的用户还需要购买并挂载数据盘到云服务器上,很多新手用户由于是初次使用阿里云服务器,因此并不知道这些设置的操作流程,下面给大家介绍下这些设置的具体操作流程。
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程
|
2月前
|
人工智能 运维 Kubernetes
阿里云容器服务ACK AI助手正式上线带来的便利性
作为开发者想必大家都知道,云原生容器技术的优势,尤其是近两年的随着容器技术的迅猛发展,Kubernetes(K8s)已成为广泛应用于容器编排和管理的领先解决方案,但是K8s的运维复杂度一直是挑战之一。为了应对这一问题,就在最近,阿里云容器服务团队正式发布了ACK AI助手,这是一款旨在通过大模型增强智能诊断的产品,旨在帮助企业和开发者降低Kubernetes(K8s)的运维复杂度。那么本文就来详细讲讲关于这款产品,让我们结合实际案例分享一下K8s的运维经验,探讨ACK AI助手能否有效降低K8s的运维复杂度,并展望ACK AI助手正式版上线后的新功能。
264 2
阿里云容器服务ACK AI助手正式上线带来的便利性
|
1月前
|
存储 弹性计算 关系型数据库
阿里云服务器ESSD云盘性能等级PL0、PL1、PL2、PL3区别,云盘性能级别PL知识点参考
在我们选择阿里云服务器系统盘和数据盘时,如果是选择ESSD云盘,还需要选择云盘的云盘性能级别PL,PL性能级别有PL3、PL2、PL1、PL0四个性能级别的云盘规格,如果是通过阿里云的活动来购买云服务器的话,由于系统盘默认一般为20G或40G容量,可选的PL性能级别通常只有PL0(单盘IOPS性能上限1万)和PL1(单盘IOPS性能上限5万)可选择,有的用户肯能并不清楚ESSD云盘的性能等级之间有何区别,单盘IOPS性能指的是什么,本文为大家介绍一下ESSD云盘的云盘性能级别PL3、PL2、PL1、PL0相关知识点。
阿里云服务器ESSD云盘性能等级PL0、PL1、PL2、PL3区别,云盘性能级别PL知识点参考
|
3月前
|
弹性计算 Linux Shell
阿里云ecs linux系统如何进行系统盘的扩容
【1月更文挑战第25天】【1月更文挑战第122篇】阿里云ecs linux系统如何进行系统盘的扩容
206 1
|
18天前
|
消息中间件 Kubernetes Kafka
Terraform阿里云创建资源1分钟创建集群一键发布应用Terraform 创建 Kubernetes 集群
Terraform阿里云创建资源1分钟创建集群一键发布应用Terraform 创建 Kubernetes 集群
14 0
|
29天前
|
存储 弹性计算 安全
阿里云活动内云服务器没有数据盘怎么办?购买后如何购买并挂载云盘?
在我们通过阿里云的活动来购买云服务器的时候,一般默认情况下只有系统盘,是没有数据盘的,但是很多用户处于实际使用需求和安全等方面的需求,通常都需要在购买之后单独再购买一块云盘作为数据盘挂载到云服务器上,本文以图文形式为大家展示阿里云活动内云服务器购买流程以及购买后如何购买并挂载云盘,适合新手用户参考。
阿里云活动内云服务器没有数据盘怎么办?购买后如何购买并挂载云盘?
|
3月前
|
Kubernetes 容器
阿里云OpenAPI咋取到ack集群的Deployment呀?
阿里云OpenAPI咋取到ack集群的Deployment呀?【1月更文挑战第17天】【1月更文挑战第84篇】
22 2
|
3月前
|
人工智能 运维 Kubernetes
期待已久!阿里云容器服务 ACK AI 助手正式上线
期待已久!阿里云容器服务 ACK AI 助手正式上线
|
30天前
|
Prometheus 监控 Kubernetes
Kubernetes 集群监控与日志管理实践
【2月更文挑战第29天】 在微服务架构日益普及的当下,Kubernetes 已成为容器编排的事实标准。然而,随着集群规模的扩大和业务复杂度的提升,有效的监控和日志管理变得至关重要。本文将探讨构建高效 Kubernetes 集群监控系统的策略,以及实施日志聚合和分析的最佳实践。通过引入如 Prometheus 和 Fluentd 等开源工具,我们旨在为运维专家提供一套完整的解决方案,以保障系统的稳定性和可靠性。

相关产品

  • 容器服务Kubernetes版