drds节点异常处理,docker节点进程一直重启

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
简介: drds 问题处理总结

版本:

阿里云专有云v2版本

问题现象:

同步任务反馈drds无法连接数据库,经排查drds manager 发现有一个节点异常 

image

排查过程:
向现场运维组反馈该异常后,为了确保生产环境的使用,确定通过drds manager进行白屏重启。点击重启后,无法返回成功界面,又强制重启,还是没有响应。

然后尝试通过命令行连接到该docker,显示连接失败,无法ping通该docker。

通过天目发现该docker所在的物理机报机器故障。通过天目登录到远程机房主机进行重启,依然显示连接异常。(期间是对这个docker重启了好几次)

最后针对物理机故障的问题向客户反馈维修,物理机正常之后发现该docker还是连接异常,通过天目发现报错为检测失败。
image

登录到该docker节点上发现,java进程一直被重新拉起。时有时无。

image
image

并且在该drds上的tddl目录下发现大量的gc 日志。

image
image

从而说明了该docker的java进程一直被不断的重拉,每起来一次就会产生一个gc日志。
并且日志里面也只是存储了一些简单的信息

向drds研发同学咨询,发现drds的java进程pid内容和/home/admin/drds-server/bin/tddl_3306.pid内容比较发现进程的pid是不一致。
image
image

执行健康检查的脚本,可以判断服务是否正常,执行发现service is down

排查是否有进行手动kill,结果是没有。

image

经研发同学经验排查,发现该docker的nameserver有多个127.0.0.1

image

而正常的docker节点下,是只有一个的,如下:

image

解决方法:

经开发确认为,这个drds 的 docker节点在 专有云v2版本的bug。在频繁重启容器超过3次后,之后再每次重启容器都会在resolv.conf这个文件里面重复写入127.0.0.1。就会导致进程一直不断的被拉起。
根据研发的建议:
1、    先把多余的127.0.0.1删除  保留一个;

2、 把bin目录下的pid文件删除掉;
3、 停止drds-server进程;
4、 按照sudo -u admin sh /home/admin/drds-server/bin/startup.sh -p 3306 -D启动drds 的java进程;

重启之后,问题解决
image
image


相关实践学习
Polardb-x 弹性伸缩实验
本实验主要介绍如何对PolarDB-X进行手动收缩扩容,了解PolarDB-X 中各个节点的含义,以及如何对不同配置的PolarDB-x 进行压测。
目录
相关文章
|
6月前
|
Linux Docker 容器
在Docker守护进程停机期间保持容器运行(即重启Docker时,正在运行的容器不会停止)
在Docker守护进程停机期间保持容器运行(即重启Docker时,正在运行的容器不会停止)
194 0
|
3月前
|
文件存储 Docker Python
记录一次 nas docker 运行出错 使用Python脚本检查错误并重启对应容器 npc 运行出错 导致无法连接
记录一次 nas docker 运行出错 使用Python脚本检查错误并重启对应容器 npc 运行出错 导致无法连接
28 1
|
3月前
|
运维 容灾 算法
Docker Swarm 节点维护
Docker Swarm 节点维护
|
4月前
|
Docker 容器
百度搜索:蓝易云【docker篇-重启策略+run容器常用参数】
总结: 通过重启策略和 `docker run`的参数,你可以在Docker中管理容器的重启行为和配置。重启策略定义了容器在退出或崩溃后的重启行为,而 `docker run`的参数可以用来设置容器的其他行为,如运行模式、端口映射、文件挂载等。
71 0
|
4月前
|
Docker 容器
Docker 容器的重启策略
Docker 容器的重启策略
|
4月前
|
Ubuntu 应用服务中间件 nginx
Ubuntu系统重启自动启动Docker容器
Ubuntu系统重启自动启动Docker容器
|
4月前
|
关系型数据库 数据库 OceanBase
重启集群中所有节点的 observer 进程
重启集群中所有节点的 observer 进程
30 0
|
6月前
|
安全 jenkins 持续交付
企业实战(23)基于Docker平台的Jenkins添加node节点与报错详解(2)
企业实战(23)基于Docker平台的Jenkins添加node节点与报错详解(2)
|
8月前
|
Kubernetes Java Maven
阿里云云效流水线中的Java构建Docker镜像并推送到镜像仓库和Kubernetes镜像升级这两个节点的区别
阿里云云效流水线中的Java构建Docker镜像并推送到镜像仓库和Kubernetes镜像升级这两个节点的区别
423 1
|
9月前
|
NoSQL Shell Redis
docker部署redis集群 删除节点(缩容)
本篇博文写一下怎样在redis集群中删除节点(还是在之前博文的基础上),博文中的111.111.111.111均换成实际IP使用