Manager性能问题排查思路

2023-10-18 性能相关

内容纲要

概要说明

当使用manager时候，打开某些页面、或者做某些操作很慢的时候（比如好几分钟才能打开一个页面），可以尝试排查下manager性能是否有问题。

详细说明

在打开浏览器之后按F12，点击”网络“部分，打开有问题的页面，查看是否有API报错、或者加载时间太长

file

找到问题API之后，点击查看起信息，主要是”response"部分内容，基本可以确定出问题的组件了

ps：可能需要研发人员或者有经验的技术人员才能确定具体原因

常见排查方向

集群规模太大

集群中有上百个节点的时候，有可能影响到manager的性能

开启HA失败

集群开启HA时候，如果有一个节点的manager挂掉了，然后/etc/transwarp-manager/master/db.properties中的io.transwarp.manager.db.url配置中挂掉的节点位于第一个

此时manager会首先去连接挂掉的节点、直到超时才会去连接下一个节点，打开页面的速度就会非常慢。

解决方法：

修改io.transwarp.manager.db.url配置，不要把出问题的节点的地址在最前面

PS ：这是一个5.x的bug，在6.X中就不会影响性能了

告警震荡

Manger-1905a之前对这个bug还没有修复，都有可能出现这个问题

如果集群中有大量的告警信息，超出了manger处理告警的能力，导致了GC，触发了manager的一个bug：告警震荡。

这可能会影响manager的性能、甚至是manager主进程一直退出。

一个例子：

检查数据库中的alert_history表，发现了数量庞大的警告信息，然后根据集群安装的时间来推算，自从集群安装到现在，平均一分钟有两个告警信息，导致manager性能很差、并且每天多次GC退出。

挂载信息太多

/proc/mounts里面有很多重复的挂载点，总数比/etc/fstab多出许多

原因一般都是重复的卸载、安装集群，删除服务等操作，导致的重复挂载点问题，影响了agent信息搜集效率

此时一般都有伴随现象：节点页面不显示节点内存、磁盘等信息

解决方法：清理重复的挂载信息

需要清理的是

1，重复的信息；

2，没有的信息，比如inceptor4跟search2这种已经删除的服务，很明显没有安装；

3，没用的挂载信息，比如：

/transwarp/mounts/inceptor1    none    bind    0    0

/transwarp/mounts/inceptor1    none    bind    0    0

/transwarp/mounts/inceptor1    none    bind    0    0

/transwarp/mounts/inceptor1    none    bind    0    0

服务器负载

服务器的内存、磁盘、CPU等负载信息也会影响manager性能