Manager性能问题排查思路

  性能相关
内容纲要

概要说明

当使用manager时候,打开某些页面、或者做某些操作很慢的时候(比如好几分钟才能打开一个页面),可以尝试排查下manager性能是否有问题。

详细说明


在打开浏览器之后按F12,点击”网络“部分,打开有问题的页面,查看是否有API报错、或者加载时间太长

file

找到问题API之后,点击查看起信息,主要是”response"部分内容,基本可以确定出问题的组件了

ps: 可能需要研发人员或者有经验的技术人员才能确定具体原因

常见排查方向

集群规模太大

集群中有上百个节点的时候,有可能影响到manager的性能

开启HA失败

集群开启HA时候,如果有一个节点的manager挂掉了,然后/etc/transwarp-manager/master/db.properties中的io.transwarp.manager.db.url配置中挂掉的节点位于第一个

此时manager会首先去连接挂掉的节点、直到超时才会去连接下一个节点,打开页面的速度就会非常慢。

解决方法:

修改io.transwarp.manager.db.url配置,不要把出问题的节点的地址在最前面

PS : 这是一个5.x的bug,在6.X中就不会影响性能了

告警震荡

Manger-1905a之前对这个bug还没有修复,都有可能出现这个问题

如果集群中有大量的告警信息,超出了manger处理告警的能力,导致了GC,触发了manager的一个bug: 告警震荡。

这可能会影响manager的性能、甚至是manager主进程一直退出。

一个例子:

检查数据库中的alert_history表,发现了数量庞大的警告信息,然后根据集群安装的时间来推算,自从集群安装到现在,平均一分钟有两个告警信息,导致manager性能很差、并且每天多次GC退出。

挂载信息太多

/proc/mounts里面有很多重复的挂载点,总数比/etc/fstab多出许多

原因一般都是重复的卸载、安装集群,删除服务等操作,导致的重复挂载点问题,影响了agent信息搜集效率

此时一般都有伴随现象: 节点页面不显示节点内存、磁盘等信息

解决方法: 清理重复的挂载信息

需要清理的是

1,重复的信息;

2,没有的信息,比如inceptor4跟search2这种已经删除的服务,很明显没有安装;

3,没用的挂载信息,比如:

/transwarp/mounts/inceptor1    none    bind    0    0

/transwarp/mounts/inceptor1    none    bind    0    0

/transwarp/mounts/inceptor1    none    bind    0    0

/transwarp/mounts/inceptor1    none    bind    0    0
服务器负载

服务器的内存、磁盘、CPU等负载信息也会影响manager性能

这篇文章对您有帮助吗?

平均评分 0 / 5. 次数: 0

尚无评价,您可以第一个评哦!

非常抱歉,这篇文章对您没有帮助.

烦请您告诉我们您的建议与意见,以便我们改进,谢谢您。