概要说明
当使用manager时候,打开某些页面、或者做某些操作很慢的时候(比如好几分钟才能打开一个页面),可以尝试排查下manager性能是否有问题。
详细说明
在打开浏览器之后按F12,点击”网络“部分,打开有问题的页面,查看是否有API报错、或者加载时间太长

找到问题API之后,点击查看起信息,主要是”response"部分内容,基本可以确定出问题的组件了
ps: 可能需要研发人员或者有经验的技术人员才能确定具体原因
常见排查方向
集群规模太大
集群中有上百个节点的时候,有可能影响到manager的性能
开启HA失败
集群开启HA时候,如果有一个节点的manager挂掉了,然后/etc/transwarp-manager/master/db.properties中的io.transwarp.manager.db.url配置中挂掉的节点位于第一个
此时manager会首先去连接挂掉的节点、直到超时才会去连接下一个节点,打开页面的速度就会非常慢。
解决方法:
修改io.transwarp.manager.db.url配置,不要把出问题的节点的地址在最前面
PS : 这是一个5.x的bug,在6.X中就不会影响性能了
告警震荡
Manger-1905a之前对这个bug还没有修复,都有可能出现这个问题
如果集群中有大量的告警信息,超出了manger处理告警的能力,导致了GC,触发了manager的一个bug: 告警震荡。
这可能会影响manager的性能、甚至是manager主进程一直退出。
一个例子:
检查数据库中的alert_history表,发现了数量庞大的警告信息,然后根据集群安装的时间来推算,自从集群安装到现在,平均一分钟有两个告警信息,导致manager性能很差、并且每天多次GC退出。
挂载信息太多
/proc/mounts里面有很多重复的挂载点,总数比/etc/fstab多出许多
原因一般都是重复的卸载、安装集群,删除服务等操作,导致的重复挂载点问题,影响了agent信息搜集效率
此时一般都有伴随现象: 节点页面不显示节点内存、磁盘等信息
解决方法: 清理重复的挂载信息
需要清理的是
1,重复的信息;
2,没有的信息,比如inceptor4跟search2这种已经删除的服务,很明显没有安装;
3,没用的挂载信息,比如:
/transwarp/mounts/inceptor1 none bind 0 0
/transwarp/mounts/inceptor1 none bind 0 0
/transwarp/mounts/inceptor1 none bind 0 0
/transwarp/mounts/inceptor1 none bind 0 0
服务器负载
服务器的内存、磁盘、CPU等负载信息也会影响manager性能