日常nagios巡检中常见的问题排查:

  1. 中心接受不到本地nagios本地上传导致报警。

首先,通过监控中的msg_txt文件查看故障主机的ip.登录跳板机ping目标主机测试连通性

其次,登录目标主机检查本地nagios服务是否开启

检查本地iptables里面特定端口是否放开

排查结束后刷新中心的报警信息,完成同步。

2.提示目标主机高负载报警。

首先,通过跳板机登录目标主机,使用top命令查看当前进程,使用tail -f /var/log/message查看系统日志,排查报错原因

其次,确认高占用进程是否正常,用kill命令终止异常进程

排查结束后刷新中心的报警信息,完成同步。

3.提示目标主机磁盘报警

首先,通过跳板机登录目标主机,使用ps -ef | grep 目标应用名,如java  tomcat,找到目标路径

通过du -sh *查看磁盘文件大小,以便找到空间过大的log文件

其次,通过df -h查看磁盘使用情况及当前本地上的挂载情况。

另外,可以查看/./home路径下和/var路径下的文件大小,清理一些连续性的日志文件

使用rm -rf 文件名头[0-n]来删除过去文件

排查结束后刷新中心的报警信息,完成同步。

4.通过跳板机挂载硬盘进行网络数据拷贝

首先,将硬盘连接到跳板机所在服务器,使用fdsik -l查看ntfs分区。

确认安装ntfs-3g,使用mount -t ntfs-3g /dev/usb /mnt/usb,硬盘挂载在/mnt目录下

使用scp -r(目录) /mnt/bc7 root@xxx.xxx.xxx.xxx:/mnt,拷贝到/mnt下产生一个bc7的文件夹

在xxx.xxx.xxx.xxx上的/mnt/cloud目录下新建bc7文件夹

mkdir bc7

rsync -av /mnt/bc7/* /mnt/cloud/bc7/ 

*指代bc7文件下所有文件,/代表拷贝到bc7目录下

同步完后再次输出此命令,叫完成情况截图

删除多余文件,rm -rf /mnt/bc7

登录挂载服务器

umount -l /mnt/usb (确认你的挂载有没有再被使用,-l的意思不是马上卸载挂载,而是在空闲时卸载挂载) 一定要看清楚有没有其他的/mnt挂载,忘记usb可能带来可怕的后果。