Skip to content

manager 与 monitor

Jiang Li edited this page Mar 22, 2017 · 1 revision

manager

用于进行自动化的测试,重启和发送邮件 code

流程图大致如下:

执行API测试->

  • test PASS: email OK
  • test NOT PASS : Test Node Status ->
    • node test NOT PASS : email ERROR
    • node test PASS : Test restart ->
      • restrat NOT PASS : email ERROR
      • restart PASS : 重新执行API测试 ->
        • PASS : email WARNNING
        • NOT PASS : email ERROR

可以通过configure 文件来配置默认的行为。也可以通过命令行参数来进行更改。

结合定时任务crontab 可以实行自动化的运维。

可以通过多个任务来实行不同层级的运维要求:

./manager.py -t discover -l WARNNING -e -nr 大部分的单元测试 , 不重启,可以8:00 , 13:00 测一次, 提醒管理员上班的时候处理。

./manager.py -t test_job.JobTest._testJobWorkFlow2 -l INFO -e -r 组合测试,重启,可以每天一次,23:00 或 3:00 , 提醒管理员状态是否正常。

目前设置的crontab :

0 22 * * * /HOME/nscc-gz_jiangli/bin/crontab_ehpc_manager.sh -t test_job.JobTest._testJobWorkFlow2 -l INFO -e -r  >> /HOME/nscc-gz_jiangli/log.ehpc_manager
30 */8 * * * /HOME/nscc-gz_jiangli/bin/crontab_ehpc_manager.sh   >> /HOME/nscc-gz_jiangli/log.ehpc_manager

monitor

用于webserver 状态的监控 主要用来执行清理垃圾的工作。

*/10 * * * * /HOME/nscc-gz_jiangli/bin/crontab_ehpc_server_monitor.sh -t   &> /dev/null
10 3 * * * /HOME/nscc-gz_jiangli/bin/crontab_ehpc_server_monitor.sh -s   >> /HOME/nscc-gz_jiangli/log.ehpc_monitor

目前设置了的定时任务有每隔10分钟的tmp 文件清理 和 每天的 session 清理。 没有遇到攻击的话应该够用了,如果有攻击可以提高清理的频率和添加其他手段。

crontab

节点上的crontab 默认是关闭的,可以用 /sbin/service crond status 检查 管理员可以用 /sbin/service crond start 打开

Clone this wiki locally