最新消息:

open-falcon的使用2-高级

Linux ipcpu 10604浏览 0评论

零、回顾

上节我们使用openfalcon实现了类似cacti的出图功能,安装了 agent–>transfer–>graph–>query–>dashboard等组件,这次我们安装剩余的组件来实现nagios的报警功能。

一、安装judge、alarm、sender

agent会将数据传递给transfer ,transfer在将数据传递给graph 的同时,也会传送一份到judge。
judge会根据模板的报警规则进行判断,将产生的报警event写入redis,alarm从redis读取报警并通过sender发送邮件和短信。

judge、alarm、sender都是go语言编译好的程序,安装方法就不再详细描述了。

Links是为报警合并功能写的组件,本次先不说。不安装。

二、安装FE,WEB统一入口

因为openfalcon监控组件众多,记忆ip、port去访问还是比较麻烦。fe像是一个监控的hao123,从这里可以快速进入各个组件。在小米的教程里FE也叫UIC。
FE组件安装和配置方法同之前的一致。

三、portal

Portal的配置文件是frame/config.py
portal和dashboard一样也是python开发,需要按如下方式启动

  1. $ cd /path/to/portal/
  2. $ virtualenv ./env
  3. $ ./env/bin/pip install -r pip_requirements.txt
  4. ##@@启动
  5. $ ./control start

四、openfalcon的使用

webportal的使用

4.1 重置root密码

FE界面上有平台登录/退出功能,默认用户是root,密码好像是a,可以使用如下命令重置密码。

  1. http://10.127.3.118:1234/root?password=sohu.com

4.2 配置报警策略

基本过程如下:

  1. 配置报警接收人(用户信息和用户组)
  2. 创建主机组HostGroup
  3. 创建策略模板
  4. 将HostGroup与模板绑定

详情请查看官网文档

五、自定义监控项

有两种办法,一是使用插件功能,另一个就是使用crontab定期向agent发送数据。

六、其他问题

6.1 最大报警次数为3,那前三次报警的时间间隔在哪里设置?

比如你的数据是一分钟上来一次,理论上第三分钟,第六分钟,第九分钟分别报警三次就不再报警了。但是这样报警我们觉得太频繁,于是judge中有一个最小报警设置,默认是5分钟,即:两次报警之间至少间隔5分钟:第三分钟、第八分钟、第13分钟。Link不做告警合并,Alarm只合并一分钟内相同类型的报警。

6.2 这个max=3 是指同一个监控项 比如cpu.busy 在一定时间内最多发三次报警吗?

max表示最大报警次数,比如你配置了cpu.idle小于5报警,max设置为3那么报警达到3次之后即使仍然小于5也不会再报警了,直到接下来某次cpu.idle大于5了,就会报一个ok出来。以后如果又小于5了,那就会再次报警

七、参考资料

http://www.jianshu.com/p/a5fcd5c048f1
http://book.open-falcon.org/zh/usage/getting-started.html

转载请注明:IPCPU-网络之路 » open-falcon的使用2-高级

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址