document log monitoring and -purging (Bug #6174)
authorvarac <varacanero@zeromail.org>
Tue, 18 Nov 2014 10:04:53 +0000 (11:04 +0100)
committervarac <varacanero@zeromail.org>
Tue, 18 Nov 2014 10:04:53 +0000 (11:04 +0100)
docs/platform/tests.md

index eeefa0e..40c049a 100644 (file)
@@ -16,13 +16,21 @@ Alternately, you can run test on all nodes (probably only useful if you have pin
 
 ## Monitoring
 
-If you have a node with the 'monitor' service, then this node will regularly poll every node to ask for the status of various health checks. These health checks include the checks run with `leap test`, plus many others.
+In order to set up a monitoring node, you simply add a `monitor` service tag to the node configuration file. It could be combined with any other service, but we propose that you add it to the webapp node, as this already is public accessible via HTTPS.
+After deploying, this node will regularly poll every node to ask for the status of various health checks. These health checks include the checks run with `leap test`, plus many others. 
+We use [Nagios](http://www.nagios.org/) together with [Check MK agent](https://en.wikipedia.org/wiki/Check_MK) for running checks on remote hosts.
 
-You can log into the monitoring web interface via XXXX. The username and password are found in the secrets.json file in your provider directory.
+You can log into the monitoring web interface via (https://<MONITORNODE>/nagios3/). The username is `nagiosadmin` and the password is found in the secrets.json file in your provider directory.
 
 TODO:
 
-* add how to set up monitoring. just need to add 'monitor' service? what is it compatible with?
-* add url
-* add username/password
 * add how to write your own `leap test` tests and/or nagios tests
+
+Log Monitoring
+--------------
+
+At the moment, we use [check-mk-agent-logwatch](https://mathias-kettner.de/checkmk_check_logwatch.html) for searching logs for irregularities.
+Logs are parsed for patterns using a blacklist, and are stored in `/var/lib/check_mk/logwatch/<Nodename>`.
+
+In order to "acknoledge" a log warning, you need to log in to the monitoring server, and delete the corresponding file in `/var/lib/check_mk/logwatch/<Nodename>`. This should be done via the nagios webinterface in the future.
+