Icinga

MySQL NDB Cluster mit Icinga überwachen

Dieser Beitrag schrieb ich vor 3 Jahren. Behalte das beim Lesen bitte im Hinterkopf.

Weitere Beiträge der Artikelserie »MySQL NDB Cluster« findest du an dieser Stelle.

Um die Knoten überwachen zu können, wird auf allen nagios-nrpe-server und das Paket mit den nagios-Plugins installiert; der Host webserver ist der, auf dem mein Icinga läuft und der die Daten einsammeln wird.

$ apt-get install nagios-plugins-contrib nagios-nrpe-server

Die erste »dumme« Überprüfung schaut, ob auf den Cluster-Knoten jeweils die benötigten Dienste laufen; zusammengefasst sind das

  • 4x ndbd und 1x mysqld jeweils auf beiden data nodes sowie
  • 1x ndb_mgmd und 2x mysql-proxy jeweils auf beiden management nodes und
  • die RAM-Auslastung (nicht nur, aber besonders) auf den data nodes.

Allerdings fängt das nicht auf, wenn zwar alle Dienste laufen, aber nicht sauber miteinander verbunden sind, ist also nur bedingt sinnvoll; deshalb wird das Setup noch erweitert

  • um die Abfrage, ob alle Nodes korrekt miteinander verbunden sind.

Auf den data nodes können die relevanten Teile der nrpe.cfg beispielsweise so aussehen (das gesamte File ist als nrpe.cfg-DATANODEGITHUB verfügbar):

command[check_ndbd]=/usr/lib/nagios/plugins/check_procs -w 4:4 -c 1:5 -C ndbd
command[check_memory]=/usr/lib/nagios/plugins/check_linux_memory -f -w 20 -c 10 -d G

Und auf den management nodes können die relevanten Teile der nrpe.cfg beispielsweise so aussehen (das gesamte File ist als nrpe.cfg-MANAGEMENTGITHUB verfügbar):

command[check_ndb_mgmd]=/usr/lib/nagios/plugins/check_procs -w 1:1 -c 0:2 -C ndb_mgmd
command[check_ndb_health]=/usr/lib/nagios/plugins/check_mysql_health --mode cluster-ndbd-running
command[check_memory]=/usr/lib/nagios/plugins/check_linux_memory -f -w 20 -c 10 -d G

MySQL NDB Cluster Service Alert Jetzt kann auf datanode1 mal ein ndbd geschossen werden; ich habe mich für NodeId=12 entschieden und ihn sauber über die Management-Konsole getrennt. Icinga meldet umgehend, dass auf datanode1 nicht mehr die korrekte Zahl an ndbd-Prozessen läuft, und beide management nodes melden, dass zu NodeId=12 keine Verbindung mehr besteht.

ndb_mgm> 12 stop
Node 12: Node shutdown initiated
Node 12: Node shutdown completed.
Node 12 has shutdown.

Da ich sowieso gerade Updates installiert hatte entschied ich mich, datanode1 mal vollständig herunterzufahren. Erwartungsgemäss wird in Icinga der gesamte Host ROT, und beide management nodes melden den Verlust zu Node 10, zu Node 12 und zum mysqld, der als Node 20 konfiguriert ist.

[1432385728] SERVICE ALERT: management1;MySQL NDB Health;CRITICAL;SOFT;1;CRITICAL - ndb node 10 is not connected, ndb node 12 is not connected, api node 20 is not connected
[1432385788] SERVICE ALERT: management2;MySQL NDB Health;CRITICAL;SOFT;2;CRITICAL - ndb node 10 is not connected, ndb node 12 is not connected, api node 20 is not connected

Schliesslich wird datanode1 wieder hochgefahren, beide ndbd und auch der mysqld laufen an, und schliesslich meldet Icinga, dass auch MySQL NDB Cluster wieder vollständig up&running ist — der Dienst MySQL NDB Health springt wieder auf GRÜN:

[1432385128] SERVICE ALERT: management1;MySQL NDB Health;OK;SOFT;4;OK - all ndb nodes are connected, all api nodes are connected
[1432385128] SERVICE ALERT: management2;MySQL NDB Health;OK;SOFT;4;OK - all ndb nodes are connected, all api nodes are connected

Reposts

  • Icinga

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Do NOT follow this link or you will be banned from the site!