Bei der Planung eines IT Monitoringsystemes stellt sich immer wieder die Frage wie möglichst ein Systemunterbruch vermieden werden kann. Gerade in grösseren IT-Infrastrukturen oder als Service Provider ist eine hohe Verfügbarkeit ein wichtiges Thema. Neben der reinen Überwachung dienen heutige Monitoringlösung oft auch zum Messen von so genannten KPIs (Key Performance Indicators) welche die Einhaltung von Service Level Agreements (SLA) wiederspiegeln sollen.
Damit ein hoher Nutzen aus einer Monitoringlösung gezogen werden kann und eine zeitnahe Alarmierung im Fehlerfall möglich ist sind nach meiner Erfahrung die folgenden Punkte zu beachten.

  1. Das Monitoringsystem sollte entsprechend den Verfügbarkeitsanforderungen des IT Betriebes ausgelegt sein. Es macht keinen Sinn einen 7×24 Betrieb mit einer Anforderung von 99,9 % durch eine Monitoringlösung zu überwachen die diese Verfügbarkeit nicht erbringen kann.
  2. Mit einem möglichst einfachen Systemaufbau kann eine bessere Verfügbarkeit erreicht und die Gefahr von Ausfällen einzelner Komponenten reduziert werden. Ein Monitoringsystem welches aus verschiedenen Komponenten, verteilt auf mehrere Systeme, wie z.B. DatenbankServer, WebServer, ReportingServer, ManagementServer etc. besteht, wird immer eine schlechtere Verfügbarkeit als eine Single-Server Installation haben.
  3. Abhängigkeiten von Storage oder Virtualisierungs-Infrastrukturen sollten möglichst vermieden werden. Im Falle eines Problemes der Virtualisierungs-Umgebung wird ein virtualisiertes Monitoringsystem evtl. nicht mehr korrekt funktionieren und z.B. eine Alarmierung nicht mehr möglich sein. Dasselbe gilt auch für Storage (SAN) Infrastrukturen.
  4. Für das Monitoringsystem sollte möglichst eine dedizierte Serverhardware verwendet werden. Redundanzen von Netzwerkkarte, Netzteilen und RAID-System sollten selbstverständlich sein.
  5. Ein direkt an das Monitoringsystem angeschlossenes GSM-Modem wird auch bei einem Netzwerkausfall noch eine SMS versenden können.
  6. Eine Benutzerverwaltung via LDAP (z.B. Active Directory) birgt die Gefahr, dass bei einem Ausfall oder Störung desselben keine Authenfizierung mehr möglich ist und das Anmelden am Monitoringsystem nicht mehr korrekt funktioniert. Für solche Notfälle muss das Monitoringsystem zusätzlich über eine lokale Benutzerauthenfizierung verfügen.
  7. Sogenannte HA (High Availability) Lösungen können nur durch den Einsatz von entsprechender Clustering-Software erreicht werden. Virtuelle Fault Tolerance Lösungen genügen diesem Anspruch nicht, diese bieten nur eine höhere Verfügbarkeit bei Hardware- oder Betriebssystemausfällen. Fehlfunktionen oder Komplettausfälle von Applikationen (z.B. Monitoringapplikation) = Service Availability (SA), können nur mit entsprechenden Zusatzprodukten erkannt und vermieden werden.
  8. Nur HA und SA taugliche Cluster-Lösungen erlauben die unterbruchsfreie Wartung des Monitoringsystems wie z.B. Systemupgrades, Hardwareausbau etc.. Dadurch ist die Überwachung der IT-Infrastruktur immer gewährleistet und eine lückenlose Messung von SLA relevanten Daten möglich.
  9. Für den Disaster Fall muss natürlich immer der Zugriff auf zeitnahe Datenbackups gewährleistet sein. Regelmässige Tests der Backupdaten und des Recovery Prozesses sind ebenfalls nötig.

Ein mögliche Lösung einer HA tauglichen Monitoringumgebung wurde durch die Firma RealStuff Informatik AG für die Migros realisiert. Dazu wurde das Produkt Lifekeeper von SIOS (vormals SteelEye) eingesetzt. mehr…. (nur in Englisch)

Leave a Reply

(required)

(required)

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

© 2011 monitoringblog.ch Suffusion theme by Sayontan Sinha