Nagios & OMD

Nagios & OMD

Nagios ist der Industriestandard der Open Source Monitoring-Systeme; es erlaubt Ihnen Ihre gesamte IT-Infrastruktur zu überwachen um sicherzustellen, dass Systeme, Anwendungen, Dienste und Geschäftsprozesse richtig funktionieren. Im Falle einer Störung kann der technische Mitarbeiter über das Problem alarmiert werden, so dass es gelöst werden kann, bevor Ausfälle die Geschäftsprozesse, Endnutzer oder Kunden beeinflussen.

Die Open Monitoring Distribution (OMD) ist eine angepasste und erweiterte Nagios-Variante. Es ist ein komplett neues Konzept, um ein Monitoring System auf Basis von Nagios zu installieren, zu warten und upzudaten. OMD bündelt Nagios zusammen mit den Monitoring Plugins bzw. Nagios-Plugins, sowie allen wichtigen Addons wie PNP4Nagios und RRDTool für die Erfassung von Performance Daten; Thruk als universales und globales Webfrontend; DokuWiki zur integrierten Dokumentation. Es stehen fertige Pakete für die Enterprise Linux Distributionen RHEL/SLES und anderen, wie Debian und Ubuntu, zur Verfügung. OMD ist speziell auf die Bedürfnisse von Neueinsteigern und fortgeschrittenen Nutzern zugeschnitten, da hier die wichtigsten und neuesten Addons mit einer einfachen Installation kombiniert werden.

Produktfeatures

Funktionsprüfung & Alarmierung
  • Funktion: Alle unternehmenskritischen Infrastruktur-Komponenten werden zyklisch auf ihren Zustand geprüft und bei Fehlern eine Alarmierung ausgelöst.
  • Einsatzszenario: Die zuständigen Administratoren werden über die Probleme auf diverse

    Wege, wie E-Mail,  SMS oder Instant Messanger benachrichtigt. Über eine

    Eskalation können zusätzliche Abteilungsleiter bei nicht erfolgter

    Reaktion mit alarmiert werden.

  • Nutzen:

    Probleme können schnellst möglich erkannt und durch die frühzeitige

    Alarmierung behoben werden, bevor Ausfälle die gesamten

    Geschäftsprozesse beeinflussen.

Event-Handler

     

  • Funktion: Gescheiterte Anwendungen, Dienste, Server und Geräte lassen sich automatisch neu starten, wenn Probleme erkannt werden.
  • Einsatzszenario: Probleme, welche durch den Neustart eines Dienstes, z.B. überlaufende Sessions des Webservers behoben.
  • Nutzen: Bekannte Probleme können über diese Methode automatische im Sinne von Selbstheilung behoben werden und fallen aus der Alarmierungskette.
  •  

Zentrale Übersicht
  • Funktion: Der gesamten IT-Betrieb, Netzwerk und Geschäftsprozesse können über eine zentrale Stelle eingesehen und verwaltet werden.
  • Einsatzszenario: Unterschiedliche OMD Sites aus diversen Zone, z.B. DMZ und Intranet werden auf simplen Wegen und unter Nutzung einer TCP-Verbindung zusammengeführt.
  • Nutzen: Das gesamte verteilte und skalierte Monitoring-Setup wird über eine Zentrale Stelle eingesehen und verwaltet.
SLA Reporting & Performancedaten

  • Funktion: Sämtliche Ausfälle,

    Benachrichtigungen und Alarmreaktionen werden protokolliert und in SLA

    Reports inkl. Grafischer Darstellung verwendend.

  • Einsatzszenario: Die

    Reports können zur Analyse und dem Nachweis zur Abdeckung der üblichen

    99.9% Verfügbarkeit generiert und dem Abteilungsleiter oder Chef

    vorgelegt werden.

  • Nutzen: Eine zeitliche

    Verfügbarkeitsübersicht ergibt auch die Möglichkeit Wachstumsraten

    einzusehen und frühzeitig in die Ressourcen Planung mit einfließen zu

    lassen.

Parallele Versionen

  • Funktion: Es können unterschiedliche OMD Versionen parallel installiert und genutzt werden.
  • Einsatzszenario: Ihre Produktion läuft mit der letzten stabilen Version und die aktuellsten Version in der Test- oder Entwicklungsumgebung.
  • Nutzen:

    Durch unterschiedlichen Sites und Versionen könne die Bereiche

    Produktion, Test- und Entwicklungsumgebung sauber getrennt verwaltet,

    aber auch durch einen Staging-Prozess genutzt werden.

Geschwindigkeitsoptimierung

  • Funktion: Verwendung von Mod-Gearman zur Lastverteilung, RRDCache zum beschleunigen des RRDTools und TMPFS für die Minimierung der I/O.
  • Einsatzszenario:

    Die Ausführung der Überprüfung wird auf die Worker-Prozesse des Gearman

    ausgelagert/balanciert, oder auch im Cache oder TMPFS gehalten. 

  • Nutzen:

    Die Hardware wird optimal ausgenutzt und die Verschwendung von

    Ressourcen wird gering gehalten. Machen aber auch im selben Zuge das

    Monitoring-Setup skalierbar.

Wie machen wir die Lösung rund?

Neben den eigentlichen Features bieten wir Wissen und einige Erweiterungen an, die das Monitoring-System komplettieren und zu einem gesamten Mehrwert zusammenführen.

Best Practices
AD Integration
Dokumentation
Plugin Sammlung

Durch die jahrelange Erfahrung liefern wir eine skalierbare und wartbare Strukturierung der Monitoring Konfiguration. Seien es die Schwellwerte, Verknüpfung von Hosts und Diensten, deren Abhängigkeiten, aber auch komplexe Monitoring Konzepte ob in einem oder über mehre Standorte hinweg.

Um die Benutzerverwaltung so einfach wie möglich zu halten, kann das Monitoring-System zur Authentifizierung der Benutzer auf Basis von Gruppen ihre Active Directory, aber auch OpenLDAP nutzen.

Alle konfigurierten Systeme und deren Dienste werden über das im OMD mitgelieferten DokuWiki automatisch dokumentiert. Sie lassen sich so direkt aus dem Frontend heraus aufrufen und stellen schnell die nötigen Information für z.B. den NOC-Mitarbeiter zur Verfügung.

Alle Überprüfungen werden durch Plugins gelöst, hier liefern wir neben den eigentlich Nagios- oder Monitoring-Plugins eine eigene Sammlung, welche die nötigen Checks von z.B. vSphere, NetApp oder Juniper abdeckt.

Unser Tipp

Einige unserer Plugins, die wir unter GPL Lizenz veröffentlichen, finden Sie auf unserer GitHub Seite: github.com/teamix/monitoring-plugins

Erfahren Sie mehr über teamix