6.1.2015

foto Petr Bravenec

Petr Bravenec
Twitter: @BravenecPetr
+420 777 566 384
petr.bravenec@hobrasoft.cz

Zlý sen?

"Pane Dodavateli, já jsem se potřeboval dostat do vašeho ceníku, ale váš web už od včerejška nefunguje!" Děs! Léto v plném proudu a váš zajetý kšeft s plavkama je bez internetu!

Už krátký průzkum ukáže, že počítač s webovým serverem nefunguje. Pokusy o nastartovaní jsou neúspěšné, disk je nečitelný. Naštěstí jsou disky v raidu, zrcadlené. Ale druhý disk taky nechce bootovat! Že by za to mohla vysoká letní teplota, když po letní bouřce na dva dny vypadla klimatizace? Ještě že máme pravidelné, automaticky prováděné zálohy... cože!? Poslední záloha je z února? Půl roku stará!?

Už se vám něco takového stalo? Čekáte taky, že vám závady oznámí vaši uživatelé nebo zákazníci?

Monitorování serverů

Podobným situacím lze velmi snadno předejít monitorováním serverů. V dané situaci chyběly informace o stavu několika základních parametrů:

  • Žije počítač s webovým serverem? Ke zjištění stačí obyčejný ping, jenom ho někdo musí udělat.
  • Jsou v počítači všechny disky v diskovém poli online, připojené?
  • Jsou disky v dobré kondici? Neobsahují špatné sektory?
  • Je teplota disků v pořádku, nepřehřívají se? (Vypadlou klimatizaci poznáte na teplotě disků během hodiny)
  • Je řádně provedená záloha? Kdy se naposledy podařilo udělat zálohu?

Všechny parametry lze samozřejmě sledovat ručně, je to otázka pár minut, a pokud si test napíšete do jednoduchého skriptu, pak zabere kontrola jen pár vteřin. Ale za pár dní, týdnů či měsíců vás série spolehlivých OK, OK, OK... přestane bavit a na kontrolu zapomenete. Naštěstí lze podobné kontroly zautomatizovat a prezentovat v přehledné internetové aplikaci.

Parametrů, které je vhodné sledovat, je mnohem více

  • Systémový čas. Pro některé služby je přesně nastavený čas kritický (sběr dat, měření). Důležitý je čas i pro některé služby, u kterých to tak na první pohled nevypadá: "Posílal jsem vám tu poštu v 11:33 přesně, musíte ji tam mít!"
  • Počet zpráv v poštovní frontě - větší počet nedoručených zpráv na serveru může rychle varovat před zavirovaným PC ve vaší firemní síti.
  • Počet procesů na server - pokud se vám na serveru neukončují řádně pravidelné úlohy, může to ukazovat na potenciální problémy s disky, vpn, připojením k internetu a podobně.
  • Volné místo na discích
  • Stav VPN linek na pobočky
  • Jednoduchá kontrola fungování různých serverů: SMTP, IMAP, DNS, FTP, WWW a dalších, například poštovního antiviru, sql databáze nebo libovolného vašeho vlastního serverového procesu.
  • Funkční kontrola webových stránek. To, že WWW server odpovídá na požadavky, ještě neznamená, že stránky WWW fungují v pořádku - stává se, že místo firemní stránky zobrazuje váš www server pouze zprávu "Nelze se připojit k databázi, špatné jméno nebo heslo".
  • Funkční kontrola webových aplikací a formulářů - cesta dat do vaší interní databáze může být někdy složitá. Už jsem se potkal s webovým formulářem hostovaným na páteřní síti, který převzal poptávku od zákazníka, poštou ji poslal na speciální adresu v intranetu, kde se data zpracovala a uložila do interní databáze. Kontrola ověřuje, že testovací data zadaná do formuláře se nejpozději do hodiny objeví na místě určení.
  • Různé importy a exporty dat - pro monitoring fotovoltaických elektráren například nakupujeme meteorologická data u externího dodavatele. Platba se provádí jednou měsíčně kartou. Samozřejmě to fungovalo spolehlivě jen do doby, než karta expirovala... nyní už platbu kontrolujeme v monitorovacím systému.

Čím monitorovat?

Pro monitorování serverů a služeb používáme aplikaci Icinga:

Pro monitorování existuje spousta dalších programů. Už letmý průzkum Googlem mi ukázal několik dalších: nagios, cacti, zabbix, zenoss, itermapper, spiceworks, munin.

Co ještě potřebujete?

Abyste předešli situacím popsaným v úvodu, potřebuje nutně ještě jednu věc: někoho, kdo bude sedět u počítače a bude vědět, jak reagovat při výskytu různých problémů: info@hobrasoft.cz.

Hobrasoft s.r.o. | Kontakt