Vyjádření k výpadku serveru dne 17.2.2010
Výpadek serveru 17.2.2010 (22:00)
Server web1.euromise.com jsme uvedli do chodu v únoru 2007. Server byl vybaven čtyřmi disky a technologií RAID5, která minimalizuje ztrátu dat při poruše jednoho z disků. Server také využíval technologii odstínění spuštěných programů (jails), která zabraňuje útočníkům napadnout samotný operační systém webserveru. A samozřejmostí bylo provádění každodeních záloh na jiný server.
První dvě technologie se nám v praxi několikrát osvědčily, neboť za dobu života serveru jsme v diskovém poli Raid5 vyměňovali vadný disk celkem 3x a průniků přes nezabezpečené nebo zastaralé PHP skripty bylo nespočet. Nikdy však nedošlo k napadení vlastního systému serveru.
Vzhledem k tomu, že hardware serveru morálně zastarával a s narůstajícím počtem spamů mu již docházel dech, od prosince 2009 jsme připravovali upgrade serveru o diskové kapacitě několik terabajtů a osazený osmi procesory. Osud nás ale předstihl.
Ve středu 17.2.2010 po 22:00 se ukázalo, že i ta dlouho nedoceněná práce s pravidelným kopírováním všech dat na záložní server se vyplatila. Zahoření jednoho z disků vedlo k řetězové reakci, která vyústila v poškození i jiných částí serveru. Ze zbylých 3 disků se sice zpětně podařilo sestavit funkční Raid5, avšak sql databáze byly ztraceny.
Ihned po havárii jsme tedy přistoupili k nasazení (bohužel ještě ne zcela odzkoušeného) serveru nové generace. Kromě zprovoznění samotného serveru bylo nutné přesunout a rozbalit zálohy všech uživatelských dat, emailů a sql databází ze záloh. Náročnost takového procesu si vyžádala odstávku služeb serveru na delší dobu. Opětovné spuštění služeb se neobešlo bez chyb v konfiguracích, které se u tak složitého systému obvykle ladí za chodu v testovací fázi. Některé služby tak vykazovaly částečnou funkčnost, případně byly opakovaně nedostupné. Svou daň si bezesporu také vybrala nutnost použít starší zálohy a postupné dokopírování obnovených dat. Za způsobené nepříjemnosti se omlouváme.
Vzhledem k tomu, že sql databáze na serveru se vrátily do stavu k 17.2.2010 cca 1:00 a zároveň byl server vystavěn od základu znovu, považujeme za důležité, aby uživatelé byli informováni o aktuálním i cílovém stavu věcí tak, aby se dokázali bezpečně a s rozumem vypořádat s nastalou situací. Dále uvádíme tabulku se službami s přibližnými časovými údaji o jejich stavu a miry zprovoznění:
| Služba | Datum, čas | Stav k datu | Popis |
| MySQL db | 18.2.2010, 12:00 | Funkční | Data obnovena z poslední zálohy ze 17.1.2010 1:00. |
| 19.2.2010, 17:00 | Finální | Opraveny tabulky označené jako "Crashed" reportované od uživatelů. | |
| PhpMyAdmin | 19.2.2010, 14:00 | Finální | Nástroj spuštěn, naleznete na adrese: http://myadmin.euromise.com/ . |
| WWW stránky | 19.2.2010, 7:00 | Částečně funkční | Web spuštěn nad zálohou z 8.2.2010, která se nacházela přímo na testovacím serveru. |
| 19.2.2010, 23:00 | Funkční | Dokončena obnova dat z původního serveru. | |
| 22.2.2010, 11:00 | Finální | Odstraněny poslední zádrhely a opraveny reportované nefunkční domény. | |
| FTP/SFTP | 19.2.2010, 17:00 | Funkční | Přístup k souborům pouze pomocí protokolu SFTP. |
| 22.2.2010, 15:00 | Finální | Dnes bylo direktivně rozhodnuto, že přístup pomocí FTP nebude obnoven.
Využijte prosím naší nápovědy pro použití programu WinSCP. |
|
| E-maily Typ účtu POP3 |
19.2.2010, 17:00 | Funkční | Možnost vybírat emaily, filtrování na spam.
Emaily se podařilo obnovit všechny. |
| 22.2.2010, 17:00 | Finální | Doplněna antivirová kontrola příchozích emailů. | |
| E-maily Typ účtu IMAP |
19.2.2010, 17:00 | Funkční | Možnost číst emaily a pracovat se složkami, filtrování na spam.
Emaily se podařilo obnovit všechny. |
| 22.2.2010, 17:00 | Finální | Doplněna antivirová kontrola. | |
| E-maily Příjem pošty SMTP |
18.2.2010, 13:30 | Částečně funkční | Server přijímá a doručuje poštu. Konference přijímají, ale nerozesílají emaily. |
| 19.2.2010, 22:00 | Funkční | Odstraněna příčina nefungujících konferencí, přegenerovány seznamy účastníků konferencí. |
|
| 20.2.2010, 12:00 | Funkční | Znovu zařajeny a doručeny emaily do konferencí, které nebyly rozeslány. | |
| 21.2.2010, 18:00 | Finální | Opravena chyba v oprávněních u některých konferencí. | |
| DNS | 18.2.2010, 14:30 | Finální | Vyřešen problém s nedostatkem volných zdrojů pro službu. |
| Webmail | 21.2.2010, 17:00 | Funkční | Webmail je zatím v jeho originálním (šedivém) plášti.
Šablony našeho žlutomodrého vzhledu s novou verzí nespolupracují, takže je budeme muset udělat znovu. Anglická verze se neplánuje. |
| NTPD | 22.2.2010, 21:30 | Funkční | Služba s nejnižší důležitostí byla konečně spuštěna. |
Pokud je služba označena stavem Finální, považujeme ji za zcela funkční a neplánujeme další změny v její konfiguraci. Pokud Vám něco u této služby nefunguje, neváhejte se ozvat, stav se samovolně nezmění!