Cloud, který neodfoukne ani tornádo
Příběh, který popisuje naši unikátní zkušenost asi ve střední Evropě jen tak někdo nezažil. Jak je provoz vašeho IT připraven na živelnou katastrofu či zásadní havárii?
Tématem zajištění kontinuity podnikání či chodu organizace se dnes v době raketového růstu digitalizace podnikových procesů zabývá mnoho manažerů. Provoz organizací je stále více závislý na informačních technologiích a rizik, kterým čelí, je mnoho – selhání technologií, lidský faktor, kyberútoky či přírodní živly. Velkým pomocníkem v zajištění vysoké dostupnosti IT je umístění kritických služeb a procesů do cloudu.
Ale co když máte důvody nevyužívat veřejných mezinárodních cloud služeb a preferujete privátní verzi s vysokou dostupností v ČR? Naše datacentrum s nabídkou těchto služeb prošlo v červnu 2021 ojedinělým ostrým testem, který v Evropě nemá obdoby. Dokázalo zachovat provoz zákaznických služeb i po přímém zásahu tornáda o síle F3-F4! A je to příběh, který stojí za přečtení.
Vysoká dostupnost s certifikací Tier III
Pro bezvýpadkový provoz má datacentrum veškeré kritické komponenty plně redundantní, v případě napájení jsou použity dvě nezávislé trasy. Pro případ výpadku dodávky energie ze sítě, jsou k dispozici dva záložní motorgenerátory se zásobou paliva na 48 hodin provozu a možností požadovanou dobu prodloužit dle potřeb. To umožňuje nepřetržitý chod i bez externího zdroje elektrického napájení. Pro přechod na motorgenerátory jsou obě napájecí větve zálohovány také modulárními UPS, které provoz podrží minimálně 1 hodinu. Stejná úroveň zabezpečení se týká i způsobu chlazení, kdy jsou k dispozici 3 turbokompresorové jednotky v režimu N+1.
Pro bezvýpadkový provoz je samozřejmě nutné zajistit i datovou konektivitu, proto jsou datová propojení s národními a nadnárodními sítěmi také plně zálohována. Díky tomu datové centrum splňuje stupeň certifikace TIER III, a má garantovanou dostupnost 99,981 %, to znamená pouze 1,6 hodin výpadku ročně.
Pro minimalizaci rizik je k dispozici další geograficky oddělené datové centrum v Praze, kam lze převést nejen provoz a služby, ale obě datová centra disponují také vzájemným redundantním propojením i externí konektivitou. Zároveň všechny systémy kritické infrastruktury, které zajišťují bezpečný a bezvýpadkový chod celého datového centra mají vlastní autonomní systém monitoringu přímo napojený na dohledové centrum. V datacentru je také nepřetržitě přítomna kvalifikovaná obsluha těchto kritických technologií.
Profesionální výzbroj je základ, ale až přímý boj ukáže
Tornádo o síle F3-F4 udeřilo v Lužicích 24. 6. 2021, v podvečer, bez varování. Specialistovi dohledu datacentra se ohlásilo přes alarmy výpadků napájení, pak to ale šlo tak rychle, že zachraňoval sám sebe útěkem do strojovny. Jak katastroficky dopadlo okolí budovy datacentra, která toho hodně ustála, viděla většina lidí v médiích. Co se ale děje v ten okamžik uvnitř? Datacentrum spouští aktivaci krizového plánu, se zákazníky se domlouvá vypínání nekriických systémů, na místo se stahují další specialisté. Oblast je složitě přístupná, v areálu je obrovské množství trosek. Přímý zásah tornáda zřejmě poškodil motorgenerátory a datové centrum se v první hodině musí spolehnout jen na UPS. Včas se ale podařilo motorgenerátory zprovoznit, problémy ale pokračovaly i s turbokompresory pro chlazení, útok tornáda byl opravdu silný.
Jak tedy dál? Omezené zdroje umožňují datacentru v základu chladit, nic dalšího není možné spouštět. Na místo musí vyrazit k opravám další technici a náhradní díly. Pro případ pádu je aktivován možný přechod na provoz záložního centra v Praze, nakonec vše ale zůstává primárně na běhu v Lužicích. O půlnoci uzavírá policie obce v oblasti, a je tu další komplikace, na příjezdu je třeba se prokazovat složkám integrovaného záchranného systému dokumenty potvrzenými vedením společnosti. V noci se přesto podaří zprovoznit turbokompresor chlazení a provoz datacentra ožívá, nad ránem jsou zákazníci informováni, že mohou začít spouštět systémy.
Od rána se též pracuje na dalších opravách turbokompresorů. Situaci zkomplikuje výpadek jednoho motorgenerátoru a je též nahlášen i další incident – možný pád datové linky, jede na UPS a diesel agregát se dodavateli díky situaci v lokalitě asi nepodaří zprovoznit. Klidu dodává, že pro datovou konektivitu jsou k dispozici linky dvě. Dopoledne je opraven další turbokompresor a chlazení, v poledne se podaří zprovoznit v areálu další zásadní věc – kávovar. Během zbytku se daří opravit poškozený motorgenerátor a převést provoz na něj. To už běží naprosto všechny, i nekritické, systémy.
Další den nad ránem vypadla jedna z linek datové konektivity, ale žádný problém, šlo o očekávanou věc a provoz běžel na 2. lince, opraveno bylo během 2 hodin. Neděle už je v poklidu, probíhá rutinní monitoring, opětovný přechod na jiný motorgenerátor a plánování dojezdu cisterny s naftou. Elektrické napájení v lokalitě jen tak brzy asi stabilní nebude.
Co vždy potěší nejvíc, jsou reakce zákazníků
Situace si vyžádala vysoce profesionální přístup mnoha specialistů, kteří se museli vypořádat jak se složitým fyzickým přístupem v lokalitě plné trosek i logicky otřesenou psychikou. O to víc potěší některé reakce zákazníků.
„Jako zákazník zmíněného datacentra můžu potvrdit, že kdyby to nebylo ve zprávách, tak jsme to ani nepoznali. Skvělá práce i v těchto nepředvídatelných podmínkách.“
„V tomto datacentru má naše firma své páteřní systémy. Když vše ve čtvrtek 22:00 spadlo a viděli jsme tu spoušť v TV, nevěřili jsme, že v pátek pojedeme. Ale ve 4:00 ráno se vše rozběhlo a všechny zásilky jsme v pátek doručili a svezli, bez jakéhokoliv vlivu na zákazníky.“
„I přes to monstrum, které přes datacentrum prošlo, všechno fungovalo a funguje. Komunikace byla fakt úžasná.“