Je to už pár měsíců, kdy vyhořelo datacentrum francouzskému provozovali datových center a hostingových služeb OVH, ale my u nás, ve wf techu, na tuto situaci pořád myslíme.
Proto jsme se rozhodli ověřit si, jak dlouho by trvalo obnovit běh vašich serverů v případě vyhoření HW. Nezapomněli jsme ani na otestování disaster recovery serveru, v případě selhání více disků najednou a nutné reinstalace. Ale ještě než se k němu dostaneme, musíme si něco říct o tom, jak u nás probíhá zálohování.
ZÁLOHOVÁNÍ
Každý den o půlnoci provedeme snapshot dat na našich discích. Ty pak následně nahráváme do Amazon S3 úložiště v Irsku. Tam je záloha uložena do třech oddělených lokalit (dost daleko od sebe, kvůli minimalizaci rizika zničení více než jednoho datacentra najednou).
Náhrávání dat chvíli trvá, v závislosti na množství změn, které jsme za poslední den udělali. Jednou za zhruba 28 dní se provádí plná záloha, která může běžet i několik hodin. V případě selhání disků v době po vytvoření snapshotu, ale před nahráním na S3 může dojít k ztrátě 2 dnů dat. Jinak jde o riziko ztráty 1 dne dat.
Pokud potřebujete častější zálohy, napište nám.
DISASTER RECOVERY
Pokud porovnáme nízkonákladový housing OVH s námi využívaným telehousem firmy VSHosting s.r.o, je zde výrazně vyšší zabezpečení proti požáru či fyzickému průniku a dalším problémům. Nicméně ale riziko nemůžeme nikdy úplně ignorovat.
Za standardní situace VSHosting dokáže vyměnit HW serveru do 1 hodiny od jeho selhání za druhý (totožný) HW. Připraví se nový stroj a přesunou se do něj disky s daty z původního serveru. Celková obnova provozu v takovém případě bývá pod 2 hodiny.
V případě, že vyhoří víc než jeden disk, musíme celý server nainstalovat a obnovit ze zálohy. I když pro toto používáme automatizaci, doba obnovy v tomto případě bude mezi 1 – 2 dny.
Pokud by se stalo, že by datacentra shořela a nebude možná obnova do původního datacentra, protože shořelého HW by bylo příliš mnoho a tím pádem by mohlo vše trvat velmi dlouho, bavíme se klidně i několika týdnech až měsících – v závislosti na množství zničeného HW. V takové situaci víme, že musíme rozběhnout servery, v co nejkratší době, jinde. V našem případě by šlo o AWS, cloudovou službu, se kterou máme rozsáhlé zkušenosti a dokážeme vše v rozumné době zprovoznit.
Ale je fér říct, že rozumnou dobou v takové situaci považujeme horizont 1 – 5 dní v závislosti na složitosti instalace a době stažení záloh. Chápeme, že to může být přiliš dlouho, proto už nějakou dobu řešíme také instalace na AWS, kde to dokážeme udělat tak, aby aplikace buď nebyla zasažena a nebo byla zpět v rámci několika minut. Ale snažíme se zůstat transparentní, nebudeme tvrdit, že to je za stejnou cenu, vyjde to dráž. Nicméně v případě velké katastrofy je obnova provozu co nejdříve prioritou.
Pokud jsou výše napsané doby obnovy příliš dlouhé, kontaktujte nás, můžeme se domluvit na vysoce dostupném řešení na AWS.