Disaster recovery

Je to už pár měsíců, kdy vyhořelo datacentrum francouzskému provozovali datových center a hostingových služeb OVH, ale my u nás, ve wf techu, na tuto situaci pořád myslíme.

Proto jsme se rozhodli ověřit si, jak dlouho by trvalo obnovit běh vašich serverů v případě vyhoření HW. Nezapomněli jsme ani na otestování disaster recovery serveru, v případě selhání více disků najednou a nutné reinstalace. Ale ještě než se k němu dostaneme, musíme si něco říct o tom, jak u nás probíhá zálohování.

ZÁLOHOVÁNÍ

Každý den o půlnoci provedeme snapshot dat na našich discích. Ty pak následně nahráváme do Amazon S3 úložiště v Irsku. Tam je záloha uložena do třech oddělených lokalit (dost daleko od sebe, kvůli minimalizaci rizika zničení více než jednoho datacentra najednou).

Náhrávání dat chvíli trvá, v závislosti na množství změn, které jsme za poslední den udělali. Jednou za zhruba 28 dní se provádí plná záloha, která může běžet i několik hodin. V případě selhání disků v době po vytvoření snapshotu, ale před nahráním na S3 může dojít k ztrátě 2 dnů dat. Jinak jde o riziko ztráty 1 dne dat.

Pokud potřebujete častější zálohy, napište nám.

DISASTER RECOVERY

Pokud porovnáme nízkonákladový housing OVH s námi využívaným telehousem firmy VSHosting s.r.o, je zde výrazně vyšší zabezpečení proti požáru či fyzickému průniku a dalším problémům. Nicméně ale riziko nemůžeme nikdy úplně ignorovat.

Za standardní situace VSHosting dokáže vyměnit HW serveru do 1 hodiny od jeho selhání za druhý (totožný) HW. Připraví se nový stroj a přesunou se do něj disky s daty z původního serveru. Celková obnova provozu v takovém případě bývá pod 2 hodiny.

V případě, že vyhoří víc než jeden disk, musíme celý server nainstalovat a obnovit ze zálohy. I když pro toto používáme automatizaci, doba obnovy v tomto případě bude mezi 1 – 2 dny.

Pokud by se stalo, že by datacentra shořela a nebude možná obnova do původního datacentra, protože shořelého HW by bylo příliš mnoho a tím pádem by mohlo vše trvat velmi dlouho, bavíme se klidně i několika týdnech až měsících – v závislosti na množství zničeného HW. V takové situaci víme, že musíme rozběhnout servery, v co nejkratší době, jinde. V našem případě by šlo o AWS, cloudovou službu, se kterou máme rozsáhlé zkušenosti a dokážeme vše v rozumné době zprovoznit.

Ale je fér říct, že rozumnou dobou v takové situaci považujeme horizont 1 – 5 dní v závislosti na složitosti instalace a době stažení záloh. Chápeme, že to může být přiliš dlouho, proto už nějakou dobu řešíme také instalace na AWS, kde to dokážeme udělat tak, aby aplikace buď nebyla zasažena a nebo byla zpět v rámci několika minut. Ale snažíme se zůstat transparentní, nebudeme tvrdit, že to je za stejnou cenu, vyjde to dráž. Nicméně v případě velké katastrofy je obnova provozu co nejdříve prioritou.

Pokud jsou výše napsané doby obnovy příliš dlouhé, kontaktujte nás, můžeme se domluvit na vysoce dostupném řešení na AWS.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *