MetaStorage: ISM - Business Continuity czyli zachowanie ciągłości działania

Zakończyliśmy w poprzednim wpisie drugą sekcję ( z czterech ) przygotowujących do egzaminu z ISMa.
Teoretycznie jesteśmy w połowie drogi, ale praktycznie nieco dalej. Jest to związane z faktem, że dwie ostatnie sekcje są nieco krótsze niż pierwsze.

W każdym razie przez kilka następnych wpisów przewijać się będą motywy dotyczące dostępności do danych, replikacji , backupów itd...

Zachowanie ciągłości działania i dostępność informacji:

Najpierw definicja zachowania ciągłości działania:
"Business Continuity is preparing for, responding to, and recovering from an application outage that adversely affects business operations."

Businnes Continuity (BC) jest zaimplementowanym w przedsiębiorstwie procesem, obejmującym wszystkie działania, zarówno związane z IT jak i nie, które musza zostać przeprowadzone aby zminimalizować i usunąć wpływ nieplanowanej przerwie w świadczeniu usług. BC musi zapewnić, że dane nie zostaną utracone i będą dostępne.

Kolejna definicja dotyczy dostępności informacji (Information Availability):
"Information Availability (IA) refers to the ability of an infrastructure to function according to business expectations during its specified time of operation."

IA zapewnia, że osoby korzystające z danych, będą miały do nich dostęp. IA można określić na trzech poziomach:

Accessibility: stan, kiedy potrzebne informacje, są dostępne dla uprawnionych użytkowników. Czas kiedy to zachodzi nazywa się uptime. Czas, kiedy dane nie są dostępne, nazywany jest downtime.
Reliability: odnosi się do zapewnienia, że dane które otrzymaliśmy, są dokładnie tymi danymi o jakie poprosiliśmy.
Timeliness: definiuje w których momentach dane muszą być dostępne.

Przyczyny niedostępności informacji:

Ogólnie możemy wróżnić trzy główne przyczyny niedostęności danych:

Planowane wyłączenia (Planned Outages) - wyłączenie maszyn w celu przeprowadzenia różnych działań konserwująco-sprawdzających ( pathowanie , rozbudowa , testowanie itd...). Tego typu wyłączenia stanowią około 80% z wszyskich przypadków niedostępności danych.
Nieplanowane wyłączenia (Unplanned Outeges) - wyłączenie maszyn nieplanowane i nieoczekiwane. Głównie związane jest z incydentami takimi jak: uszkodzenia komponentów fizycznych, błedy softwarowe (korupcja bazy danych, bug) lub błędy człowieka. Tego rodzaju wyłączenia to mniej więcej 20% z wszystkich przypadków niedostępności.
Katastrofy (Disaster) - Odpowiadają za mniej niż 1% przypadków niedostępności danych. Związane są z katastrofami naturalnymi (powodzie, trzęsienia ziemi, pożary) jak i spowodowanymi przez człowieka (np: skażenie budynku, atak terrorystyczny)

Wpływ braku usług (downtime) na biznes:

Lost Productivity - z powodu niedziałania systemu, nasi pracownicy nie mogą wykonywać swoich obowiązków - strata= ilość godzin downtimu *( ilość pracowników * średnia godzinna stawka + średni zarobek firmy w godzinę)
Damaged Reputation - utrata zaufania i reputacji zarówno u klientów, jaki i dostawców, partnerów biznesowych oraz na rynku
Lost Revenue - utrata dochodu, starty związane z zatrzymaniem działalności firmy ( brak sprzedaży, inwestycje które nie zostały przeprowadzone itd.)
Financial Perfromance - straty związane z utratą wartości akcji , zmniejszeniem wiarygodnosci kredytowej itd...
Other Expenses - dodatkowe opłaty dotyczące wynajęcia supportu do naprawy uszkodzenia , koszty zamówienia i transportu części itd...

Jak zmierzyć dostępność informacji:

Linia czasu:

>---Incydent --- Wykrycie --- Diagnoza --- Naprawa --- Odbudowa --- Przywrócenie Usług --- Incydent --->

Czas pomiędzy incydentem a przywróceniem usług to MTTR ( Mean Time to Repair )

Czas pomiędzy przywróceniem usług a kolejnym incydentem to MTBF ( Mean Time Between Failure )

Dostępność informacji mierzymy następująco:

IA = system uptime / ( system uptime + system downtime )

lub

IA = MTBF / ( MTBF + MTTR )

Bardzo często dostępność informacji podaje się wykorzystując tzw "Levels of '9s'":

%Uptime	%Downtime	Downtime per Year
98%	2%	7,3 dnia
99%	1%	3, 65 dnia
99,9%	0,1%	17h 30min
99,99%	0,01%	52min 30sek
99,999%	0,001%	5min 15sek
99,9999%	0,0001%	31sek

Przykładowo, mówiąc o "five 9s available" (bardzo wysoka dostępność) oznacza to system, który może podczas roku być trochę ponad 5 minut niedostępny nieplanowo.

Terminologia związana z Bussines Continuity:

Disaster recovery - jest to proces przywracania systemu, danych i całej infrastruktury potrzebnej do wznowienia pracy przedsiębiorstwa po katastrofie. Polega na przywróceniu poprzedniej kopii danych i rozpoczęcia pracy od ostatniego punktu czasowego, z którego mamy zrobioną kopię danych.
Disaster restart - jest to proces ponownego uruchomienia pracy przedsiębiorstwa po katastrofie, wykorzystujący kopię (mirror) danych i aplikacji. Disaster restart zwykle jest związany z technikami replikacyjnymi.
Recovery Point Objective (RPO) - jest to okres czasu wstecz, z którego dane muszą być odzyskane po katastrofie. Duże RPO oznacza dużą tolerancję biznesu na utratę danych. Przedsiębiorstwa ustalają minimalną częstotliwość robienia backupów lub replikacji bazując na RPO. Przykładowo RPO=24h oznacza, że wystarczy nam raz na dobę robiony backup danych, z kolei RPO=0 ( czyli nie akceptujemy żadnej utraty danych) wymaga replikacji synchronicznej do drugiego zapasowego data center.
Recovery Time Ojective (RTO) - to jest czas który mamy, aby odzyskać nasze dane i aplikacje po katastrofie. Oznacza jak długi downtime przedsiębiorstwo może wytrzymać.

Proces BCP ( Business Continuity Planning )

Proces BCP ma za zadanie zidentyfikować potencjalne ryzyka i słabe punkty naszego systemu ioraz przygotować firmę na przypadek utraty ciągłości działania. BCP jest zadaniem nie tylko działu IT, ale wszystkich jednostek tworzących dane przedsiębiorstwo.

Działania jakie powinny być częścią BCP to:

Identyfikacja krytycznych zadań biznesu
Zebranie informacji jakie dane są używane podczas tych zadań
Przeprowadzenie BIA ( Business Impact Analysis ) - analiza ryzyka
Zaprojektowanie planu zachowania ciągłości i planu DR ( Disaster Recovery )
Przeszkolenie ludzi, testowanie, dbanie o aktualność planów

Działania wspierające zachowanie ciągłości:

Redukcja SPOFów ( Single Point of Failure )

SPOF jest to punkt (element) w systemie, którego uszkodzenie powoduje przerwę w działaniu systemu. SPOFem może być pojedynczy zasilacz w serwerze, kabel , karta HBA , port w macierzy , kontroler w macierzy itd... Aby usunąć SPOFy najczęściej stosuje się redundancję, czyli zwielokrotnienie danego komponentu, tak aby uszkodzenie jednego z nich, nie wpłynęło na pracę całego systemu.

Używanie oprogramowania do multi-pathingu

Używanie multi-pathingu jest jedną z technik usuwania SPOFów, w połączeniach między hostami/switchami SAN a macierzami. Polega na łączeniu tych komponentów za pomocą więcej niż jednej ścieżki danych i kontrolowanie tego za pomocą dedykowanego oprogramowania na hoście ( np PowerPath)

Oprogramowanie takie bardzo często oprócz zapewnienia redundancji, steruje także równomierną dystrybucją ruchu na każdą ze ścieżek (load balancing).

Jednak nawet w przypadku utraty jednej ze ścieżek oprogramowanie nie przełączy automatycznie I/O na inna - system musi wpierw wykryć awarię.

Backup i replikacja

Po rozpoznaniu wymagań dotyczących RPO i RTO dla danego przedsiębiorstwa czy systemu, można wybrać rodzaj zabezpieczenia danych tak aby być w stanie spełnić wymagania biznesu.

Pierwszy temat z trzeciej sekcji ISM za nami.

W kolejnych skupimy się dokładniej na zagadnieniach związanych z backupem i replikacją.

MetaStorage

wtorek, 21 września 2010

ISM - Business Continuity czyli zachowanie ciągłości działania

Brak komentarzy:

Prześlij komentarz