MetaStorage: lipca 2010

czwartek, 29 lipca 2010

ISM - Dysku twardego dokładne opisanie ;)

Lesson: Disk Drive

Dzisiaj będziemy odkrywać Amerykę, czyli poznawać, tajemnicze urządzenie jakim jest dysk twardy ;)
Ciężka praca , ale niestety EMC jest bezlitosne i aplikuje swoim przyszłym certyfikowanym profesjonalistom potężną dawkę informacji na ten fascynujący temat.

Komponenty dysku twardego:

Dysk twardy, za pomocą szybko poruszającego się ramienia, z głowicą na końcu, zapisuje i odczytuje dane z płaskiego talerza pokrytego magnetyczną powłoką. Z tego talerza poprzez głowicę dane są przenoszone do hosta. Kilka talerzy + ramiona z głowicami + kontroler nimi sterujący umieszczone w jednej obudowie są nazywane dyskiem twardym. Dane z dysku mogą być zapisywane i odczytywane praktycznie nieskończoną liczbę razy.

Kluczowe komponenty dysku twardego to: platter ( talerz) , spindle ( wrzeciono ) , read/write head ( głowica zapis/odczyt) , actuator arm assembly ( ramię ) , and controller (kontroler)

Źródło: wikipedia ( LINK )

Talerz (platter) - płaski okrągły dysk , pokryty magnetycznym materiałem po swoich obydwu stronach ( góra i dół ). Dane ( 0 i 1 ) są zapisywane na talerzu poprzez polaryzowanie domen magnetycznych które znajdują się w powłoce talerza. Dane mogą być odczytywane i zapisywane po obydwu stronach talerza
Wrzeciono (spindle ) - łączy ze sobą wszystkie talerze i jest podłączone do silnika. Silnik wrzeciona nadaje mu ( i wszyskim talerzom ) ruch obrotowy o stałej prędkości. Prędkość ta jest mierzona w obrotach na minutę ( revolutions per minute - rpm ) - Obecnie prędkości dysków to 7,200 rpm , 10,000 rpm i 15,000 rpm. Dyski używane przeważnie w serwerach i macierzach mają średnicę talerza 3,5 cala ( około 90mm ). CIEKAWOSTKA: Przy 15.000 rpm zewnętrzna krawędź talerza porusza się z prędkością 25% prędkości dzwkięku.
Głowica zapis/odczyt ( Read/Write head ) - znajduje się na końcu ramienia i zajmuje odczytem i zapisem danych z talerza. W dysku twardym jest tyle głowic, ile powierzchni pokrytych materiałem magnetycznym. Głowica odczytuje polaryzację domeny magnetycznej znajdującej się pod nią ( odczyt ) lub zmienia ją ( zapis ). Sama głowica nigdy nie dotyka powierzchni obracającego się talerza, zawsze między nimi znajduje się mikroskopijna przestrzeń (air gasm), zwana także wyskością pracy głowicy ( head flying height ). Głowica spoczywa na talerzu wyłącznie podczas zatrzymania ruchu obrotowego talerza i na specjalnie wyznaczonym to tego fragmencie, zwanym jako strefa spoczynku ( landing zone ). Dotknięcie przez głowicę powierzhni dysku podczas jego pracy, nazywane jest uderzeniem głowicy ( head crush) i może skutkować utratą danych z dysku.
Ramię ( acutator arm assembly ) - na końcu ramienia znajduje się głowica zapis/odczyt a samo ramie ma za zadanie naprowadzić ją na miejsce gdzie wymagany jest zapis lub odczyt danych.
Kontroler ( controller ) - układ elektroniczny, przytwierdzony zwykle do dolnej części dysku twardego. Zawiera firmware , mikroprocesor , pamięć i obwody. Firmware zajmuje się kontrolą dostarczania mocy do napędu wrzeciona i ramienia, zarządza także komunikacją pomiędzy dyskiem a hostem, kieruje także ruchem ramienia.

Fizyczna struktura dysku:

Dane na dysku nagrywane są na ścieżkach ( tracks ). Ścieżki mają kształt koncentrycznych pierścieni z wrzecionem jako środkiem i są ponumerowane ( ścieżka "zero" jest na zewnętrznej krawędzi talerza) .Jednostką w której mierzy się jak gęsto dane są upakowane na talerzy są tracks per inch (TPI).

Każda scieżka podzielona jest na mniejsze jednostki zwane sektorami ( sectors ). Sektor jest najmniejszą adresowalną jednostką. Ścieżki i sektory są nanoszone na talerz przez producenta dysku podczas procesu zwanego formatowaniem ( nikopoziomowym ). Ilość sektorów na ścieżce zależy od modelu dysku.

Zwykle sektor ma wielkość 512 bajtów , ale niektóre dyski mogą mieć je większe. Oprócz danych użytkownika sektory zawierają jeszcze tzw metadane czyli np: informacje o numerze sektora , scieżki i talerza.
Cylinder - zbiór wszystkich ścieżek na obydwu powierzchniach talerzy o tej samej odległości od wrzeciona.

Adresowanie bloków na dysku ( Logical Block Addressing - LBA ):

Kontroler dyskowy używa adresowania CHS ( cylinder, head , sector ) do określenia konkretnej lokacji na dysku. Początkowo system operacyjny na hoscie także używał tego adresowania, przy korzystaniu z zasobów dyskowych , znaczyło to że musiał być świadomy geometrii wszystkich dysków jakich mógł używać.
Aby uniknąć kłopotów z tym związanych wprowadzono adresowanie LBA, które jest adresowaniem liniowym. Kontoler dysku dokonuje translacji z adresu LBA który dostaje od systemu operacyjnego na adres CHS dzięki któremu jest w stanie ustawić głowicę w odpowiednim położeniu.

Wydajność dysku twardego:

Disk service time - czas w jakim dysk wykona żądanie I/O ( I/O request ). Disk service time zależy od:

seek time
rotational latency
data transfer rate

Seek time - czas jaki jest potrzebny do ustawienia głowiny R/W nad ścieżką z której trzeba pobrać/zapisać dane

Zwykle podawane są następujące warianty "seek time":

Full Stroke - czas w jakim głowica przesunie się z najbardziej wewnętrznej na najbardziej zewnętrzną ścieżkę
Average - czas jaki głowica R/W potrzebuje aby przenieść się z dowolnej ścieżki na inną losowo wybraną. Zwykle przyjmuje się że wynosi to 1/3 Full Stroke
Track-to-Track - czas potrzebny głowicy R/W na przeniesienie się między dwoma sąsiadującymi ścieżkami

Seek time mierzy się w milisekundach i przeciętna wartość dla nowych dysków mieści się w granicach 3 do 15 ms. Seek time ma największe znaczenie przy swobodnych (random) operacjach odczytu.

Short-strorking -- metoda używania tylko niektórych cylindrów na dysku tak aby zmniejszyć seek time ( kosztem pojemności )

Rotational Latency - czas jaki upływa zanim dane znajdujące się na ścieżce na obracjącym się talerzu znajdą się pod głowicą R/W. Wartość ta zależy od prędkości obrotowej dysku ( mierzona w ms ). Średnia wartość rotational latency jest równa połowie czasu w jakim dysk wykonuje pełny obrót. Podobnie jak seek time rotational latency ma największy wpływ przy swobodnym odczycie/zapisie danych.

Typowe wartości rotational latency to 5.5ms dla 5400rpm i 2.0ms dla 15.000rpm

Data Transfer Rate - określa przeciętną ilość danych jaka w jednostce czasu może zostać dostarczona do HBA. Transfer danych w dysku wygląda mniej więcej następująco:

HBA <---> Interface <--> Bufor <--> Talerze

Interfejs,bufor i talerze są częściami samego dysku.

Wyróżnić można wewnęrzną prędkość transferu ( mierzoną między buforem a talerzami ) oraz zewnętrzną prędkość transferu ( mierzona między HBA a interfejsem )

Wewnętrzna zależy od wartości seek time i rotation latency, zewnętrzna od szybkości samego interfejsu ( np 133MB/s dla ATA )

Prawa i teoria dotyczące wydajności dysku:

Kolejka (queue ) - miejsce gdzie I/O czeka, aż zostanie przetworzone przez I/O kontorler.

I/O kontroler ( I/O Controller ) - przetwarza I/O czekające w kolejce, jedno po drugim.

Żądania I/O są generowana przez aplikacje i wysyłane do I/O kontorlera, który je obsługuje ( zapisuje lub odczytuje dane z dysku ). Prędkość z jaką nowe I/O requesty przychodzą do kolejki jest nazwana arrival rate. Jeżeli kontorler w danym momencie nie może obsłużyć tego I/O ( procesuje inne ), wtedy nowe I/O wpada do kolejki. Wydajność dysku zależy od długości kolejki , prędkości przychodzenia I/O , oraz czasowi jaki kontroler potrzebuje żeby żądanie obsłużyć. Wydajność tą mierzy się za pomocą czasu odpowiedzi ( response time )

PRAWO LITTLE:

N = a * R

gdzie:

N - całkowita liczba żądań w systemie kolejkowym ( żądanie w kolejce + żądanie w I/O kontrolerze )

a - arrival rate - ilość nowych żądać na jednostkę czasu

R - średni czas odpowiedzi, czyli czas od momentu przyjścia do obsłużenia I/O

PRAWO UTYLIZACJI:

U = a *RS

gdzie:

U - utylizacja I/O kontrolera

RS - service time ( średni czas jaki kontroler potrzebuje na przetworzenie I/O) - 1/RS = service rate

Dla dysków mała utylizacja ( poniżej 60% ) skutkuje bardzo małymi czasami odpowiedzi , jeżeli utylizacja przekracza 70% wtedy czasy odpowiedzi zaczynają drastycznie rosnąć.

EFD ( Enterprise Flash Drives ):

Dyski oparte na technologii półprzewodnikowej, nie posiadają mechanicznych obracających się części. Charakteryzują się lepszym czasem odpowiedzi , wyższą przepustowością oraz lepszym współczynnikiem zużycia energii per GB lub per IOPS niż dyski tradycyjne ( FC ). EMC nazywa storage oparty na dyskach EFD "tier 0". Półprzewodniki w dyskach EFD mogą być "single-level cell" (SLC) lub "multi-level cell" (MLC). Dyski oparte na SLC mają lepszą wydajność ale ich wytworzenie jest droższe.

Dyski EFD są w stanie obsłużyć do 30 razy więcej IOPS niż dyski FC ( w zapisie swobodnym ) ich czasy odpowiedzi są poniżej 1ms. Zużywają także 38% mniej energii per TB i 98% mniej energii per IOPS.

Brak ruchomych części zapewnia większą niezawodność.

Tyle wiedzy na temat dysków twardych wymaga od nas EMC.
Kolejna lekcja: RAID , odkrywania Ameryki ciąg dalszy...

poniedziałek, 26 lipca 2010

ISM - Komponenty wchodzące w skład środowiska storage

Lesson: Components of Storage System Environment

Użytkownicy korzystają z danych za pośrednictwem aplikacji. Komputer na którym te aplikację są uruchamiane nazywamy hostem. Host może być zwykłym laptopem czy nawet netbookiem a może być potężny jak mainframe czy kilka serwerów w klastrze.Host składa się z komponentów fizycznych ( hardware ), które komunikują się ze sobą za pomocą komponentów logicznych ( software oraz protokoły ).

Host składa się z trzech głównych podzespołów:

Jednostka obliczeniowa ( CPU )
Pamięć ( RAM + wewnętrzne dyski )
Urządzenia I/O

Wyróżniamy kilka typów komunikacji za pomocą Urządzeń I/O:

Komunikacja Użytkownik--Host ( klawiatura , mysz , monitor )
Komunikacja Host--Host ( NIC , modem )
Komunikacja Host--Storage ( HBA )

Defnicja HBA według EMC: "HBA is an application-specific integrated circuit (ASIC) board that performs I/O interface functions between the host and the storage, relieving the CPU from additional I/O processing workload"

Logiczne komponenty hosta układają się w następujący "stos":

Aplikacja --> System operacyjny --> System Plików --> Volume Manager --> Sterowniki --> HBA

Aplikacja - aplikacje dostarczają logiki do komputerowych obliczeń, są także interfejsem pomiędzy użytkownikiem a hostem, lub pomiędzy dwoma hostami. Standardowe programy biznesowe wykorzystujące bazę danych zwykle mają trójwarstwową architekturę. Graficzny interfejs użytkownika to pierwsza z tych warstw, sama aplikacja i zawarte w niej algorytmy są środkową warstwą, dolna składa się z bazy danych.
Aplikacja ( lub baza danych ) wysyła żądania do systemu operacyjnego
Dostęp do danych może odbywać się na dwóch poziomach: bloku lub pliku. Zależy to od tego w jaki sposób aplikacja odnosi się do danych.

Dostęp na poziomie bloku ( Block-level access ) - aplikacja wykorzystuje adres logiczny bloku ( logical block adres - LBA ) do adresowania. LBA jest zależny od geometrii dysku i położenia na nim danych. Dane mogą być odczytane/zapisane tylko w ilości równej wielkości bloku lub jego wielokrotności.

Dostęp na poziomie pliku ( File-level access ) - dostęp do danych poprzez podanie nazwy pliku i ścieżki dostępu do niego. W dalszym ciągu same dane zostają uzyskane na poziomie bloku , ale przed samą aplikacją czy DBMSem ukryte zostaje cały proces tłumaczenia adresów na LBA i operacje z tym związane.

System operacyjny - kontroluje całość środowiska komputerowego. Pracuje pomiędzy aplikacjami a warstwą sprzętową. Zarządza przydziałami do zasobów sprzętowych. Przeprowadza także podstawowe zarządzanie zasobami storage.

Logical Volume Manager ( LVM ) - aplikacja pomiędzy systemem operacyjnym a fizycznym storage. LVM definiuje struktury storagowe które mogą obejmować sobą wiele fizycznych urządzeń. Dla OSa i aplikacji takie struktury wyglądają jak jenolite i ciągłe fragmenty przestrzeni dyskowej.

Dzięki LVM możliwe jest użycie następującej funkcjonalności:

Dynamiczne rozszerzanie FSów (Dynamic extension of file systems)
Mirroring na poziomie hosta (Host based mirroring)
Striping na poziomie hosta (Host based striping)

Volume Groups ( VG) - jest stworzona przez zgrupowanie jednego lub kilku fizycznych wolumenów. Fizyczne wolumeny mogą być dynamicznie dodawane i usuwane z VG. Do VG można przypisać tylko cały fizyczny wolumen , nie jest możliwe przypisanie jedynie jego części. VG może być aktywna lub nieaktywna. Zwykle na jednej VG umieszcza się dane powiązane ze sobą.

Wolumeny logiczne ( LV - Logical Volume ) są tworzone w obrębie VG. System operacyjny traktuje LV jako fizyczne urządzenie i traktuje jako plik specjalnego typu ( w systemach Unixowych ). Dany LV może należeć tylko do jednej VG, ale może być rozrzucony po wielu fizycznych urządzeniach. Na LV moze być umieszczony system plików.

Sterownik ( device driver ) - jest to software który umożliwia systemowi operacyjnemu komunikację z zarządzanie określonym urządzenie takim jak np: drukarka , dysk , mysz itd. Dzięki sterownikowi OS może rozpoznać urządzenie i używać go. Sterowniki są pisane pod konkretne modele urządzeń i poszczególne systemy operacyjne.

Plik (file) - zbiór powiązanych ze sobą rekordów lub danych przechowywane jako jedna całość i mające nadaną nazwę. System plików ( file system ) - to hierarchiczna struktura plików. System plików zezwala na łatwy dostęp do plików umieszczonych na dysku, partycji lub LV. Struktura systemu plików używa folderów ( lub katalogów ), które są kontenerami w których można przechowywać inne katalogi lub pliki.

Przykłady systemów plików: FAT 32 , NTFS , UFS , EXT2/3.

Oprócz plików i katalogów system plików zawiera także pewną ilość innych obiektów nazywanych metadanymi. Metadane zawierają różne informacje ( np: ilość wolnego miejsca , typy plików, różne atrybuty ) które pozwalają systemowi plików pozostać konsystentnym.

Blok systemu plików jest najmniejszą ilością danych jakie mogą zostać zaadresowane. Każdy z nich jest ciągłą przestrzenią na dysku fizycznym. Wielość bloku danych dla systemu plików jest ustalana przy jego stworzeniu i nie może ulec zmianie.

Proces mapowanie pliku na dyski fizyczne z użyciem LVMa wygląda następująco:

Plik jest używany przez użytkownika i aplikacje
Plik jest umiejscowiony w strukturze katalogów na systemie plików
Pliki na systemie plików następnie są mapowane na bloki systemu plików
Bloki systemu plików są z kolei mapowane na logiczne extents ( elementarne jednostki "bloki" z których składa się LV )
Logiczne extends są mapowane na fizyczne extends przed system operacyjny lub przez LVMa
Fizyczne extends są mapowane na konkretne sektory na dyskach.

Jeżeli nie ma LVMa to nie ma także logicznych extends - bloki systemu plików są odrazu mapowane na sektory na dysku

Connectivity - można to tłumaczyć jako łączność, ale to słowo nie oddeje w pełni znaczenia tego terminu, dlatego zostanę przy wersji orginalnej. Podczas kursu najbardziej skupiamy się na connectivity pomiędy hostem a urządzeniami strorage choć oczywiście to pojęcie ma znacznie szerszy zakres.
Elementy connectivity w środowisku storage można podzielić na fizyczne - łączące storage z hostem i logiczne - protokoły określające komunikację pomiędzy storage a hostem. Fizyczne to magistrala (bus) , port i kabel (cable ).
Logiczną częścią connectivity są protokoły, czym jest taki protokół?

Connectivity protocol - "a defined format for communication between sending and receiving devices"

Jest to formalny sposób komunikacji pomiędzy urządzeniami wysyłającymi i odbierającymi dane.
Protokoły komunikacyjne są definiowane dla urządzeń i komponentów które są:

ściśle powiązanymi jednostkami - np CPU i RAM
bezpośrednio połączonymi jednostami - np: komputer i drukarka czy host i storage zewnętrzny
sieciowo połączonymi jednostkami - np komputery w sieci , NAS lub SAN

Popular Connectivity Options: PCI

PCI jest używane jako wewnętrza magistrala przesyłania danych wewnątrz hosta. Umożliwia komunikację pomiędzy procesorem ( procesorami ) a kartami rozszerzeń. Może być 32 lub 64 bitowa a jej przepustowość w wersj 32 bity wynosi 133MB/s

PCI Express jest rozbudowaną wersją PCI z większą przepustowością i szybszym taktowaniem.

Popular Connectivity Options: IDE/ATA

IDE/ATA - Integrated Device Electronics/Advanced Technology Attachement - interfejs przeznaczony do komunikowania się z dyskami twardymi , CD-ROMami , stacjami dyskietek itd...

Najnowsza wersja IDE/ATA to Ultra DMA/133 która pozwala na przesył 133MB danych na sekundę. IDE/ATA wspiera do dwóch urządzeń na connector ( na taśmę) działających w trybie master-slave, jednak jeżeli nie chcemy mieć utraty wydajności nie powinniśmy mieć więcej niż jednego urządzenia na taśmie.
Złącze ATA ma 40 pinów ( gdy podłączamy dyski) lub 34 piny ( przy podłączaniu stacji dyskietek)

SATA (Serial ATA ) to szeregowa wersja IDE/ATA , zapewnia transfer danych do 6Gb/sek ( wersji 3.0 ). SATA bezpośrednio podłącza każde urządzenie do hosta poprzez dedykowany link i wykorzystując LVDS ( Low voltage differential signal ). LVDS to rodzaj systemu elektrycznych sygnałów które potrafią z dużą szybkością, przekazywać dane poprzez miedzianą skrętkę. Dla transferu danych magistrala SATA używa LVDS z napięciem 250mV . Urządzenia SATA są hot-plug.

Popular Connectivity Options: SCSI

SCSI ( lub Równoległe SCSI ) to jeden z najpopularniejszych interfejsów storage, jest zestawem protokołów używanych do podłączenia urządzeń peryferyjnych do hostów i przesyłania danych pomiędzy nimi. Najczęściej jest używane do połączeń urządzeń storage takich jak dyski czy napędy taśmowe ale równie dobrze może odpowiadać za komunikację ze skanerem czy drukarką. Najstarsza wersja SCSI ( SCSI-1 ) zapewniała transfer z prędkością 5 MB/s , najnowsze SCSI Ultra 320 - 320 MB/s

Serial Attached SCSI ( SAS ) to rozwinięcie SCSI Ultra 320. Używa zestawu poleceń SCSI i jego złącza są kompatybilne z SATA. Wspiera transfer o prędkości 3 Gb/s ( SAS 300 ). Wspiera połączenia wielu dysków naraz poprzez expandery.

Popular Connectivity Options: Medias and Options

Taśmy ( tapes ) - często używane do backupu i archiwizacji z powodu ich niewielkich kosztów. Mają wiele ograniczeń: utrudnione przeszukiwanie i dostęp do informacji (zapis liniowy na taśmie, odczyt tylko sekwencyjny) , brak możliwości dostępu do nośnika przez więcej niż jeden host naraz , zużywanie nośnika podczas używania związane z jego fizycznym kontaktem z głowicą.
Dyski optyczne ( optical disk storage ) - np: CD-ROM , DVD. Mają ograniczoną pojemność i prędkość. Zaletą jest łatwość wykonywania kopii WORM ( write once , read many ). Macierz zawierająca dyski optyczne nazywana jest jukebox
Napędy dyskowe - najpopularniejsze medium do przechowywania informacji. Szybki dostęp do swobodnych (random) danych.

I tyle na dziś.
W planach było co prawda zawarcie w kolejnym wpisie 2 lekcji ale uważam, że zebrało by się za dużo materiału i tak jest go teraz sporo.
Widzę , że formatowanie jest dalekie od ideału , brakuje też różnych uprzyjemniaczy czytania pod postacią grafiki czy osadzonego filmu do youtube ale jak na razie nie mam na to czasu i głowy.
Może kiedyś przeedytuję te wpisy do postaci "user-friendly" na razie muszą zostać w tej "surowej" formie.

W kolejnym wpisie będzie kolejna lekcja z Modułu 2 o jakże zachęcającej nazwie Disk Drive ;)

czwartek, 22 lipca 2010

ISM - Wprowadzenie do Information Lifecycle Management + podstawy storage

Tak jak zapowiedziane wcześniej zaczynamy "przygotowania" do egzaminu E20-001 ( Information Storage and Management ), którego pozytywne zaliczenie kończy się tytułem EMC Proven Assosiate.
Zakres materiału składa się z 4 sekcji, każda z nich zawiera po kilka modułów , a te z kolei z lekcji.
Naukę zaczynamy oczywiście od początku czyli od Sekcji 1 nazwanej w materiałach EMC - System Storage i modułu 1 składającego się z 2 lekcji

Trzy ważne uwagi zanim rozpoczniemy.
Po pierwsze: nauka od ISMu to w sporej mierze nauka formułek i definicji przygotowanych przez EMC. Moim zdaniem często niezupełnie oddają one "ducha" i kwintensencję tego co definiują ( przykładem z tego wpisu jest np wyjaśnienie skrótu SAN ). Na egzaminie podejrzewam, że obowiązujące będzie taki opis jak widzi to EMC, dlatego też mimo iż nie zawsze się zgadzam będę podawał to w takiej formie.
Po drugie: Materiały z których korzystam są w języku angielskim , egzamin pewnie też tak będzie wyglądał, dlatego też bardzo często będę podawał definicje w ich orginalnym brzmieniu oraz używał anglojęzycznych określeń.
Po trzecie: To co tutaj umieszczam to kwintesencja tego co znajduje się w matriałach do kursu ISM + trochę mojego opisu i inwencji własnej. Ponieważ wycinam część materiału mniej zasobnego w informację , dlatego wpisy mogą sprawiać wrażenie nieco chaotycznych (przeskakiwanie z tematu na temat) - oczekujcie bardziej formy luźnych notatek niż przemyślanych konstrukcji z początkiem, rozwinięciem i zakończeniem ;)

To lecimy:

Lesson: Information Storage

Świat XXI wieku jest światem informacji, w tempie geometrycznym zmienia się jej ilość oraz znaczenie. Mamy coraz więcej urządzeń generujących dane ( telefony , aparaty , kamery itd...). Wymagamy łatwego sposobu ich przeszukiwania , analizowania i dostępu w czasie niemal rzeczywistym.
Przedsiębiorstwa i organizacje potrzebują mechanizmu i procedur aby szybko rosnącą ilość danych przechowywać w jak najbardziej optymalny sposób zarówno pod względem łatwości ich wyszukania i użycia jak również kosztowo.
Często używa się pojęcia Data explosion, które opisuje bardzo duży wzrost generowania danych spowodowany z jednej strony zwiększonym zapotrzebowaniem na nie ze strony biznesu i jednostek indywidualnych a z drugiej łatwością z jaką dane mogą być dziś generowane , zbierane i przechowywane.

Czym jednak są dane? Jak je definiujemy?

Dane: “Collection of raw facts from which conclusions may be drawn”
EMC ( i nie tylko oni ) definiują dane jako fakty: pewne stwierdzenia czy obrazy jeszcze bez znaczenia.
Przykładem takich "nieobrobioych" danch może być np, film na kasecie VHS , ręcznie napsany list czy namalowany portret.
Dane są następnie zmieniane do bardziej wygodnej ( do przeszukiwania i składowania ) formy jak np: Dane cyfrowe.
Dane mogą być dwojakiego rodzaju ( w dwojakiej formie ), jako strukturalne i niestrukturalne.
Dane strukturalne są zorganizowane w wiersze i kolumny - dzięki temu aplikacje mogą z nich korzystać i przeszukiwać bardzo efektywnie. Dane strukturalne zwyle są umieszczne w systemie bazodanowym.
Dane niestrukturalne ( unstructured) nie są przechowywane w kolumnach i wierszach przez co ciężko się je przeszukuje i analizuje. Przykładami danych niestrukturalnych są emaile , dokumenty ( np: .doc , .txt , .pdf ). Według oszacowań ponad 80% danych to dane niestrukturalne.

Kolejne pojęcie/termin jaki musimy sobie dokładnie zdefiniować to "informacja"

Informacja: “Information is the intelligence and knowledge derived from data”
Same dane nie mają wartości dla przedsiębiorstwa, dopiero ich analiza i prezentacja w postaci w której mogą coś znaczyć jest prawdziwą wartością. Znajdywanie w danych pewnych wzorców lub trendów pozwala wydobyć wartościowe informacje z danych.
Dane które poddajemy analizie nie są składowane w próżni tylko na urządzeniach nazywanych storage:
Storage ( lub storage devices ) - urządzania przystosowane do przechowywania danych.
Rodzaj urządzeń storage używanych do przechowywania danych zależy od rodzaju tych danych oraz jak często z nich chcemy korzystać i generować nowe.

Ewolucja urządzeń do przechowywania danych w przedsiębiorstwach przeszła od zcentralizowanych repozytoriów danych podłączonych do mainframowych jednostek do zdecentralizowanego modelu klinet - serwer , a ostatnio wraca znowu do modelu centralnego gdzie co prawda informacje są porozrzucane po wielu lokacjach ale zarządzane centralnie i globalnie ( storage networking)

Z samymi urządzaniami do przechowywania danych i dostępem do nich wiąże się kilka technologii i architektur, które są podstawowymi pojęciami z dziedziny storage:

RAID - Redundant Array of Independent Disks. Technologia łączenia dysków w pewne logiczne struktury zapewniająca większą wydajność bądź bezpieczeństwo przechowywanych na niej danych
DAS - Direct Attached Storage - macierze bezpośrednio podłączone do serwera ( hosta ) lub grupy serwerów tworzących klaster
SAN - Storage Area Network - dedykowana sieć oparta na protokole FC ( Fibre Channel ) której zadaniem jest połączyć macierze i serwery, dane są przesyłane na poziomie bloku.
NAS - Network Attached Storage - architektura używana przy łączeniu macierzy z serwerami plików ( dane są przesyłane na poziomie plików ). Używa sieci LAN do przesyłania danych.
IP-SAN --> połaczenie technologii używanych w NAS I SAN. Dostarcza komunikację na poziomie bloku danych poprzez sieć LAN i WAN

Lesson: Data Center Infrastructure and Introduction to ILM

W tej lekcji omawiane są dwa tematy, po pierwsze funkcje i składniki centrów komputerowych (Data Center) , ze szczególnym uwzględnieniem komponentów storage. Drugim zagadnienie to wprowadzenie do ILM ( Information Lifecycle Management ) czyli zarządzanie danymi w ciągu całego ich cyklu życia ( od wykreowainia do usunięcia ) Firmy utrzymują centra komputerowe do centralnego zarządzania i składowania informacji. 5 głównych (core) elementów centrum komputerowego (data center):

Aplikacje --> programy komputerowe dostarczające logikę i sens komputerowym obliczeniom.
Baza danych --> System zarządzania bazą danych DBMS pozwala na ustrukturyzowane przechowywanie danych we wzajemnie powiązanych tabelach
Serwer i system operacyjny --> Platforma hardwarowa i softwarowa na której działa baza danych i aplikacje
Sieć --> Ścieżki danych łączące klientów z serwerami i serwery z macierzami.
Macierze --> Urządzania przechowujące dane

Każde centrum komputerowe musi zapewniać niezawodne i pewne działanie i ciągłość procesów biznesowych nawet w przypadku awarii czy katastrofy. Jest kilka kluczowych wymagań które muszą spełnić wszystkie elementy wchodzące w skład centrum ale tutaj będziemy je rozpatrywali głównie ze względu na storage.

Dostępność ( Avaliability ) - wszyskie elementy wchodzące w skład centrum komputerowego muszą być dostępne praktycznie przez cały czas. Jeżeli użytkownicy nie są w stanie dostać się do danych to może do mieć duży, negatywny wpływ na działanie i dochody przedsiębiorstwa.
Bezpieczeństwo ( Security ) - Dane muszą być dostępne tylko dla osób uprawnionych do tego, podobnie serwery powinny mieć dostęp jedynie do przypisanych im zasobów na systemach pamięci masowych. Aby to uzyskać stostuje się odpowiednio zdefiniowane polityki, procedury oraz zapewnia się właściwą współpracę między wszystkimi elementami centrum.
Skalowalność ( Scalability ) - Musi być zapewniona możliwości powiększenia dostępnych zasobów obliczeniowych i wielkości dostępnej przestrzeni bez przerywania aplikacji i procesów biznesowych. Data center powinno być w stanie rozrastać się i rozbudowywać się tak jak rośnie wielkość firmy i ilość danych jakimi operuje.
Wydajność ( Performance ) - Wszystkie elementy muszą być w stanie zapewnić odpowiednią wydajność do szybkiego obsłużenia i przetwarzania zapytań ze strony użytkowników.
Zapewnienie integralności danych ( Data integrity ) - Dane przechowywane powinny być zabezpieczone przed przekłamaniami i uszkodzeniem, stostuje się takie mechanizmy jak kontrola parzystości czy używanie kodu ECC. Zaniechanie sprawdzania integralności danych może prowadzić to ich korupcji i w rezultacie utraty.
Pojemność ( Capacity ) - Data center musi zapewnić odpowiednią ilość miejsca do przechowywania danych. Dodatkowe rozszerzenia przestrzeni powinny nie mieć ( lub mieć jak najmniejszy ) wpływ na działające systemy. Zarzadzanie pojemnością nie koniecznie oznacza jej powiększanie, może także być osiągnięte poprzez przenoszenie danych między różnymi warstwami (tiers)
Zarządzanie ( Manageablity ) - Wszyskie działania i operacje dokonujące się w centrum komputerowym powinny być zoptymalizowane. Powinno się jak najwięcej czynności automatyzować i ograniczać udział "czynnika ludzkiego"

WYZWANIA W ZARZĄDZANIU INFORMACJĄ: - Exploding digital universe - Ilość informacji przyrasta wykładniczo , dodatkowo dublowanie danych ( replikacja , backupy itd. ) wpływa na dalszy wzrost ilości danych jakie musimy przechowywać - Increasing dependency on information - Posiadanie i właściwe wykorzystanie informacji ma coraz większy wpływ na nasze działania i sukcesy na rynku - Changing value of information - Zmienia się wartość informacji , coś bardzo cennego dzisiaj może być bezużyteczne jutro.

Information Lifecycle Management: A proactive strategy that enables an IT organization to effectively manage the data throughout its lifecycle Cykl życia inforamcji ( Information Lifecycle ) to "Zmiana wartości informacji w czasie" , zarządzanie cyklem życia informacji to proaktywna strategia która pozwala efektywnie zarządzać danymi w różnych etapach ich cyklu życiowego. ILM ma następujące cechy/charakterystyki:

Business centric - musi być zintegrowany z procesami , aplikacjami i celami biznesowymi przedsiębiorstwa
Centrally managed - wszystkie dane muszą być zarządzane z jedengo miejsca ( za pomocą jednego schematu )
Policy based - nie powinien być ograniczony do kilku wydziałów tylko wdrożony globalnie i za pomocą "policy"
Heterogeneus - ILM musi obejmować wszystkie rodzaje storage i OSów używanych w firmie
Optimized - powinien uwzględniać różną wartość informacji i w zależności od niej alokować zasoby
Tiered storage - powinien uwzględniać różne poziomy storage ( przechowywania informacji ) w zależności od ich wartości - ma to na celu zredukowanie TCO. Każdy poziom ma inną wydajność, poziom ochrony itd...

Information Lifecycle Management Process: "Policy-based Alignment of Storage Infrastructure with Data Value" Można wyróżnić 4 działania wchodzące w skład ILM:

Klasyfikacja ( classify ) - dzielenie danych na grupy oparte na regułach i politykach biznesowych. celem tego jest wyznaczenie osobnych warst i traktowania poszczególnych grup (klas) danych.
Implementacja ( implement ) - przydzielanie odpowiednich polityk, używając do tego narzędzi zarządzających ILM
Zarządzanie ( manage ) - całym środowiskiem przy użyciu zcentralizowanych narzędzi.
Organizowanie ( organize ) - zasobów storage na odpowiednich warstwach w zależności od ich aktualnej wartości

Zalety wprowadzenia ILM:

Lepsza utylizacja ( improved utilization ) - dzięki wykorzystaniu poziomów storage
Uproszczone zarządzanie ( simplified management )
Uproszczone robienie kopii i archiwów ( Simplified backup and recovery )
Spójne zarządzanie ( Maintaining compliance ) - dokładnie wiemy które dane jak długo muszą być przechowywane i gdzie
Redukcja kosztów ( Lower Total Cost of Ownership )

Krótki komentarz dotyczący ILMa:
Jest to w założeniu jeden proces obejmujący zarządzanie wszystkimi danymi jakie składuje i generuje dane przedsiębiorstwo. Dane te są podzielone na różne grupy w zależonści od tego jakią mają wartość dla danej firmy. Bardzo ważne jest przy tym założenie że ta wartość zmienia się w czasie ( przeważnie maleje ), tak więc wymagana jest cykliczna kontola i w razie potrzeby przesunięcie danych do innej grupy. Każda z poszczególnych grup ma przypisaną dla siebie politykę która mówi gdzie dane wchodzące w jej skład powinny być przechowywane. Im dane bardziej wartościowe/częściej używane tym poziom(tier) na którym się je przechowuje ma większe możliwości wydajnościowe , lepszą ochronę itd...

Tyle na dzisiaj.
W następnym "odcinku" przewiduję kolejny moduł z Sekcji1 ISLa --> Module 2: Objectives
Składa się on z następujących lekcji:
"Components of Storage System Environment"
"Disk Drive"

niedziela, 11 lipca 2010

Get proven!

Wygląda na to, że przez kilka następnych wpisów zmieni się trochę charakter tego bloga. Postanowiłem w najbliższym czasie ( do końca roku ) zdobyć, lub przynajmniej spróbować zdobyć certyfikaty EMC. Konkretnie chodzi mi o poziom Specialist dla zakresu Clariion i Symmetrix. Dlatego też zamiast robić zbiorcze wpisy opisujące pewne konkretne rozwiązania czy technologie z sektora storage postanowiłem wykorzystać tego bloga jako moje "notatki" przygotowujące do zdania egzaminów EMC.
Oczywiście jeżeli w międzyczasie trafię na jakiś ciekawy temat nie związany z samym EMC i jego certyfikatami to także opiszę to na blogu , ale najwyższy priorytet mają w tej chwili sprawy związane z egzaminami.

Jak wygląda ścieżka certyfikacyjna EMC?

W świecie certyfikatów EMC można iść kilkoma drogami z których dla klientów dostępne są praktycznie dwie: EMCST ( Storage Technologist ) i EMCSA (Storage Administrator). Obydwie scieżki zaczynają się od poziomu Associate, na którym do zadania jest jeden egzamin ( ten sam dla EMCST I EMCSA ) o nazwie Information Storage and Management ( E20-001 ). Po zdaniu tego kursu dostejemu tytył EMC Proven Proffesional - Associate level i możemy przystąpić do kolejnych bardziej zaawansowanych i wyspecjalizowanych egzaminów.
Jeżeli chodzi o ścieżkę EMCSA, która mnie interesuje to do wyboru jest cała gama "specjalizacji":

Symmetrix Solutions
CLARiiON Solutions
Storage Area Network (SAN)
Network Attached Storage (NAS)
Storage Management
Backup and Recovery - NetWorker

Po zdaniu takiego specjalizowanego na konkretny produkt egzaminu dostajemy tytuł: EMC Proven Proffesional - Specialist Level, który gwarantuje naszą wiedzę i umiejętność zarządzania konkretnym produktem/rozwiązaniem.
Niektóre produkty EMC mają jeszcze 3 stopień "wtajemniczenia" - Expert Level - bardzo trudny do osiągnięcia i wymagający dogłębnej wiedzy oraz doświadczenia w pracy z danym rozwiązaniem. Przykładowo egzamin na poziom Expert z zakresu Clariiona oprócz oczywiście doskonałej znajomości samej macierzy ( co jest wymagane na poziom Specialist ) zawiera także zagadnienia związane z tzw rozwiązaniami zachowania ciągłości dla tej macierzy ( tzw: BCP ), jej strojenie wydajnościowe, oraz integrację i optymalizację z MS Exchange lub MS SQL.

Ja oczywiście jestem na początku drogi co znaczy, że moim pierwszym zadaniem będzie zdanie egzaminu E20-001 ( Information Storage and Management ).
Jest to o tyle ciężkie gdyż zakres materiału wchodzącego w jego skład jest dość obszerny i na dodatek bardzo "teoretyczny". Zdający musi wykazać się znajomością ogólnych pojęć dotyczących storage i samej filozofii zarządzania, chronienia i podziału informacji. Są to informacje nijak mające się do codziennej pracy administratora storage i mimo iż sprawy są raczej oczywiste to trzeba będzie sporo czasu poświęcić, żeby fragmentaryczną lub intuicyjną wiedzę zamienić w uporządkowaną całość. Dużo reguł i schematów do zapamiętania, z tego co orienowałem się u ludzi podchodzących do tego egzaminu czasem wymagane jest wręcz pamiętnie niktórych definicji słowo w słowo.

Takie są plany na najbliższą przyszłość zarówno moją jak i tego bloga, co z tego wyjdzie zobaczymy.
Sekcji "Do poczytania" w tym poście nie będzie. Pełne informacje o ścieżkach certyfikacji EMC są w ich "Customer Catalog", który jest do ściągnięcia na platformie e-learningowej ( https://education.emc.com/ - wymagane logowanie tym samym kontem co do Powerlinka )

sobota, 3 lipca 2010

Cloud - Z głową w chmurach.

Dziś będzie nieco mniej storagowo a więcej o ogólnym trendzie/modzie jaki od pewnego czasu można zaobserwować w IT. O co konkretnie chodzi , ano o chmurę (cloud) i o tzw "przetwarzanie w chmurze" (cloud computing).

Czym jest cloud computing?

Z technicznego punktu widzenia jest to połączenie dwóch metod: Grid Computingu i Utility Computingu.

Grid Computing
Opiera się na przetwarzaniu równoległym. Duża ilość serwerów jest połączonych ze sobą w klaster/grid, dzięki temu ich moc obliczeniowa sumuje się i w efekcie dostajemy jedną "strukturę" o bardzo dużej mocy obliczeniowej.
Utility computing
Bazuje na wirtualizacji i agregowaniu dostępnych zasobów w tzw: pule ( pools ). Nie interesuje nas już sam fizyczny sprzęt, czy to serwery czy storage, mamy kilka dużych "pojemników" z np: mocą obliczeniową, przestrzenią , przepustowością łącza i w razie potrzeby wydzielamy z niej maszyny wirtualne o zadanych przez nas parametrach.

Łącząc ze sobą grid i utility computing dostajemy w rezultacie wielki zbiornik z którego możemy czerpać ( oczywiście w ograniczony sposób ) i na bazie którego możemy tworzyć komputery wirtualne o wymaganych w danym momencie parametrach. Zbiornik ten nazwijmy chmurą.

Co daje nam zastosowanie modelu "chmurowego" i czym różni się to od tradycyjnego podejścia? Przede wszystkim odrywamy się od fizycznej architektury i wszystkich związanych z tym ograniczeń. Wyróżnia się trzy modele dostępu i wykorzystania zasobów z chmury:

SaaS ( Software as a Service )
Praktycznie wszystko poza końcową aplikacją jest zwirtualizowane i umieszczone gdzieś w chmurze. Użytkownik traktuje oprogramowanie jako usługę , nie martwimy się kombatybilnością aplikacji z naszym komputerem, procesem instalacji czy zapewnieniem zgodności. Zamawiamy konkretne rozwiązanie jakiego dostarcza nam usługodawca i gotowe. Przykłady to choćby usługi dostarczane przez Google ( Docs , Gmail ) lub firmy oferujące miejsce na strony WWW.
PaaS ( Platform as a Service )
Użytkownik ( consumer ) dostaje od dostawcy u środowisko ( platformę ) w którym może pisać własne aplikację. Wszystkie warstwy leżące poniżej tego, czyli między innymi system operacyjny , infrastruktura serwerowa i storage znajdują się w chmurze.
IaaS ( Infrastructure as a Service )
W tym modelu w chmurze znajduje się "jedynie" fizyczna infrastruktura. Serwery, systemy pamięci masowych, osprzęt sieciowy jest ukryty i zwirtualizowany. Na tej bazie użytkownik instaluje i konfiguruje system operacyjny, systemy bazodanowe i końcowe aplikacje.

W zależności od wybranego modelu zmienia się zakres i poziom zasobów, którymi osobiście zarządzamy.

Kolejnym kryterium według którego możemy podzielić chmury, to sposoby w jaki zostanie ona zaprojektowana i stworzona ( a także w późniejszym okresie zarządzana ), tutaj także można wyróżnić trzy kategorie: chmura prywatna, publiczna i hybrydowa.

Chmura prywatna ( private )
Cała infrastruktura stworzona w chmurze jest przydzielone dla jednego przedsiębiorstwa. Może ona być przygotowana i zarządzana przez firmę zewnętrzną lub przez wewnętrzne IT danej firmy. W tym drugim przypadku firma utrzymuje swoje własne serwerownie i ludzi nim zarządzających a z samego "cloud computingu" korzystają ludzie zajmujący się administracja na poziomie OS lub wyżej ( w zależności który model: SaaS, PaaS, IaaS jest wdrożony).
Chmura publiczna ( public )
W tym rodzaju "cloud computingu" zasoby sprzętowe nie są dedykowane pod
poszczególnych klientów korzystających z usług firmy dostarczającej "chmurę". Czasem taki model nazywa się "on demand" lub "pay as you go" - klient określa jakie parametry go interesują i płaci dokładnie za o co zamówił ( np: daną moc obliczeniową + pewną ilość pamięci masowej o zadanej wydajności). Jeżeli jego potrzeby rosną to "na żądanie" może zwiększyć zasoby w dzierżawionym przez siebie środowisku ( np: wykupić więcej mocy lub szybszy storage) i te dodatkowa usługa zostanie dodana w locie i bez potrzeby zatrzymywania pracujących aplikacji i maszyn wirtualnych.
Chmura hybrydowa ( hybrid )
Połączenie filozofii chmury prywatnej i publicznej. Pewna część aplikacji i infrastruktury danego klienta pracuje w chmurze prywatnej a część jest umiescowiona w przestrzeni chmury publicznej.

Co daje nam chmura?

Oczywiście teoria teorią i można budować najrozmaitsze modele ale interesujące ( a chmura jest interesująca ) są tylko te które mają realne zastosowania i dodatkowo są w nich lepsze i bardziej innowacyjne niż to co już jest dostępne.
Jakie więc są plusy technologi "cloud computingu":

Zwiększone możliwości
Korzystając z rozwiązań dostarczanych przez dostawcę "chmury" możemy wykorzystywać nowe funkcjonalności i rozwiązania techniczne bez żmudnego procesu przekonfigurowywania i migrowania aplikacji. Thin Provisioning , Automated tiering , deduplikacja - wykupujemy to jako usługę i praktycznie od razu korzystamy z ich dobrodziejstw.
Zwiększona wydajność
Za to odpowiada dynamiczna alokacja zasobów, przykładowo nasza aplikacja w pewnym momencie wykazuje o wiele większe zapotrzebowanie na moc obliczeniową ( tzw: peak )- od razu dynamicznie większa moc zostaje z "chmury" przydzielona - nie ma spowolnienia działania i utraty wydajności.
Mniejsze koszta
Przede wszystkim płacimy za to co tak naprawdę wykorzystujemy. W normalnych warunkach projektując środowisko serwerowe musimy dostarczyć taką wydajność żeby nasze serwery mogły obsłużyć momenty gdy obciżenie bardzo rośnie ( wspomniane w poprzednim punkcie "peaks" ). Korzystając z chmury wykupujemy tylko tyle mocy ( i innych zasobów ) ile realnie zużywamy, gdy w krótko trwających okresach będziemy potrzebowali dużo więcej "chmura" automatycznie nam to przydzieli a potem zabierze gdy już szczyt obciążenia minie. Dodatkowo odchodzą nam koszty związane z utrzymaniem infrastruktury ( prąd , klimatyzacja , koszty powierzchni w datacenter itd...)
Ograniczenie ryzyka
Chodzi tutaj o ryzyko "przeinwestowania". Nie musimy alokować środków w dużych inwestycjach w infrastrukturę , nie musimy podpisywać dłogoterminowych kontraktów na wsparcie. Nie ma ryzyka że zainwestujemy w coś , co okaże się niepotrzebne.
Łatwa skalowalność
Nasze wymagania rosną? Nie ma problemu - po prostu wykupujemy od "właściciela" chmury dodatkowe zasoby. Nie ma problemów z instalacją nowego sprzętu, migracjami ze starych struktur na nowe , pogodzenia ze sobą może nie do końca kompatybilnych architektur itd...
Łatwość zarządzania
Koniec z wieloma punktami zarządzania. Osobnym na poziomie storage ( często i tak podzielonym jeszcze na poszczególne macierze, biblioteki itd...) , osobnym zarządzaniem na systemach , zarządzaniem serwerami , mainfraimem , zasobami sieciowymi itd... to wszystko jest już zrobione w "chmurze" , do nas trafia już samo "mięso" pod postacią zasobów gotowych do wykorzystania.

Ograniczenia chmury

Nie ma rzeczy idealnych, chmura to także nie jest "święty grall" stanowiący odpowiedź na wszystkie pytania i bolączki związane z IT.
Są dziedziny i konfiguracje które nie radzą sobie za dobrze w chmurze.

Ograniczenia związane z bezpieczeństwem danych.
Jeżeli mówimy o chmurze prywatnej to użytkownik ma całkiem sporą kontrolę nad tym gdzie i w jaki sposób przechowywane są jego dane, sprawa się komplikuje jeżeli w grę wchodzi chmura publiczna lub hybrydowa - nasze dane mogą i najprawdopodobniej są rozrzucone po wielu lokacjach, które obejmować mogą więcej niż jeden kraj. Niektóre przedsiębiorstwa ( np: sektor bankowy ) mają bardzo restrykcyjne i narzucone odgórnie wymogi dotyczące przechowywania i dostępu do informacji jakie przetwarzają - umieszczenie ich gdzieś w nieokreślonej przestrzeni chmury może stanowić naruszenie tych standardów.
Ograniczenia związane z wydajnością aplikacji w chmurze
Jednym z plusów działania w chmurze jaki został przezemnie wymieniony jest "Zwiększona wydajność". Jest to prawda jeżeli mówimy o sytuacjach gdy nasz program ma właśnie skok w obciążeniu i oprogramowanie chmury może mu dynamicznie i natychmiastowo przydzielić dodatkowe zasoby, są jednak aplikacje których przeniesienie do chmury może powodować problemy z szybkością działania. Są to zwykle aplikcaje działające w czasie rzeczywistym i wymagające bardzo szybkich odpowiedzi ze strony komponentów sprzętowych, ponieważ korzystamy z chmury więc sam końcowy hardware ( dyski , ram , procesory ) może być od nas bardzo odległy ( w sensie sieci IT czyli wiele "hopów" po drodze ), co z kolei spowoduje że opóźnienia będą na tyle duże iż nie damy rady zaspokoić potrzeb aplikacji działającej w "real-time"
Obawy związane z dostępnością danych i aplikacji
Migracja do chmury może także budzić obawy dotyczące dostępności do danych w niej umieszczonych. Normalnie przedsiębiorstwa budują swoje polityki tzw "zachowania ciągłości" (eng: bussines continuity ) zawierające różne mechanizmy zabezpieczania się przed utratą danych , od stosowania redundantnych struktur na każdym poziomie i redukowania tzw SPOFów ( eng: Single Points of Failure ) aż po dublowanie całych centrów obliczeniowych i rozmieszczanie ich w różnych częściach kraju a następnie synchronizowanie i replikowanie zasobów między nimi. Korzystając z chmury publicznej użytkowanik końcowy nie ma de facto takiego wglądu w strukturę i zabezpieczenia jakim podlegają jego dane, musi pod tym względem zdać się na dostawcę danej usługi i umowę SLA jaką z nim podpisuje.

I to by było na tyle w ramach wprowadzenia do "cloud computingu".
Jeszcze film z youtube dla tych którzy wolą bardziej interaktywną prezentację:

Do poczytania:
"Cloud Computing" w Google i wyników aż nad to ;)