czwartek, 22 lipca 2010

ISM - Wprowadzenie do Information Lifecycle Management + podstawy storage

Tak jak zapowiedziane wcześniej zaczynamy "przygotowania" do egzaminu E20-001 ( Information Storage and Management ), którego pozytywne zaliczenie kończy się tytułem EMC Proven Assosiate.
Zakres materiału składa się z 4 sekcji, każda z nich zawiera po kilka modułów , a te z kolei z lekcji.
Naukę zaczynamy oczywiście od początku czyli od Sekcji 1 nazwanej w materiałach EMC - System Storage i modułu 1 składającego się z 2 lekcji

Trzy ważne uwagi zanim rozpoczniemy.
Po pierwsze: nauka od ISMu to w sporej mierze nauka formułek i definicji przygotowanych przez EMC. Moim zdaniem często niezupełnie oddają one "ducha" i kwintensencję tego co definiują ( przykładem z tego wpisu jest np wyjaśnienie skrótu SAN ). Na egzaminie podejrzewam, że obowiązujące będzie taki opis jak widzi to EMC, dlatego też mimo iż nie zawsze się zgadzam będę podawał to w takiej formie.
Po drugie: Materiały z których korzystam są w języku angielskim , egzamin pewnie też tak będzie wyglądał, dlatego też bardzo często będę podawał definicje w ich orginalnym brzmieniu oraz używał anglojęzycznych określeń.
Po trzecie: To co tutaj umieszczam to kwintesencja tego co znajduje się w matriałach do kursu ISM + trochę mojego opisu i inwencji własnej. Ponieważ wycinam część materiału mniej zasobnego w informację , dlatego wpisy mogą sprawiać wrażenie nieco chaotycznych (przeskakiwanie z tematu na temat) - oczekujcie bardziej formy luźnych notatek niż przemyślanych konstrukcji z początkiem, rozwinięciem i zakończeniem ;)


To lecimy:


Lesson: Information Storage


Świat XXI wieku jest światem informacji, w tempie geometrycznym zmienia się jej ilość oraz znaczenie. Mamy coraz więcej urządzeń generujących dane ( telefony , aparaty , kamery itd...). Wymagamy łatwego sposobu ich przeszukiwania , analizowania i dostępu w czasie niemal rzeczywistym.
Przedsiębiorstwa i organizacje potrzebują mechanizmu i procedur aby szybko rosnącą ilość danych przechowywać w jak najbardziej optymalny sposób zarówno pod względem łatwości ich wyszukania i użycia jak również kosztowo.
Często używa się pojęcia Data explosion, które opisuje bardzo duży wzrost generowania danych spowodowany z jednej strony zwiększonym zapotrzebowaniem na nie ze strony biznesu i jednostek indywidualnych a z drugiej łatwością z jaką dane mogą być dziś generowane , zbierane i przechowywane.

Czym jednak są dane? Jak je definiujemy?

Dane: “Collection of raw facts from which conclusions may be drawn”
EMC ( i nie tylko oni ) definiują dane jako fakty: pewne stwierdzenia czy obrazy jeszcze bez znaczenia.
Przykładem takich "nieobrobioych" danch może być np, film na kasecie VHS , ręcznie napsany list czy namalowany portret.
Dane są następnie zmieniane do bardziej wygodnej ( do przeszukiwania i składowania ) formy jak np: Dane cyfrowe.
Dane mogą być dwojakiego rodzaju ( w dwojakiej formie ), jako strukturalne i niestrukturalne.
Dane strukturalne są zorganizowane w wiersze i kolumny - dzięki temu aplikacje mogą z nich korzystać i przeszukiwać bardzo efektywnie. Dane strukturalne zwyle są umieszczne w systemie bazodanowym.
Dane niestrukturalne ( unstructured) nie są przechowywane w kolumnach i wierszach przez co ciężko się je przeszukuje i analizuje. Przykładami danych niestrukturalnych są emaile , dokumenty ( np: .doc , .txt , .pdf ). Według oszacowań ponad 80% danych to dane niestrukturalne.

Kolejne pojęcie/termin jaki musimy sobie dokładnie zdefiniować to "informacja"

Informacja: “Information is the intelligence and knowledge derived from data”
Same dane nie mają wartości dla przedsiębiorstwa, dopiero ich analiza i prezentacja w postaci w której mogą coś znaczyć jest prawdziwą wartością. Znajdywanie w danych pewnych wzorców lub trendów pozwala wydobyć wartościowe informacje z danych.
Dane które poddajemy analizie nie są składowane w próżni tylko na urządzeniach nazywanych storage:
Storage ( lub storage devices ) - urządzania przystosowane do przechowywania danych.
Rodzaj urządzeń storage używanych do przechowywania danych zależy od rodzaju tych danych oraz jak często z nich chcemy korzystać i generować nowe.

Ewolucja urządzeń do przechowywania danych w przedsiębiorstwach przeszła od zcentralizowanych repozytoriów danych podłączonych do mainframowych jednostek do zdecentralizowanego modelu klinet - serwer , a ostatnio wraca znowu do modelu centralnego gdzie co prawda informacje są porozrzucane po wielu lokacjach ale zarządzane centralnie i globalnie ( storage networking)

Z samymi urządzaniami do przechowywania danych i dostępem do nich wiąże się kilka technologii i architektur, które są podstawowymi pojęciami z dziedziny storage:
  • RAID - Redundant Array of Independent Disks. Technologia łączenia dysków w pewne logiczne struktury zapewniająca większą wydajność bądź bezpieczeństwo przechowywanych na niej danych
  • DAS - Direct Attached Storage - macierze bezpośrednio podłączone do serwera ( hosta ) lub grupy serwerów tworzących klaster
  • SAN - Storage Area Network - dedykowana sieć oparta na protokole FC ( Fibre Channel ) której zadaniem jest połączyć macierze i serwery, dane są przesyłane na poziomie bloku.
  • NAS - Network Attached Storage - architektura używana przy łączeniu macierzy z serwerami plików ( dane są przesyłane na poziomie plików ). Używa sieci LAN do przesyłania danych.
  • IP-SAN --> połaczenie technologii używanych w NAS I SAN. Dostarcza komunikację na poziomie bloku danych poprzez sieć LAN i WAN





Lesson: Data Center Infrastructure and Introduction to ILM

W tej lekcji omawiane są dwa tematy, po pierwsze funkcje i składniki centrów komputerowych (Data Center) , ze szczególnym uwzględnieniem komponentów storage. Drugim zagadnienie to wprowadzenie do ILM ( Information Lifecycle Management ) czyli zarządzanie danymi w ciągu całego ich cyklu życia ( od wykreowainia do usunięcia ) Firmy utrzymują centra komputerowe do centralnego zarządzania i składowania informacji. 5 głównych (core) elementów centrum komputerowego (data center):
  • Aplikacje --> programy komputerowe dostarczające logikę i sens komputerowym obliczeniom.
  • Baza danych --> System zarządzania bazą danych DBMS pozwala na ustrukturyzowane przechowywanie danych we wzajemnie powiązanych tabelach
  • Serwer i system operacyjny --> Platforma hardwarowa i softwarowa na której działa baza danych i aplikacje
  • Sieć --> Ścieżki danych łączące klientów z serwerami i serwery z macierzami.
  • Macierze --> Urządzania przechowujące dane
Każde centrum komputerowe musi zapewniać niezawodne i pewne działanie i ciągłość procesów biznesowych nawet w przypadku awarii czy katastrofy. Jest kilka kluczowych wymagań które muszą spełnić wszystkie elementy wchodzące w skład centrum ale tutaj będziemy je rozpatrywali głównie ze względu na storage.
  1. Dostępność ( Avaliability ) - wszyskie elementy wchodzące w skład centrum komputerowego muszą być dostępne praktycznie przez cały czas. Jeżeli użytkownicy nie są w stanie dostać się do danych to może do mieć duży, negatywny wpływ na działanie i dochody przedsiębiorstwa.
  2. Bezpieczeństwo ( Security ) - Dane muszą być dostępne tylko dla osób uprawnionych do tego, podobnie serwery powinny mieć dostęp jedynie do przypisanych im zasobów na systemach pamięci masowych. Aby to uzyskać stostuje się odpowiednio zdefiniowane polityki, procedury oraz zapewnia się właściwą współpracę między wszystkimi elementami centrum.
  3. Skalowalność ( Scalability ) - Musi być zapewniona możliwości powiększenia dostępnych zasobów obliczeniowych i wielkości dostępnej przestrzeni bez przerywania aplikacji i procesów biznesowych. Data center powinno być w stanie rozrastać się i rozbudowywać się tak jak rośnie wielkość firmy i ilość danych jakimi operuje.
  4. Wydajność ( Performance ) - Wszystkie elementy muszą być w stanie zapewnić odpowiednią wydajność do szybkiego obsłużenia i przetwarzania zapytań ze strony użytkowników.
  5. Zapewnienie integralności danych ( Data integrity ) - Dane przechowywane powinny być zabezpieczone przed przekłamaniami i uszkodzeniem, stostuje się takie mechanizmy jak kontrola parzystości czy używanie kodu ECC. Zaniechanie sprawdzania integralności danych może prowadzić to ich korupcji i w rezultacie utraty.
  6. Pojemność ( Capacity ) - Data center musi zapewnić odpowiednią ilość miejsca do przechowywania danych. Dodatkowe rozszerzenia przestrzeni powinny nie mieć ( lub mieć jak najmniejszy ) wpływ na działające systemy. Zarzadzanie pojemnością nie koniecznie oznacza jej powiększanie, może także być osiągnięte poprzez przenoszenie danych między różnymi warstwami (tiers)
  7. Zarządzanie ( Manageablity ) - Wszyskie działania i operacje dokonujące się w centrum komputerowym powinny być zoptymalizowane. Powinno się jak najwięcej czynności automatyzować i ograniczać udział "czynnika ludzkiego"
WYZWANIA W ZARZĄDZANIU INFORMACJĄ: - Exploding digital universe - Ilość informacji przyrasta wykładniczo , dodatkowo dublowanie danych ( replikacja , backupy itd. ) wpływa na dalszy wzrost ilości danych jakie musimy przechowywać - Increasing dependency on information - Posiadanie i właściwe wykorzystanie informacji ma coraz większy wpływ na nasze działania i sukcesy na rynku - Changing value of information - Zmienia się wartość informacji , coś bardzo cennego dzisiaj może być bezużyteczne jutro.

Information Lifecycle Management: A proactive strategy that enables an IT organization to effectively manage the data throughout its lifecycle Cykl życia inforamcji ( Information Lifecycle ) to "Zmiana wartości informacji w czasie" , zarządzanie cyklem życia informacji to proaktywna strategia która pozwala efektywnie zarządzać danymi w różnych etapach ich cyklu życiowego. ILM ma następujące cechy/charakterystyki:
  • Business centric - musi być zintegrowany z procesami , aplikacjami i celami biznesowymi przedsiębiorstwa
  • Centrally managed - wszystkie dane muszą być zarządzane z jedengo miejsca ( za pomocą jednego schematu )
  • Policy based - nie powinien być ograniczony do kilku wydziałów tylko wdrożony globalnie i za pomocą "policy"
  • Heterogeneus - ILM musi obejmować wszystkie rodzaje storage i OSów używanych w firmie
  • Optimized - powinien uwzględniać różną wartość informacji i w zależności od niej alokować zasoby
  • Tiered storage - powinien uwzględniać różne poziomy storage ( przechowywania informacji ) w zależności od ich wartości - ma to na celu zredukowanie TCO. Każdy poziom ma inną wydajność, poziom ochrony itd...
Information Lifecycle Management Process: "Policy-based Alignment of Storage Infrastructure with Data Value" Można wyróżnić 4 działania wchodzące w skład ILM:
  • Klasyfikacja ( classify ) - dzielenie danych na grupy oparte na regułach i politykach biznesowych. celem tego jest wyznaczenie osobnych warst i traktowania poszczególnych grup (klas) danych.
  • Implementacja ( implement ) - przydzielanie odpowiednich polityk, używając do tego narzędzi zarządzających ILM
  • Zarządzanie ( manage ) - całym środowiskiem przy użyciu zcentralizowanych narzędzi.
  • Organizowanie ( organize ) - zasobów storage na odpowiednich warstwach w zależności od ich aktualnej wartości
Zalety wprowadzenia ILM:
  • Lepsza utylizacja ( improved utilization ) - dzięki wykorzystaniu poziomów storage
  • Uproszczone zarządzanie ( simplified management )
  • Uproszczone robienie kopii i archiwów ( Simplified backup and recovery )
  • Spójne zarządzanie ( Maintaining compliance ) - dokładnie wiemy które dane jak długo muszą być przechowywane i gdzie
  • Redukcja kosztów ( Lower Total Cost of Ownership )


Krótki komentarz dotyczący ILMa:
Jest to w założeniu jeden proces obejmujący zarządzanie wszystkimi danymi jakie składuje i generuje dane przedsiębiorstwo. Dane te są podzielone na różne grupy w zależonści od tego jakią mają wartość dla danej firmy. Bardzo ważne jest przy tym założenie że ta wartość zmienia się w czasie ( przeważnie maleje ), tak więc wymagana jest cykliczna kontola i w razie potrzeby przesunięcie danych do innej grupy. Każda z poszczególnych grup ma przypisaną dla siebie politykę która mówi gdzie dane wchodzące w jej skład powinny być przechowywane. Im dane bardziej wartościowe/częściej używane tym poziom(tier) na którym się je przechowuje ma większe możliwości wydajnościowe , lepszą ochronę itd...



Tyle na dzisiaj.
W następnym "odcinku" przewiduję kolejny moduł z Sekcji1 ISLa --> Module 2: Objectives
Składa się on z następujących lekcji:
"Components of Storage System Environment"
"Disk Drive"

3 komentarze:

  1. "Zarzadzanie pojemnością nie koniecznie oznacza jej powiększanie, może także być osiągnięte poprzez przenoszenie danych między różnymi warstwami (tiers)"

    Co to są warsty danych (tiers)?

    OdpowiedzUsuń
  2. Najprościej rzecz ujmując (choć nie do końca precyzyjnie) poszczególne "warstwy" to różnego rodzaju przestrzeń do przechowywania danych.
    Zwykle różnią się one między sobą szybkością dostępu oraz ceną jednostkową (choć nie tylko).
    Najlepiej wyjaśnić to na przykadzie:
    Warstwa(tier) 1 --> Szybkie i drogie dyski stałe SSD
    Watstwa(tier) 2 --> Dyski mechaniczne (np SATA)
    Warstwa(tier) 3 --> Taśmy magnetyczne, relatywnie najtańsze ale i najwolniejsze.

    I teraz zarządzanie pojemnością może polegać na tym, że ustalamy reguły jakie dane na której wartswie mają się znajdować i kiedy mogą przejść do warstwy wyższej niższej. Dzięki temu np: redukujemy koszty bo zamiast dokupywać bardzo drogich dysków SSD (tier1), część danych z nich przenosimy na dyski mechaniczne (tier2)

    OdpowiedzUsuń