wtorek, 22 marca 2011

Deduplikacja - kopie idą precz! (Część 6 - NetApp)

Kolejny z graczy na rynku storage i kolejne ciekawe rozwiązania.

Jeżeli chodzi o NetApp-a to można powiedzieć, że deduplikacja jest w tym przypadku nie dodatkową funkcjonalnością dołączona na którymś etapie, ale funkcją natywnie wbudowaną i zintegrowaną z samym systemem operacyjnym (ONTAP od wersji 7.2.2) i systemem plików (WAFL). Dlatego też NetApp nie ma dedykowanych urządzeń czy oprogramowania umożliwjającego deduplikację ale opcja ta jest dostępna we wszyskich jego produktach z głównych linii (macierze FAS3xxx i FAS6xxx oraz seria V). Sama deduplikacja (nazywana często A-SIS) mimo iż wbudowana w system jest opcją płatną i aby ją uruchomić trzeba wykupić odpowiednią licencję.


Budowa macierzy Netapp i sposób deduplikowania:

Patrząc na macierze NetApp z perspektywy deduplikacji oraz tego w jaki sposób obsługiwane są polecenia wejścia/wyjścia można wyróżnić w nich trzy poziomy:

Na samej górze znajduje się system operacyjny Data ONTAP. On obsługuje żądania zapisu/odczytu oraz zapewnia dodatkowe funkcjonalności takie jak np: migawki (snapshot), mechanizmy replikacji oraz oczywiście deduplikację.
Pod systemem operacyjnym znajduje sie system plików (lub pseudo-system plików) nazwany WAFL - Write Anywhere File System. WAFL dzieli przychodzące do niego dane na 4kb bloki i zapisuje na dyskach. Te zapisane bloki z danymi możemy uznać za trzeci i ostatni poziom.
Kolejną cechą WAFLa jest fakt, iż z każdego bloku liczy on tzw: skrót - czyli pewną unikalną sumę kontrolną . Mechanizm ten został zaimplementowany aby wykryć potencjalną korupcję danych zapisanych na dysku. Jeżeli odczytane dane wygenerują inny skrót, niż ten który powstał przy ich zapisie, oznacza to, że zostały one uszkodzone. Ten istniejący już mechanizm generowania i przechowywania skrótów z każdego 4kb bloku danych, został w bardzo prosty sposób wykorzystany do zaimplementowania deduplikacji. Jedyny element jaki trzeba było dodać, to sprawdzanie tablicy skrótów i usuwanie z niej duplikatów.
Sprawdzanie i redukcja powielonych bloków danych nie odbywa się w czasie rzeczywistym ale jest ustawiana cyklicznie (np: raz na dobę w nocy) lub inicjowana ręcznie, czyli NetApp wykorzystuje deduplikację  w trybie "post-process". Do czasu uruchomienia procesu, dane na dyskach są przechowywane w stanie oryginalnym. Wykorzystanie tego sposobu razem z długim czasem przechowywania danych bez deduplikacji, wynika z jednego prostego powodu: NetApp nie jest macierzą dedykowaną pod przechowywanie backupów (choć oczywiście można ją tak wykorzystać), dane jakie na nie spływają to nie są nieaktywne archiwa,.NetApp jest zwykle używany jako normalna macierz do przechowywania danych produkcyjnych i używanych do codziennej pracy aplikacji (tzw: primary storage). Deduplikowane są dane z których użytkownicy cały czas korzystają. Połączenie deduplikacji z thin provisioningiem sprawia, że uzyskujemy bardzo duże oszczędności na zajętości przestrzeni podstawowej/produkcyjnej. Oczywiście nie ma róży bez kolców, włączenie deduplikacji powoduje spadek (o kilka procent) wydajności, no i wymusza przeprowadzanie usuwania duplikatów jedynie w czasie gdy macierz jest mało obciążona (np: raz dziennie w nocy). Coś za coś.





W sumie tyle podstawowych informacji o deduplikacji w macierzach NetApp.
Kolejny wpis dalej będzie dotyczył rozwiązań stosowanych u poszczególnych producentów, ale całkiem możliwe że pogrupuję ich już po kilku w jednym. Zbyt dużo ich zostało, żeby każdemu poświęcać osobny wpis, a w sumie różnice między nimi to jakiś bardzo wielkich nie należą (przynajmniej jeżeli chodzi o deduplikację)

niedziela, 13 marca 2011

Deduplikacja - kopie idą precz! (Część 5 - IBM)

Po opisaniu rozwiązań firmy EMC, sprawdzimy co też do zaoferowania ma IBM.
Jeżeli chodzi o rynek storage, to polityka tych dwóch korporacji jest dość odmienna. Portfolio EMC to produkty prawie wyłącznie skierowane na rynek pamięci masowych, natomiast IBM jest gigantem oferującym usługi praktycznie w każdej dziedzinie (nie tylko IT). Jeżeli chodzi o sam storage, to podejścia także są różne: EMC wychodzi z założenia, że taśma to przeżytek i zostanie całkowicie zastąpiona składowaniami na deduplikowane dyski. IBM cały czas mocno zaznacza swoją obecność na rynku bibliotek i taśm magnetycznych. Oczywiście nie przeszkadza mu to oferować rozwiązań wykorzystujących deduplikację.

IBM:


ProtecTier:
Protectier to rozwiązanie hardwarowe, oferujące deduplikację na celu. Występuje w dwóch wariantach: deduplikatora zintegrowanego z zasobami storage (np: TS7650) oraz jako gateway (np: TS7650G). Gateway to sama "główka" deduplikująca, na back-endzie której dopiero podłączamy, za pomocą FC, macierz docelową dla zeskładowanych danych. Tym co można uznać za wyróżnik Protectier-a to zastosowany algorytm deduplikacji. Nosi on nazwę HyperFactor i jest opatentowanym rozwiązaniem IBMa.
HyperFactor nie liczy skrótów (hashy) z porcji danych i nie porównuje ich z innymi wyszukując kopii. Stosuje metodę, która nie sprawdza czy dane są identyczne, ale czy mają dużo części wspólnych/podobnych. Protectier na bieżąco sprawdza przychodzący do niego strumień danych i porównuje czy w jego repozytorium nie znajdują się dane podobne - mechanizm wyznaczania tej miary "podobieństwa" opiera się na kilku dość skomplikowanych algorytmach (którymi IBM się nie chwali) oraz na informacji o rozmieszczeniu danych, która jest przechowywana w tzw: Memory Resident Index. Po znalezieniu podobnych fragmentów system składuje jedynie różnice (deltę) między nimi, dodatkowo przed nagraniem na dysk kompresując za pomocą algorytmu LHZ.

Tivoli Storage Manager 6.1 i 6.2
TSM to oprogramowanie do wykonywania backupów z danych i składowania ich na taśmach, bądź innych nośnikach. Sama aplikacja jest bardzo popularna i ma kilkunastoletnią historię (przed 1999r znana była jako ADSM). Obecnie najpopularniejsza jest wersja 5.5, która nie posiada możliwości deduplikacji danych.
Usuwanie kopii pojawiło się niedawno razem z wersją 6.1 która posiada funkcjonalność deduplikacji na targecie czyli serwerze backupowym. Kolejna wersja 6.2 dodaje deduplikację na źródle, czyli wykonywaną przez samego agenta TSMa.
Największa zaleta - funkcjonalność wbudowana w samą aplikację backupową. Bezproblemowe wdrożenie w firmach już używających TSMa.
Największa wada - w tej chwili wersja jeszcze mało "wygrzana" - możliwe jest pojawianie się błędów w nowym kodzie. Druga sprawa to brak deduplikacji na źródle przy składowaniu przez sieć SAN (agenci w wersji 6.2 obsługują tylko deduplikację przez LAN)





 Kolejny wpis - NetApp ( i może coś jeszcze, zobaczymy)

piątek, 4 marca 2011

Deduplikacja - kopie idą precz! (Część 4 - EMC)

W kolejnym wpisie poświęconym deduplikacji odejdziemy od "teoretyzowania" i przyjrzymy się rozwiązaniom (zarówno hardwarowym jak i softwarowym) które obecnie znajdują się na rynku.
Niektóre produkty znam lepiej (nawet z autopsji) niektóre gorzej, a informację o jeszcze innych zdobywałem dopiero przygotowując się do tego wpisu. 


Ponieważ graczy działających w tym sektorze jest sporo, a o każdym wypadało by parę słów napisać, tak więc opis ich produktów także zajmie więcej niż jeden wpis.
Zaczynamy od:


EMC...


... i dwóch rozwiązań deduplikacyjnych jakie mają w swoim portfolio: 


DATA DOMAIN:
DataDomain - flagowy produkt EMC jeżeli chodzi o deduplikacje danych. Jest to rozwiązanie hardwarowe spełniające funkcję VTLa i deduplikatora. DataDomain deduplikuje dane na celu (target) oraz w czasie rzeczywistym (inline) bez wcześniejszego składowania ich na dyskach w postaci orginalnej.
DataDomain używa deduplikacji za pomocą zmiennej długości bloku. Według EMC (choć oczywiście informacje te należy traktować z dużą dozą ostrożności) standardowy współczynnik deduplikacji dla tego rozwiązania to 20:1
W skład rodziny DD wchodzi jedna linia produktów, skalowanych pod względem ilości dostępnej przestrzeni oraz wielkością strumienia danych jakie są w stanie deduplikować, oraz dwa rozwiązania "specjalne".
Najnowsze modele z linii podstawowej czyli tzw: Appliance to w kolejności od najmniejszego: DD140 , DD630 , DD670 , DD860 i DD890
W "najbogatszej" wersji (DD890) DataDomain oferuje do 384TB surowej powierzchni dyskowej i obsługę do 14,2PB przestrzeni po deduplikacji (co raczej będzie ciężkie do uzyskania ponieważ zmieszczenie takiej ilości danych na 384TB powierzchni fizycznej wymaga deduplikacji na poziomie około 40:1).
Oprócz samej serii applianców EMC oferuje Data Domaina w wersji GDA (Global Deduplication Array). Fizycznie są to dwie maszyny DD890 połączone z sobą w ten sposób, iż oferują jedną wielką przestrzeń (pulę) na dane zdeduplikowane, dzięki temu nie tylko zwiększa się ich pojemność i wielkość strumienia danych jakie mogą przyjąć, ale także sam deduplikator może działać (jako jedna całość), a fizycznie być rozłożony na dwie lokacje.
Drugim z produktów "specjalnych" w obrębie rodziny DataDomain jest DataDomain Archiver - całkiem nowe rozwiązanie, które od kilku tygodni jest dostępne na rynku.
Jest to urządzenie, które ma ambicje zastąpić taśmy magnetyczne w ich ostatnim "bastionie", czyli w archiwach długoretencyjnych (kilku,kilkunastoletnie). Archiver oferuje kilka opcji, które między innymi pozwalają na obniżenie kosztów jednostkowych dla tego rozwiązania. Jest to na przykład użycie warstw (tier) o różnych parametrach, dla danych o różnej retencji. Przykładowo dane nagrane do 90 dni są trzymane na "warstwie" wyższej, a po tym okresie przerzucane na "warstwę" tańszą (choć szczerze powiedziawszy EMC na razie nie określa za bardzo na czym miały by polegać konkretne różnice między warstwami - możliwe, że nie będzie ich wcale a podział spójnej przestrzeni na "warstwy" zostanie umotywowany jakoś inaczej). Kolejnym z wyróżników Archvera ma być jego możliwość zakładania Retention Locku, czyli mechanizmu który uniemożliwia skasowanie/usunięcie pewnych danych, zanim nie minie określona ilość czasu.
Oprócz samych maszyn, warto wspomnieć o pewnym mechaniźmie softwarowym współpracującym z DataDomainami a mianowicie o DD Boost.
DD Boost pozwala część pracy przerzucić na serwer backupowy czyli zamienić deduplikację czysto sprzętową na targecie, na mieszankę deduplikacji na targecie z deduplikacją na źródle. Dzięki temu zarówno zwiększamy przepustowość samego DataDomaina a także odciążamy sieć LAN po której idą dane już zdeduplikowane (przynajmniej w części). 
DD Boost oczywiście, aby zadziałał, musi być wspierany przez samą aplikację backupującą. W obecnej chwili współpracują z nim oprócz EMC Networkera także produkty firmy Symantec: Netbackup i Backup Exec.

AVAMAR
Avamar jest to rozwiązanie deduplikujące na źródle - może występować w wersji softwarowej lub jako Avamar Data Store mieszaniec soft/hard-ware.
Zaletą deduplikacji Avamarowej (jak każdej deduplikacji na źródle) jest oszczędzanie nie tylko miejsca ale i łącza. Wszystkie duplikaty danych (w przypadku Avamara na poziomie bloku) zostają usunięte i przez sieć do serwera backupu wysyła się jedynie bloki unikalne. Uzysk na ilości przesyłanych danych może nie powalać przy wykonaniu pierwszego składowania ( przesłane średnio jest od 20 do 50% danych oryginalnych) ale kolejne składowania zwykle wysyłają już jedynie szczątkowe ilości danych. 
Poprzednie stwierdzenie jest prawdziwe przy odpowiednim zastosowaniu Avamara. Użycie go do składowania baz danych (szczególnie dużych >500GB) nie specjalnie się sprawdza. Po pierwsze bardzo obciąża system, który sam musi przeprowadzić deduplikację, po drugie ilość zmian jakie się wykonują pomiędzy składowaniami jest relatywnie duża, a więc uzysk na łączu i miejscu jest niewielki. Najlepiej Avamar sprawdza się przy wykonywaniu backupów poprzez sieć WAN - dobrym przykładem są składowania laptopów czy stacji roboczych, używanych przez pracowników w domach albo biurach regionalnych - dane na większości tego typu urządzeń są podobne (ten sam OS , podobne formaty plików) , a dodatkowo składowanie wykonywane jest przez relatywnie wolną i zawodną sieć. W takich warunkach Avamar pokazuje swoją siłę.
Do niewątpliwych plusów tego rozwiązania zaliczyć należy również sposób jego licencjonowania. Jest bardzo prosty i przejrzysty, żadnego liczenia ilości licencji w zależności od typu procesora, ilości rdzeni, wątków itd..., brak podziału na licencje "zwykłe" i "bazodanowe", jedynym kryterium jest ilość danych po zdeduplikowaniu. Kupując daną licencję otrzymujemy wielkość danych po deduplikacji jaką możemy utrzymać, a w jaki sposób ją uzyskamy ( z ilu stacji , jakie dane itd...) jest zupełnie dowolny.
Sam Avamar posiada jeszcze kilka innych ciekawych rozwiązań, takich jak np: szyfrowanie danych ale 
dokładniejsze ich wszystkich opisanie wykracza poza ramy tego wpisu.






Tyle o EMC, w kolejnym wpisie IBM i jego deduplikatory ProtecTier oraz TSM 6.1/6.2