piątek, 4 marca 2011

Deduplikacja - kopie idą precz! (Część 4 - EMC)

W kolejnym wpisie poświęconym deduplikacji odejdziemy od "teoretyzowania" i przyjrzymy się rozwiązaniom (zarówno hardwarowym jak i softwarowym) które obecnie znajdują się na rynku.
Niektóre produkty znam lepiej (nawet z autopsji) niektóre gorzej, a informację o jeszcze innych zdobywałem dopiero przygotowując się do tego wpisu. 


Ponieważ graczy działających w tym sektorze jest sporo, a o każdym wypadało by parę słów napisać, tak więc opis ich produktów także zajmie więcej niż jeden wpis.
Zaczynamy od:


EMC...


... i dwóch rozwiązań deduplikacyjnych jakie mają w swoim portfolio: 


DATA DOMAIN:
DataDomain - flagowy produkt EMC jeżeli chodzi o deduplikacje danych. Jest to rozwiązanie hardwarowe spełniające funkcję VTLa i deduplikatora. DataDomain deduplikuje dane na celu (target) oraz w czasie rzeczywistym (inline) bez wcześniejszego składowania ich na dyskach w postaci orginalnej.
DataDomain używa deduplikacji za pomocą zmiennej długości bloku. Według EMC (choć oczywiście informacje te należy traktować z dużą dozą ostrożności) standardowy współczynnik deduplikacji dla tego rozwiązania to 20:1
W skład rodziny DD wchodzi jedna linia produktów, skalowanych pod względem ilości dostępnej przestrzeni oraz wielkością strumienia danych jakie są w stanie deduplikować, oraz dwa rozwiązania "specjalne".
Najnowsze modele z linii podstawowej czyli tzw: Appliance to w kolejności od najmniejszego: DD140 , DD630 , DD670 , DD860 i DD890
W "najbogatszej" wersji (DD890) DataDomain oferuje do 384TB surowej powierzchni dyskowej i obsługę do 14,2PB przestrzeni po deduplikacji (co raczej będzie ciężkie do uzyskania ponieważ zmieszczenie takiej ilości danych na 384TB powierzchni fizycznej wymaga deduplikacji na poziomie około 40:1).
Oprócz samej serii applianców EMC oferuje Data Domaina w wersji GDA (Global Deduplication Array). Fizycznie są to dwie maszyny DD890 połączone z sobą w ten sposób, iż oferują jedną wielką przestrzeń (pulę) na dane zdeduplikowane, dzięki temu nie tylko zwiększa się ich pojemność i wielkość strumienia danych jakie mogą przyjąć, ale także sam deduplikator może działać (jako jedna całość), a fizycznie być rozłożony na dwie lokacje.
Drugim z produktów "specjalnych" w obrębie rodziny DataDomain jest DataDomain Archiver - całkiem nowe rozwiązanie, które od kilku tygodni jest dostępne na rynku.
Jest to urządzenie, które ma ambicje zastąpić taśmy magnetyczne w ich ostatnim "bastionie", czyli w archiwach długoretencyjnych (kilku,kilkunastoletnie). Archiver oferuje kilka opcji, które między innymi pozwalają na obniżenie kosztów jednostkowych dla tego rozwiązania. Jest to na przykład użycie warstw (tier) o różnych parametrach, dla danych o różnej retencji. Przykładowo dane nagrane do 90 dni są trzymane na "warstwie" wyższej, a po tym okresie przerzucane na "warstwę" tańszą (choć szczerze powiedziawszy EMC na razie nie określa za bardzo na czym miały by polegać konkretne różnice między warstwami - możliwe, że nie będzie ich wcale a podział spójnej przestrzeni na "warstwy" zostanie umotywowany jakoś inaczej). Kolejnym z wyróżników Archvera ma być jego możliwość zakładania Retention Locku, czyli mechanizmu który uniemożliwia skasowanie/usunięcie pewnych danych, zanim nie minie określona ilość czasu.
Oprócz samych maszyn, warto wspomnieć o pewnym mechaniźmie softwarowym współpracującym z DataDomainami a mianowicie o DD Boost.
DD Boost pozwala część pracy przerzucić na serwer backupowy czyli zamienić deduplikację czysto sprzętową na targecie, na mieszankę deduplikacji na targecie z deduplikacją na źródle. Dzięki temu zarówno zwiększamy przepustowość samego DataDomaina a także odciążamy sieć LAN po której idą dane już zdeduplikowane (przynajmniej w części). 
DD Boost oczywiście, aby zadziałał, musi być wspierany przez samą aplikację backupującą. W obecnej chwili współpracują z nim oprócz EMC Networkera także produkty firmy Symantec: Netbackup i Backup Exec.

AVAMAR
Avamar jest to rozwiązanie deduplikujące na źródle - może występować w wersji softwarowej lub jako Avamar Data Store mieszaniec soft/hard-ware.
Zaletą deduplikacji Avamarowej (jak każdej deduplikacji na źródle) jest oszczędzanie nie tylko miejsca ale i łącza. Wszystkie duplikaty danych (w przypadku Avamara na poziomie bloku) zostają usunięte i przez sieć do serwera backupu wysyła się jedynie bloki unikalne. Uzysk na ilości przesyłanych danych może nie powalać przy wykonaniu pierwszego składowania ( przesłane średnio jest od 20 do 50% danych oryginalnych) ale kolejne składowania zwykle wysyłają już jedynie szczątkowe ilości danych. 
Poprzednie stwierdzenie jest prawdziwe przy odpowiednim zastosowaniu Avamara. Użycie go do składowania baz danych (szczególnie dużych >500GB) nie specjalnie się sprawdza. Po pierwsze bardzo obciąża system, który sam musi przeprowadzić deduplikację, po drugie ilość zmian jakie się wykonują pomiędzy składowaniami jest relatywnie duża, a więc uzysk na łączu i miejscu jest niewielki. Najlepiej Avamar sprawdza się przy wykonywaniu backupów poprzez sieć WAN - dobrym przykładem są składowania laptopów czy stacji roboczych, używanych przez pracowników w domach albo biurach regionalnych - dane na większości tego typu urządzeń są podobne (ten sam OS , podobne formaty plików) , a dodatkowo składowanie wykonywane jest przez relatywnie wolną i zawodną sieć. W takich warunkach Avamar pokazuje swoją siłę.
Do niewątpliwych plusów tego rozwiązania zaliczyć należy również sposób jego licencjonowania. Jest bardzo prosty i przejrzysty, żadnego liczenia ilości licencji w zależności od typu procesora, ilości rdzeni, wątków itd..., brak podziału na licencje "zwykłe" i "bazodanowe", jedynym kryterium jest ilość danych po zdeduplikowaniu. Kupując daną licencję otrzymujemy wielkość danych po deduplikacji jaką możemy utrzymać, a w jaki sposób ją uzyskamy ( z ilu stacji , jakie dane itd...) jest zupełnie dowolny.
Sam Avamar posiada jeszcze kilka innych ciekawych rozwiązań, takich jak np: szyfrowanie danych ale 
dokładniejsze ich wszystkich opisanie wykracza poza ramy tego wpisu.






Tyle o EMC, w kolejnym wpisie IBM i jego deduplikatory ProtecTier oraz TSM 6.1/6.2

2 komentarze:

  1. Warto wspomnieć że EMC oferuje tez deduplikację w macierzach VNX (oraz wcześniej w Celerrach). Tyle że jest to deduplikacja na poziomie plików - niezbyt efektywna.

    OdpowiedzUsuń
  2. Deduplikuje na poziomie bloków Sejf Danych, polskie rozwiązanie oparte na silniku Asigra.

    OdpowiedzUsuń