MetaStorage: Deduplikacja - kopie idą precz! (Część 7

Po wpisach poświęconych w całości każdemu z "dużych" graczy w obszarze deduplikacji, chciałbym wspomnieć o innych produktach posiadających taką funkcjonalność.

FalconStore:

FalconStore to duży gracz w segmencie wirtualnych bibliotek taśmowych i oczywiste jest że ma w swojej ofercie także rozwiązania deduplikacyjne. FalconStore SIR (Single Instance Repository) jest "główką" deduplikacyną, którą dołącza się do FalconStoreVTLa, a która przeprowadza usuwanie kopii danych. Sam FS SIR nie posiada swojej przestrzeni dyskowej i wymogiem jest aby na jego back-endzie umieścić macierz zewnętrzną do przechowywania zdeduplikowanych danych. Jest to rozwiązanie łatwo skalowalne pod względem wydajności ponieważ poszczególne elementy SIRa łączą się, tworząc w maksymalnej konfiguracji 4 nodowy klaster (z redundancją N+1).
Oprócz SIRa, który jest "dodatkiem" do wirtualnej biblioteki, FalconStore oferuje także rozwiązania nie wymagające środowiska VTLowego. FalconStore FDS (File Deduplication System) jest linią produktów zarówno całkowicie softwarowych (SAK - Software Application Kit) jak i dedykowanych jednostek zintegrowanych z zasobami dyskowymi (Series 100/300/600). Urządzenia te mogą wymieniać dane z serwerami za pomocą protokołów NFS/CIFS a także wykorzystując OST firmy Symantec.

Symantec:

Dwa produkty firmy Symantec umożliwiają deduplikację danych -Backup Exec i NetBackup. Obydwie aplikacje mają bardzo podobną funkcjonalność, a ich głównym zadaniem jest wykonywanie i zarządzanie backupami. Identyczna jest również technologia deduplikacji jaką stosują i nosi ona nazwę: Veritas PureDisk.
Jeżeli chodzi o różnice między tym dwoma produktami, to są one inaczej pozycjonowane: Exec jest przeznaczony do małych i średnich przedsiębiorstw, natomiast NetBackup to produkt dla największych klientów klasy enterprise. Sama deduplikacja może zachodzić w różnych miejscach - preferowane jest jej wykonanie na kliencie, zysujemy wtedy oszczędość nie tylko miejsca ale i wykorzystania łącza, ale jeżeli powoduje to zbyt duże obciążenie CPU klienta, to zarówno Exec jak i NetBackup umożliwia przeniesienie tego procesu na serwer.
Symantec ma w swojej ofercie także dedykowany sprzęt (tzw: appliance) deduplikacyjny. Jest to serwer z działającym na nim oprogramowaniem do deduplikacji. Są to dwa produkty oznaczone jako NetBackup 5000 i 5200

Oracle:

Mówiąc o deduplikacji w rozwiązaniach Oracle najlepiej jest skupić się na możliwościach jakie w tym zakresie oferuje ZFS. Co prawda Oracle ma także swojego "czysto sprzętowego" deduplikatora nazwanego StorageTek VTL Prime, ale tak naprawdę jest to "rebrandowany" FalconStore VTL + SIR.
Co do ZFSa to jest to system bardzo ciekawy i pełen bardzo interesujących rozwiązań tak że w zasadzie tylko jemu można by było poświęcić cały duży wpis, ale w tym momencie skupimy się wyłącznie na funkcjonalności deduplikacji.
Deduplikacja w ZFSie odbywa się na poziomie bloku danych i jako skróty wykorzystuje generowane przez filesystem 256bitowe sumy kontrolne. Jest to mechanizm bardzo podobny do tego znanego z Netapp-owego WAFLa, gdzie również jako skróty zastosowano, już istniejące dla celów kontroli, checksumy.
Tym co odróżnia deduplikację ZFSową od Netapp-owej jest fakt, iż odbywa się ona w czasie rzeczywistym.
Dodatkowo dla ZFSa można uruchomić specjalny tryb "Weryfikacji", który podczas deduplikowania dodatkowo sprawdza czy nie występuje kolizja skrótów. Z kolejnych "fajnych" możliwości ZFSa jest "szacowanie" ilości miejsca, jakie zostanie zaoszczędzone w wyniku włączenia deduplikacji - niestety nie miałem możliwości sprawdzić, jak takie szacowanie działa, ale gdyby ktoś był chętny niech zainteresuje się manualem do komendy zdb a szczególnie jej przełącznikiem -S.

CommVault:

CommVault to firma specjalizująca się w oprogramowaniu do backupu i archiwizacji. Jej flagowy produkt wykorzystujący deduplikację to Simpana (obecnie w wersji 9).
CommVault wykorzystuje specyficzną metodę wykonywania deduplikacji, którą można nazwać hybrydową - klient serwera backupowego dzieli dane na paczki oraz liczy z nich skróty, nie wykonuje jednak sprawdzania czy dane się powtarzają, są one jedynie kompresowane i wszystkie wysyłane do serwera. Dopiero na serwerze przeprowadzane jest samo deduplikowanie.
Kolejną dość nietypową własnością jaką ma Simpana to możliwość deduplikownia danych na taśmach magnetycznych. Dość ciężko znaleźć zastosowanie dla takiej funkcjonalności, ale jeżeli ktoś widzi taką potrzebę, to produkt CommVaultu mu ją zapewni.

NEC:

Firma NEC ma w swojej ofercie urządzenie HydraStore, które jest macierzą zbudowaną w technice RAIN ( Redundand Array of Independent Nodes) i posiada architekturę klastrową (skalowalną do 55 osobnych węzłów). Macierz ta posiada także mechanizmy deduplikacji wykonywanej "w locie" (inline)

ExaGrid:

ExaGrid jest firmą mocno nastawioną na produkty wykorzystujące deduplikację. Jej celem są głównie przedsiębiorstwa małej i średniej wielkości, choć widać, że chciała by także mocniej zaznaczyć swoją obecność w sektorze firm obsługujących korporacje klasy enterprise. Dedykowana seria urządzeń do dedplikacji firmy ExaGrid nosi nazwę EX. Mają one budowę klastrową (do 10 węzłów) i raczej niczym się nie wyróżnia od innych rozwiązań oferujących deduplikację na celu.

Quantum:

Seria deduplikatorów firmy Quantum to modele oznaczone jako DXi i obejmują sobą zarówno sektor małych (DXi4500), średnich (DXi6700) jak i dużych (DXi7500) przedsiębiorstw. Deduplikacja odbywa się na celu a deduplikator posiada funkcję "udawania" biblioteki taśmowej. Usuwanie kopii jest wykonane na poziomie bloku danych o zmiennej długości. Z przyjemnych dodatków można wspomnieć o module Advanced Reporting, który jest obecny w każdym modelu DXi (i bez dodatkowej licencji), a pozwala na monitorowanie stanu obecnego, historycznego oraz wyznaczania trendu bardzo wielu parametrów z zakresu capacity i wydajności.

Sepaton:

Mniej znana firma, która jednak ma dość ciekawe rozwiązania deduplikacyjne. Urządzenie które ma je zaimplementowane nosi nazwę S2100-ES2 i jest biblioteką taśmową, mogącą działać w klastrze i posiadającą możliwość deduplikowania danych. Interesujący jest sam poziom na którym deduplikacja się odbywa, ponieważ można go uznać za poziom bajtów - silnik deduplikacyjny obserwuje przychodzący do niego strumień danych (nie dzieli go na porcje) i w tym ciągłym strumieniu wyszukuje fragmenty, której już ma zeskładowane. Dodatkowo wykorzystywana jest tzw: content-aware deduplikacja, czyli samo urządzenie potrafi wykryć jakiego rodzaju dane są na niego przesyłane (jaka aplikacja backupowa jest używana) i odpowiednio do tego zmodyfikować swoje parametry pracy, tak aby zapewnić jak najlepszą i najwydajniejszą deduplikację. Sam mechanizm/silnik deduplikacji nosi nazwę DeltaStor.

CA:

Firma, o niezwykle długiej nazwie CA, zaznaczyła swoją obecność w obszarze deduplikacji, dołączając taką możliwość do swojego oprogramowania backupowego: CA ArcServe Backup. Deduplikacja odbywa się na serwerze (na celu) oraz jest wykonywana "w locie" (inline)

Asigra:

Na koniec rozwiązanie trochę egzotyczne: Asigra Cloud Backup. Jest to aplikacja backupowa, która po pierwsze składuje dane w chmurze (to nie jest jakiś ewenement, podobną funkcjonalność mają np: nowe wersje NetBackupa), a po drugie jest bezagentowa - dane z klientów są ściągne po wykonaniu pewnego skanowania poprzez sieć a następnie podłączenia się do danego zasobu i zeskładowania go. Dodatkowo dane są jeszcze deduplikowane przed zaciągnięciem tak, że obciążenie sieci mocno spada.

Na tym zakończy się cykl "deduplikacyjny". Początkowo planowałem 3 albo 4 wpisy, ale temat jest tak obszerny, że mimo 7 postów dalej nie jest wyczerpany.
Ufff. Dość o dyskach, kolejny wpis będzie o bibliotekach.

MetaStorage

sobota, 16 kwietnia 2011

Deduplikacja - kopie idą precz! (Część 7 - reszta)

Brak komentarzy:

Prześlij komentarz