MetaStorage: kwietnia 2011

sobota, 30 kwietnia 2011

Duże biblioteki

Serwerownie, szczególnie te największe, to miejsca gdzie znajduje się wiele różnego rodzaju urządzeń, z których większość jest dość sporawych rozmiarów. Są jednak pewne elementy wyróżniające się gabarytami nawet wśród szaf pełnych serwerów czy macierzy załadowanych dyskami. Najwięcej miejsca i największe wrażenie swoimi gabarytami robią biblioteki taśmowe z segmentu hi-end, długie czasem na kilkanaście szaf , z robotami poruszającymi się w środku i z oknami umożliwiającymi obserwację ich pracy, stanowią dość intrygujące elementy infrastruktury datacenter.

Czym jest biblioteka taśmowa?

Jest to jedno z urządzeń wchodzących w skład środowiska backupowego wykorzystującego taśmy magnetyczne. Taśma magnetyczna, jako nośnik danych przeżywa ostatnio duży kryzys . Co prawda jest jeszcze bardzo popularna, a sama technologia ciągle rozwijana ( np: w 2010r został wprowadzony standard LTO5 pozwalający na przechowanie 3TB danych na 1 taśmie), ale coraz więcej firm uznaje ją za rozwiązanie przestarzałe i wybiera metody backupu wykorzystujące dyski twarde i deduplikację lub najnowsze rozwiązania wykorzystujące składowanie do tzw. chmury.

Sama filozofia wykonywania składowania na taśmę jest bardzo prosta. Serwer backupu wysyła strumień danych, który następnie jest przesyłany (bezpośrednio lub np: z wykorzystaniem sieci SAN) do napędu taśmowego, a ten z kolei zapisuje te dane na taśmę magnetyczną. Na tym w sumie koniec filozofii z backupem na taśmy, gdyby nie fakt, iż samo ładowanie i rozładowywanie napędu z taśmy musi być wykonywane ręcznie. Przy małym wolumenie i pojedynczym napędzie nie stanowi to problemu, ale gdy ilość taśm osiągnie wielkość setek (lub tysięcy), a napędów kilkunastu to wymagane jest zautomatyzowanie sposobu dostarczania i przechowywania nośników. Rozwiązaniem tego problemu jest właśnie biblioteka taśmowa. Składa się ona zwykle z jednostki sterującej, kieszeni( slotów) w których umieszczane są nieużywane w danym momencie taśmy, jednego lub więcej napędu taśmowego oraz robota ( zwanego także accessorem lub pickerem), którego rolą jest podawanie taśm do napędów i odkładanie ich do slotów po zakończonym odczycie/zapisie. Jeżeli chodzi o rozmiary bibliotek, to są one najróżniejsze - od malutkich "pudełeczek" o wielkości 4U i pojemności kilkunastu taśm, do prawdziwych gigantów mających po kilkadziesiąt metrów i dziesiątki tysięcy slotów na nośniki.

Jak jest zbudowana biblioteka taśmowa?

Zdecydowana większość bibliotek posiada te same elementy składowe. Przede wszystkim są to tzw.: sloty , czyli „półeczki „ na których leżą tasiemki , kolejną częścią, która jest integralną składową każdej biblioteki jest robot, zwany także czasem picekrem lub accessorem , a którego zadaniem jest transport kasetek między slotem a napędami. Ostatnia część znajdująca się w każdej bibliotece to napęd taśmowy, którego ilość waha się od jednego w najmniejszych modelach do kilkudziesięciu w tych największych.

Oprócz tych trzech podstawowych elementów, które znajdują się w każdej bibliotece taśmowej, zdecydowana większość modeli posiada także inne urządzenia, zapewniające dodatkowe funkcjonalności. Najczęściej spotykane to:

Podajnik na kasety (Mail slot , CAP , I/O Station) - jest to miejsce, dzięki któremu można dokładać i usuwać taśmy z biblioteki, bez potrzeby jej zatrzymywania. W mniejszych modelach może to być coś w stylu szufladki ze slotami , większe posiadają duże podajniki wbudowane w drzwi i mieszczące po kilkadziesiąt kaset naraz.
Konsola - umożliwiająca bezpośrednią diagnostykę i sterowanie biblioteką. Czasem jest to tylko mały ekranik LCD i dwa przyciski, w większych modelach mogą to być osobne dedykowane serwery ze specjalnie przygotowanym oprogramowaniem.
Zatoka serwisowa - tą funkcjonalność mają tylko największe z bibliotek. Zwykle ich krańcowe części mogą być fizycznie odizolowane od reszty i służyć do serwisowania robotów bez potrzeby wyłączania całej maszyny.

Duże biblioteki?

Najpierw słowem wyjaśnienia, co uznajemy za "dużą" bibliotekę. Jednym z głównych kryteriów jakimi się kierowałem była sama wielkość biblioteki - musi być skalowalna poza jedną szafę. Dodatkowo najlepiej, aby oferowała funkcjonalności dostępne dla rozwiązań HA (High Availability) czyli np: redundantnego robota, ale nie był to dla mnie wymóg twardy.

Ogólnie opisane zostaną następujące modele:

IBM:

3494
TS3500

Oracle/Sun:

SL8500
SL3000
9310

Spectra Logic:

T-Finity

IBM:

Hi-endowe biblioteki IBMa ( czyli model 3494 i jego następca TS3500) mają typową architekturę jaka jest stosowana dla tego typu rozwiązań. Jest to liniowy układ z szafą serwisową na początku i szafami ze slotami i napędami sukcesywnie dołączanymi jeden obok drugiego podczas rozbudowy bibliotek. Ciekawie załatwiona jest sprawa zapewnienia wysokiej dostępności. Sam robot w tych modelach może być zaopatrzony w podwójny chwytak (gripper) - wykorzystanie tego mechanizmu wiąże się z wadami i zaletami. Wadą jest ograniczenie pojemności biblioteki, gdyż użycie dwóch gripperów w jednym robocie powoduje, że najwyższe dwa rzędy na kasetki w każdej szafie są niedostępne i muszą być zaślepione. Co do zalet to oczywiście poprawiona jest dostępność danej biblioteki, nawet w przypadku uszkodzenia jednego z chwytaków, robot pozostaje sprawny; dodatkowo nieco zwiększa się szybkość montowania kasetek - jeżeli w napędzie już załadowana była taśma, to robot zamiast rozładować przewijak, a następnie pobrać i załadować nową taśmę, robi to w jednym ruchu wykorzystując obydwa chwytaki. Dodatkowo, oprócz zapewnienia sobie redundancji w obrębie pojedynczego robota, można dokupić "pełną" funkcjonalność HA pod postacią dodatkowego pełnego robota i drugiej zatoczki serwisowej. W takim przypadku dodatkowy „service bay” instalowany jest na drugim końcu biblioteki. Rozwiązanie takie ma kilka zalet zwiększających dostępność i niezawodność biblioteki poprzez zwiększenie jej "odporności" na błędy. Po pierwsze mamy dwa roboty, w razie awarii jednego z nich, drugi delikatnie "dopchnie" go do zatoczki serwisowej i sam zacznie obsługiwać całą bibliotekę. Drugi bonus, który jednak występuje jedynie w starszej bibliotece czyli 3494 to zdublowanie jednostek sterujących biblioteką (tzw: Library Managerów), które wbudowane są w tył szaf serwisowych ( gwoli ciekawostki: system operacyjny na którym działają Library Mangery to OS/2). Po takim zdublowaniu obydwie jednostki łączą się w klaster i w razie awarii jednej z nich system automatycznie (w teorii) przełączy się na pozostałą.

Obydwie biblioteki (3494 i TS3500) obsługują wywodzące się z mainframów napędy IBMa - Jaguary, które w najnowszej generacji 3 potrafią zapisać do 1TB (nieskompresowanych) danych. Nowszy model TS3500 (zwany także Anaconda) obsługuje również napędy LTO, aż do najnowszej wersji 5. Całkiem nowatorskim rozwiązaniem (i to na skalę globalną) wykorzystanym w TS3500 są szafy o podwyższonej gęstości (HD - High Density) - taśmy znajdują się w takiej szafie w kilku warstwach jedna za drugą. Dla taśm LTO ilość warstw jest równa 5, dla taśm z Jaguarów 4. Co prawda szybkość dostępu do kasetek z takiej szafy zmniejsza się, ponieważ robot musi wyciągnąć wszystkie taśmy z warstw wcześniejszych w danym slocie, ale utrudnienie to zniwelowane o wiele większą pojemnością danej szafy, w której mieści się grubo ponad 1000 taśm ( dokładnie 1320 dla LTO).

Jeżeli chodzi o porównanie bibliotek 3494 i TS3500, to oprócz dodatkowych funkcji takich jak wsparcie dla LTO, czy szafy HD , nowa biblioteka jest znacznie lepiej diagnozowalna i udziela większej ilości informacji o swoim działaniu i potencjalnych uszkodzeniach. 3494 - uczy pod tym względem człowieka cierpliwości, sygnalizując wystąpienie błędu, ale nie informując w wielu wypadkach, na jakim komponencie.

Oracle/Sun

W zasadzie biblioteki opisane w tym akapicie nie są ani firmy Oracle ani Sun, ale StorageTek ( z wyjątkiem 9310). Dwie z nich cały czas są w sprzedaży, natomiast trzecia 9310 jest już rozwiązaniem niewspieranym, natomiast na tyle oryginalnym, że wartym chociażby krótkiej wzmianki.

Zacznijmy od najstarszej konstrukcji, czyli biblioteki 9310 Powderhorn - jest to konstrukcja o tyle inna od pozostałych, że ma kształt oktagonu, którego boki są ścianami ze slotami i napędami. Całość obsługiwana jest przez jednego robota poruszającego się ruchem obrotowym. Kolejnym rozwiązaniem wyróżniającym 9310 od innych bibliotek jest moduł LMU (Library Management Unit), który odpowiada za komunikację między hostem a robotem (polecenia montowania/odmontowania kasetek do napędów) - moduł ten jest w 9310 oddzielną jednostką i nie musi być w tym samym miejscu, co reszta biblioteki.

Po chwili spędzonej w "muzeum" możemy zająć się bardziej aktualnymi okazami ze stajni Oracle, czyli modelami SL3000 i SL8500. Najpierw ten pierwszy, jako znacznie mniej ciekawszy.

SL3000 - w zasadzie o tej bibliotece nie da się powiedzieć nic specjalnego. Standardowy liniowy układ i prosty tor, po jakim poruszają się roboty. Sama biblioteka jest skalowana aż do 12 modułów – szaf i ma możliwość zastosowania do 2 robotów ( zwanychtutaj tallbot lub t-bot). Z powodu swoich gabarytów i pojemności, oraz rozwiązań HA (High Avilabilty) można zaliczyć ją do bibliotek dużych , ale nie ma w niej nic ponadto co wyróżniało by ją od typowych modeli tego segmentu.

SL8500 - dość ciekawe rozwiązanie o nietypowej konstrukcji. Sama biblioteka jak i pozostałe ( z wyjątkiem 9310) ma budowę modułową. SL8500 posiada jednak tylko jeden moduł będący odpowiednikiem racka serwisowego. Nazywany on jest w tym modelu CIM (Customer Interface Module) i jest znacznie szerszy (jak i cała biblioteka) od typowej szafy bibliotecznej - Spowodowane jest to tym, iż znajdują się w nim obydwa końce toru, po którym poruszają się roboty, a dodatkowo jeszcze pomiędzy nimi znajduje się konsola do sterowania i monitorowania pracy biblioteki. Oczywiście obecność obydwu zakończeń toru ruchu robotów w jednym module wskazuje, że kształt tego toru nie jest standardowy- w przypadku SL8500 jest on podobny do litery U z początkiem i końcem właśnie w części CIM. Na drugim końcu biblioteki mamy moduły DEM (Drive & Electornics Module) i RIM (Robot Interface Module) - w DEM możemy umieścić do 64 napędow, a RIM jest miejscem gdzie tor ruchu robotów zakręca i zawraca. Pomiędzy CIMa a RIMa dokłada się szafy ze slotami( SEM - Storage Expansion Module).

Sam kształt toru po jakim jeżdżą roboty nie jest jedynym wyróżnikiem SL8500 , sama ich ilość także jest nietypowa. W tej bibliotece standardowo znajdują się 4 roboty (zwane h-botami), a jeżeli interesuje nas wersja HA (High avaliability) to liczba ta rośnie do 8. Wynika to z architektury samej biblioteki gdzie tor ruchu nie jest "pojedyńczy" ale składa się z czterech równoległych "szyn", rozłożonych równomiernie jedna nad drugą na całej wysokości biblioteki. Każda z takich "szyn" jest torem dla jednego robota (lub dwóch w wersji HA) i każdy z takich robotów ma dostęp jedynie do 1/4 slotów znajdujących się w bibliotece oraz tylko to tych napędów, które znajdują się na odpowiedniej dla niego wysokości. Same roboty są oczywiście dużo mniejsze niż te występujące w innych bibliotekach klasy "hi-end". Takie poziome podzielenie jednej jednostki na cztery niezależne części ma oczywiście swoje zalety, z których kluczową jest przyśpieszenie czasu podmontowania/zdemonotania taśm wynikające z faktu, że naraz pracuje 4 lub nawet 8 robotów. Minusem jest duża komplikacja i wydłużony czas obsługi żądania, gdzie kasetka znajduje się w "domenie" innego robota niż tego który obsługuje jej miejsce docelowe (np: wolny napęd). W takim przypadku kasetka musi zostać zawieziona do tzw.: windy (które znajdują się niedaleko modułów CIM), następnie tą windą poruszającą się jedynie w kierunku góra-dół zwieziona na odpowiednią warstwę i stamtąd pobrana przez drugiego h-bota który zawiezie ją do celu.

Sama biblioteka po maksymalnym rozbudowaniu ( do 5 modułów SEM) mieści w sobie do około 10.000 taśm i może mieć do 64 napędów. To jednak nie wyczerpuje możliwości. Biblioteki SL8500 można łączyć ze sobą tworząc tzw.: kompleks. Poszczególne SL8500 stawia się równolegle do siebie i łączy ze sobą za pomocą specjalnych przejściówek PTP - "pass-thru" port. Maksymalny wspierany przez Oracle kompleks składa się z 10 SL8500, co daje sumarycznie możliwość stworzenia jednej gigantycznej biblioteki zawierającej 100.000 taśm, ponad 600 napędów i do 80 robotów. Wykorzystując standard LTO5 w takim "kolosie" możemy przechować do 150PB danych (300PB licząc standardową kompresję 2:1). Problematyczny, w przypadku tak dużego tworu, staje się czas , jaki jest potrzebny na podmontowanie taśmy - w najgorszym przypadku droga taśmy do napędu wiedzie przez kilka bibliotek, portów PTP (które mają ograniczoną pojemność) i windy.

Spectra Logic - T-Finity

I na zakończenie najbardziej egzotyczna, przynajmniej dla mnie, konstrukcja. Niestety w przeciwieństwie do innych opisanych tutaj modeli nie miałem z nią styczności bezpośrednio, dlatego bazuję na materiałach dostępnych w Internecie, ale wydaje mi się ona na tyle interesująca, a ponadto mało znana, że chciałbym o niej wspomnieć.

Biblioteka T-Finity jest biblioteką o architekturze liniowej. Pierwszym wyróżnikiem jest ilość modułów, o jakie możemy ją rozbudowywać aż 25. Powoduje to, iż jest to największa z dostępnych na rynku bibliotek. Kolejną cechą i rozwiązaniem według mnie rewolucyjnym jest technologia, w jakiej przechowywane są taśmy - coś podobnego występuje w IBMowskich szafach HD (opisanych przy okazji modelu TS3500) ale w T-Finity jest to po pierwsze standardem, a po drugie występuje pod inną(efektywniejszą) postacią. W czym rzecz, otóż w innych bibliotekach taśmy spoczywają w slotach (szufladkach) znajdujących się w szafach/modułach i tworzących na nich coś w stylu "siatki" z kolumnami i wierszami. IBMowska szafa HD, w jednym slocie potrafi umieścić jedna za drugą 4 lub 5 kasetek (w zależności od ich typu),co kilkukrotnie zwiększa to pojemność takiej szafy, ale jednocześnie sprawia, że przed użyciem taśmy "z głębi" robot musi wyciągnąć i tymczasowo "poupychać" i innych slotach wszystkie taśmy jakie znajdują się przed nią. Rozwiązanie zastosowane w T-Finity opiera się na innym mechanizmie, w slotach nie umieszczane są tutaj kasetki, ale specjalne koszyki.

Koszyk jest to zwykły plastikowy pojemnik, do którego mieści się 10 taśm. Robot posiada dwa rodzaje chwytaków, pierwszym z nich wyciąga cały koszyk ze slotu , drugi z wyciągniętego i trzymanego koszyka wybiera odpowiednią taśmę. Rozwiązanie tego typu ma kilka zalet. Po pierwsze w nawet w porównaniu do szafy HD, gęstość upakowania taśm jest znacznie większa. Po drugie, nie ma opóźnień związanych z wyładowywaniem wszystkich taśm z warstw wyższych, cały kosz wyciągany jest od razu i trzymany przez robota podczas całej operacji. Po trzecie - robot jest zdolny do przenoszenia 10 taśm za jednym razem, co znacznie przyśpiesza operacje wykonywane na grupie kaset.

Z innych cech T-Finity, to podobnie jak dla SL8500 istnieje możliwość łączenia ich w kompleks - w tej chwili wspierane jest połączenie do 4 jednostek, co sumarycznie daje wielkość 130.000 taśm i pod względem wielkości deklasuje każde inne rozwiązanie.

T-Finity posiada także wiele innychfunkcjonalności, których na próżno szukać u konkurencji . Wbudowana kontrola zużycia fizycznego taśm (MLM - Media Lifecycle Management) ostrzega nas gdy któraś z kasetek jest nadmiernie zużywana (zbyt dużo razy montowana lub np: nie używana od bardzo dawna) , podobny mechanizm kontroluje napędy (DLM - Drive Lifecycle Management).

Podsumowując T-Finity firmy Spectra Logic wygląda naprawdę imponująco, szkoda, że firma nie jest szerzej znana, przynajmniej w Polsce.

Podsumowanie:

Mimo uznawania przez wielu taśm magnetycznych za nośnik przestarzały i nieefektywny, cały czas mamy jeszcze do czynienia z dużymi środowiskami backupowymi ,opartymi właśnie na tej technologii. Taśmy są szczególnie popularne w organizacjach, które mają potrzeby czy wymogi składowania dużych ilości danych przez długie okresy czasu ( banki , firmy telekomunikacyjne itd...).

Dla tego rodzaju profilu przechowywanych danych, co do których dodatkowo jest bardzo mała szansa, że będziemy ich kiedykolwiek potrzbować( tzw: dane WORN - Write Once , Read Never) , taśma jest wciąż najbardziej ekonomicznym rozwiązanie. Dodatkowo, jeżeli wolumen danych jest naprawdę bardzo duży (dziesiątki petabajtów), nie ma innego spójnego rozwiązania, które mogłoby taką ilość informacji obsłużyć.

Oczywiście technologia taśmowa i same biblioteki mają także wady. Po pierwsze są awarie, które powodują zatrzymanie pracy każdej biblioteki i to niezależnie od ilości redundantnych i wzajemnie dublujących się części - upuszczona przez robota taśma, stanowiąca przeszkodę na torze ruchu, powoduje unieruchomienie całego urządzenia, aż do czasu ręcznego usunięcia jej przez operatora. Uszkodzony czujnik w drzwiach błędnie sygnalizujący ich otwarcie, także uniemożliwia pracę biblioteki, która nie pozwoli na ruch robotom w takiej sytuacji. Duża liczba części mechanicznych, od których z jednej strony wymaga się wielkiej precyzji, a z drugiej pracy z dużymi prędkościami i przyśpieszeniami (np.: roboty, chwytaki itd...) także może stanowić potencjalne źródło awarii gdyż zużywają się one podczas eksploatacji.

Mimo tych ograniczeń backup na taśmy magnetyczne jeszcze długo będzie wykorzystywany w dużych organizacjach, a potężne biblioteki taśmowe dominowały w serwerowniach największych firm.

Artykuł ten inicjalnie pokazał się w czasopiśmie DataCenter Manager ( http://datacentermanager.pl/duze-biblioteki/ )

sobota, 16 kwietnia 2011

Deduplikacja - kopie idą precz! (Część 7 - reszta)

Po wpisach poświęconych w całości każdemu z "dużych" graczy w obszarze deduplikacji, chciałbym wspomnieć o innych produktach posiadających taką funkcjonalność.

FalconStore:

FalconStore to duży gracz w segmencie wirtualnych bibliotek taśmowych i oczywiste jest że ma w swojej ofercie także rozwiązania deduplikacyjne. FalconStore SIR (Single Instance Repository) jest "główką" deduplikacyną, którą dołącza się do FalconStoreVTLa, a która przeprowadza usuwanie kopii danych. Sam FS SIR nie posiada swojej przestrzeni dyskowej i wymogiem jest aby na jego back-endzie umieścić macierz zewnętrzną do przechowywania zdeduplikowanych danych. Jest to rozwiązanie łatwo skalowalne pod względem wydajności ponieważ poszczególne elementy SIRa łączą się, tworząc w maksymalnej konfiguracji 4 nodowy klaster (z redundancją N+1).
Oprócz SIRa, który jest "dodatkiem" do wirtualnej biblioteki, FalconStore oferuje także rozwiązania nie wymagające środowiska VTLowego. FalconStore FDS (File Deduplication System) jest linią produktów zarówno całkowicie softwarowych (SAK - Software Application Kit) jak i dedykowanych jednostek zintegrowanych z zasobami dyskowymi (Series 100/300/600). Urządzenia te mogą wymieniać dane z serwerami za pomocą protokołów NFS/CIFS a także wykorzystując OST firmy Symantec.

Symantec:

Dwa produkty firmy Symantec umożliwiają deduplikację danych -Backup Exec i NetBackup. Obydwie aplikacje mają bardzo podobną funkcjonalność, a ich głównym zadaniem jest wykonywanie i zarządzanie backupami. Identyczna jest również technologia deduplikacji jaką stosują i nosi ona nazwę: Veritas PureDisk.
Jeżeli chodzi o różnice między tym dwoma produktami, to są one inaczej pozycjonowane: Exec jest przeznaczony do małych i średnich przedsiębiorstw, natomiast NetBackup to produkt dla największych klientów klasy enterprise. Sama deduplikacja może zachodzić w różnych miejscach - preferowane jest jej wykonanie na kliencie, zysujemy wtedy oszczędość nie tylko miejsca ale i wykorzystania łącza, ale jeżeli powoduje to zbyt duże obciążenie CPU klienta, to zarówno Exec jak i NetBackup umożliwia przeniesienie tego procesu na serwer.
Symantec ma w swojej ofercie także dedykowany sprzęt (tzw: appliance) deduplikacyjny. Jest to serwer z działającym na nim oprogramowaniem do deduplikacji. Są to dwa produkty oznaczone jako NetBackup 5000 i 5200

Oracle:

Mówiąc o deduplikacji w rozwiązaniach Oracle najlepiej jest skupić się na możliwościach jakie w tym zakresie oferuje ZFS. Co prawda Oracle ma także swojego "czysto sprzętowego" deduplikatora nazwanego StorageTek VTL Prime, ale tak naprawdę jest to "rebrandowany" FalconStore VTL + SIR.
Co do ZFSa to jest to system bardzo ciekawy i pełen bardzo interesujących rozwiązań tak że w zasadzie tylko jemu można by było poświęcić cały duży wpis, ale w tym momencie skupimy się wyłącznie na funkcjonalności deduplikacji.
Deduplikacja w ZFSie odbywa się na poziomie bloku danych i jako skróty wykorzystuje generowane przez filesystem 256bitowe sumy kontrolne. Jest to mechanizm bardzo podobny do tego znanego z Netapp-owego WAFLa, gdzie również jako skróty zastosowano, już istniejące dla celów kontroli, checksumy.
Tym co odróżnia deduplikację ZFSową od Netapp-owej jest fakt, iż odbywa się ona w czasie rzeczywistym.
Dodatkowo dla ZFSa można uruchomić specjalny tryb "Weryfikacji", który podczas deduplikowania dodatkowo sprawdza czy nie występuje kolizja skrótów. Z kolejnych "fajnych" możliwości ZFSa jest "szacowanie" ilości miejsca, jakie zostanie zaoszczędzone w wyniku włączenia deduplikacji - niestety nie miałem możliwości sprawdzić, jak takie szacowanie działa, ale gdyby ktoś był chętny niech zainteresuje się manualem do komendy zdb a szczególnie jej przełącznikiem -S.

CommVault:

CommVault to firma specjalizująca się w oprogramowaniu do backupu i archiwizacji. Jej flagowy produkt wykorzystujący deduplikację to Simpana (obecnie w wersji 9).
CommVault wykorzystuje specyficzną metodę wykonywania deduplikacji, którą można nazwać hybrydową - klient serwera backupowego dzieli dane na paczki oraz liczy z nich skróty, nie wykonuje jednak sprawdzania czy dane się powtarzają, są one jedynie kompresowane i wszystkie wysyłane do serwera. Dopiero na serwerze przeprowadzane jest samo deduplikowanie.
Kolejną dość nietypową własnością jaką ma Simpana to możliwość deduplikownia danych na taśmach magnetycznych. Dość ciężko znaleźć zastosowanie dla takiej funkcjonalności, ale jeżeli ktoś widzi taką potrzebę, to produkt CommVaultu mu ją zapewni.

NEC:

Firma NEC ma w swojej ofercie urządzenie HydraStore, które jest macierzą zbudowaną w technice RAIN ( Redundand Array of Independent Nodes) i posiada architekturę klastrową (skalowalną do 55 osobnych węzłów). Macierz ta posiada także mechanizmy deduplikacji wykonywanej "w locie" (inline)

ExaGrid:

ExaGrid jest firmą mocno nastawioną na produkty wykorzystujące deduplikację. Jej celem są głównie przedsiębiorstwa małej i średniej wielkości, choć widać, że chciała by także mocniej zaznaczyć swoją obecność w sektorze firm obsługujących korporacje klasy enterprise. Dedykowana seria urządzeń do dedplikacji firmy ExaGrid nosi nazwę EX. Mają one budowę klastrową (do 10 węzłów) i raczej niczym się nie wyróżnia od innych rozwiązań oferujących deduplikację na celu.

Quantum:

Seria deduplikatorów firmy Quantum to modele oznaczone jako DXi i obejmują sobą zarówno sektor małych (DXi4500), średnich (DXi6700) jak i dużych (DXi7500) przedsiębiorstw. Deduplikacja odbywa się na celu a deduplikator posiada funkcję "udawania" biblioteki taśmowej. Usuwanie kopii jest wykonane na poziomie bloku danych o zmiennej długości. Z przyjemnych dodatków można wspomnieć o module Advanced Reporting, który jest obecny w każdym modelu DXi (i bez dodatkowej licencji), a pozwala na monitorowanie stanu obecnego, historycznego oraz wyznaczania trendu bardzo wielu parametrów z zakresu capacity i wydajności.

Sepaton:

Mniej znana firma, która jednak ma dość ciekawe rozwiązania deduplikacyjne. Urządzenie które ma je zaimplementowane nosi nazwę S2100-ES2 i jest biblioteką taśmową, mogącą działać w klastrze i posiadającą możliwość deduplikowania danych. Interesujący jest sam poziom na którym deduplikacja się odbywa, ponieważ można go uznać za poziom bajtów - silnik deduplikacyjny obserwuje przychodzący do niego strumień danych (nie dzieli go na porcje) i w tym ciągłym strumieniu wyszukuje fragmenty, której już ma zeskładowane. Dodatkowo wykorzystywana jest tzw: content-aware deduplikacja, czyli samo urządzenie potrafi wykryć jakiego rodzaju dane są na niego przesyłane (jaka aplikacja backupowa jest używana) i odpowiednio do tego zmodyfikować swoje parametry pracy, tak aby zapewnić jak najlepszą i najwydajniejszą deduplikację. Sam mechanizm/silnik deduplikacji nosi nazwę DeltaStor.

CA:

Firma, o niezwykle długiej nazwie CA, zaznaczyła swoją obecność w obszarze deduplikacji, dołączając taką możliwość do swojego oprogramowania backupowego: CA ArcServe Backup. Deduplikacja odbywa się na serwerze (na celu) oraz jest wykonywana "w locie" (inline)

Asigra:

Na koniec rozwiązanie trochę egzotyczne: Asigra Cloud Backup. Jest to aplikacja backupowa, która po pierwsze składuje dane w chmurze (to nie jest jakiś ewenement, podobną funkcjonalność mają np: nowe wersje NetBackupa), a po drugie jest bezagentowa - dane z klientów są ściągne po wykonaniu pewnego skanowania poprzez sieć a następnie podłączenia się do danego zasobu i zeskładowania go. Dodatkowo dane są jeszcze deduplikowane przed zaciągnięciem tak, że obciążenie sieci mocno spada.

Na tym zakończy się cykl "deduplikacyjny". Początkowo planowałem 3 albo 4 wpisy, ale temat jest tak obszerny, że mimo 7 postów dalej nie jest wyczerpany.
Ufff. Dość o dyskach, kolejny wpis będzie o bibliotekach.

piątek, 1 kwietnia 2011

EMC Proven!!!

A pochwalę się.

Wczoraj przystąpiłem do egzaminu E20-001 i udało się zdać.

Wynik: 87% na wymagane 61%

Pierwszy krok zrobiony, teraz muszę się zastanowić co dalej.

W planie było przystąpienie do egzaminu z zakresu zarządzania macierzami Clariion ale ponieważ ta linia została ostatnio zamknięta przez EMC to nie wiem czy ma to większy sens.

Na razie cieszę się z EMCISA