niedziela, 18 kwietnia 2010

Taśmy magnetyczne. Koniec jest bliski?

Taśma jest przestarzała, zawodna , droga , wolna , nieopłacalna...
Precz z nią!

Mniej więcej takiej reakcji można się spodziewać jeżeli poruszy się temat taśm z dowolnym pracownikiem firmy EMC. Ostatnio usłyszałem nawet że taśma jest mniej wydajna energetycznie niż dysk.
Marketing i propaganda największej firmy na rynku macierzy dyskowych są oczywiści mocno przesadzone i nie obiektywne ale trzeba przyznać, że coraz większa i tańsza przestrzeń jaką dostarczają nowe dyski SATA , połączona z deduplikacją sprawia, że przechowywanie backupów i archiwów na dyskach coraz bardziej się opłaca. Nadal jednak długotrwałe przechowywanie dużej ilości danych ( szczególnie jeżeli będą one tylko bardzo sporadycznie potrzebne ) jest zdecydowanie tańsze przy użyciu taśm magnetycznych.



Jak sytuacja wygląda w tej chwili?


W skrócie całość zagadnienia z punktu widzenia hardware można rozdzielić na dwa zagadnienia: Napędy taśmowe / biblioteki.
Tym razem chcę się skupić wyłącznie na napędach i taśmach.

Można powiedzieć, że praktycznie na rynku pozostały trzy liczące się rozwiązania w zakresie napędów taśmowych, przy czym jedno z nich (LTO) ma sporą przewagę.

1. T10000B (StorageTek) -

StorageTek czyli specjaliści od taśm i bibliotek w 2005r połknięci przez Sun Microsystems, który z kolei ostatnio został połknięty przez Oracle. Najbardziej zaawansowany z ich napędów to T10000B - 1TB danych na taśmę ( natywnie, bez kompresji) , 120MB/sek , możliwy do zastosowania w środowisku mainframe ( interface FICON )

2. TS1130 (IBM) -
Najnowsze rozwiązanie IBMa jeżeli chodzi o napędy taśmowe ( wykluczając rozwiązania w standardach otwartych czyt: LTO ) to TS1130 znany także pod nazwą 3592 E06 ( 3 generacja napędów Jaguar ) - podobniej jak T10000B - 1TB natwynie na taśmę. Również możliwy do używania w środowisku mainframe ( interfacy ESCON i FICON )

3. LTO -
LTO czyli Linear Tape Open - otwarta technologia wykorzystywana w otwartych środowiskach :D Obecnie najpopularniejszy spośród używanych typów taśm i napędów. Pracami nad technologią LTO koordynuje LTO Consortium założone przez Segate, HP i IBMa. Cechą wyróżniającą pracę nad standardem LTO jest fakt iż od początku ma on określony i ściśle przestrzegany plan rozwoju. Począwszy od roku 2000 i LTO-1 średnio co dwa lata następuje wprowadzenie nowej technologii i podwojenie pojemności nośnika, aktualnie pierwsi producenci zaczynają wprowadzać napędy LTO-5 o natywnej pojemności kardriża 1,5TB i szybkości 145MB/sek. W planach jest jeszcze LTO-6 znowu podwajający ilość danch na taśmie. LTO 5 wprowadza także kilka nowych rozwiązań do których można zaliczyć podwójny port FC , czy wsparcie dla LTFSa ( Long Term File System ) który pozwala na swobodny dostęp do danych na taśmie na poziomie katalogów i plików.


Taśma vs Dysk

2TB dysk SATA to wydatek około 250-300$ , napęd LTO-5 w chwili obecnej kosztuje ponad 3500$ + taśmy po 160$. Już w tej chwili widać, że porównując ceny za 1 GB , dyski wcale nie są dużo droższe niż analogiczna przestrzeń na nośniku taśmowym. Biorąc pod uwagę, że pojemności i ceny dysków będą spadały dużo szybciej niż taśm, można by przypuszczać, że bardzo szybko kupowanie napędów i taśm magnetycznych całkowicie przestanie być opłacalne, dodatkowo gdy rozważymy użycie deduplikacji można by się zastanowić dlaczego wogóle ktoś jeszcze rozpatruje inne rozwiązania niż przechowywanie długoretencyjnych danych dyskach.

Odpowiedź dlaczego wciąż inwestuje się i rozbudowuje środowiska bibliotek i napędów leży we współczynniku o nazwie TCO ( Total Cost of Ownership ) - jest to, przytaczając definicję z Wikipedii:
całkowity koszt pozyskania, instalowania, użytkowania, utrzymywania i w końcu pozbycia się aktywów w firmie na przestrzeni określonego czasu.
W IT, większość kosztów związanych z danym zasobem związana jest z jego używaniem, sama cena zakupu stanowi tylko niewielką część w TCO. Taśma po nagraniu i odłożeniu na półkę zużywa zero energii, wytwarza zero ciepła. Dyski są w ciągłu ruchu, wirują z prękościami wielu tysięcy obrotów na minutę, wytwarzają duże ilości ciepłą ( kto stał kiedyś za szafą z macierzą ten wie ), wszystko to przekłada się na zwiększone zużycie energii, nie tylko pobieranej przez samo urządzenie ale także przez wszystkie systemy pomocnicze jakie są niezbędne w takim przypadku ( np: mocniejsze systemy chłodzenia/klimatyzacji na hali ). Dodatkowo na tej samej powierzchni da się przechować o wiele więcej danych na nośnikach magnetycznych niż na dyskach ( szczególnie jeżeli uwzględnimy nowe szafy HD do IBM-owskiej biblioteki TS3500 - to także ma niebagatelne znaczenie dal finalnej wartości TCO - za powierzchnia w halach jest bardzo droga.

Podsumowując - Prawdą jest , że dyski stają się coraz większe i tańsze, prawdą jest również że nowe rozwiązania technologiczne takie jak np: deduplikacja sprawieją, że przechowywanie backupów i archiwów danych staje się coraz barzdziej korzystne kosztowa, nieprawdą jest jednak że technologia taśmowa jest już wogóle nieopłacalna. Jeżeli liczymy współczynik który naprawdę jest reprezentacyjny jeżeli chodzi nam o koszta całościowe czyli TCO to użycie taśm jest wciąż najlepszym wyjściem dla danych o długich retencjach.
Dane z połowy 2008 roku mówią, że nawet przy zastosowaniu deduplikcaji współczynik opłacalności jest 5:1 na korzyść taśm ( http://www.reuters.com/article/idUS138399+28-May-2008+BW20080528 )

I jeszcze ciekawostka:
IBM i Fujifilm przedstawiły kasetę w standardzie LTO na której udało się zmieścić 35TB danych (70TB ze standardową kompresją 2:1 ). Co z tego wyniknie w praktyce dopiero zobaczymy, ale na 100% wieści o definitywnej śmierci napędów taśmowych można uznać za mocno przesadzone.


Do poczytania:
http://storagemojo.com/2010/01/26/will-a-70-tb-cartridge-save-lto
http://www.reuters.com/article/idUS138399+28-May-2008+BW20080528
http://searchdatabackup.techtarget.com/news/article/0,289142,sid187_gci1355225,00.html
http://www.storagefocus.pl/aktualnosci/backup/hp-ma-pierwsze-napedy-lto-5
http://www.storagefocus.pl/aktualnosci/backup/lto-5-wchodzi-rynek
http://www.storagereview.com/imation_now_shipping_lto_ultrium_generation_5_tape

5 komentarzy:

  1. "Taśma po nagraniu i odłożeniu na półkę zużywa zero energii, wytwarza zero ciepła. Dyski są w ciągłym ruchu...."

    A czy nie można nagrać danych na dysk, odłączyć go i postawić na półkę? Wtedy także zuzywa zero energii i wytwarza zero ciepła.

    OdpowiedzUsuń
  2. Pewnie że można - problem zaczyna się gdy mamy 10000 dysków i codziennie po kilkaset zapisów oraz kilka, kilkanaście zleceń na odtworzenie jakiś archiwalnych danych. Trzeba by zatrudnić całą armię osób do biegania po serwerowni i podłączania/odłączania takich dysków 24h na dobę.
    Nie mówię już nawet o przeprowadzaniu takich procesów jak reklamacja (usunięcie danych których termin ważności już minął).

    Oczywiście mój komentarz należy traktować z przymrożeniem oka.

    A tak wogóle to są systemy w których wykorzystuje się dyski w taki sposób w jaki proponujesz. Nazywa się tą technologię RDX

    OdpowiedzUsuń
  3. Ale jak mamy 10 000 taśm po kilka zapisów dziennie to sytuacje będzie się różnić?
    Tak samo jak z usunęciem danych z taśm.

    P.S Pytam bo jestem lakiem, wiec proszę o wyrozumiałość.

    P.S 2 Świetny blog.

    OdpowiedzUsuń
  4. Ponieważ piszesz, że nie jesteś zaznajomiony z tematem, postaram sie pisać z jak najbardziej opisowo.
    Niestety wiąże się to z tym że wyjaśnienia będą bardzo ogólne i nieprecyzyjne. Nie mają na celu pokazania jak to naprawdę działa, tylko postarać się przedstawić ideę.


    1. Dysk jest nośnikiem danych tzw: online - tzn, ma być cały czas podłączony,a dane na nim znajdujące się powinny być prawie natychmiast dostępne.
    2. Taśma jest nośnikiem danych tzw: offline - wykorzysuje się ją na dane archiwalne i backupowe. Nagrywamy i w zasadzie z wyjątkiem jakiejś nietypowej sytuacji (np: awaria) nie powinniśmy do niej sięgać.

    Bezpośrednią konsekwencją takiego podziału jest sama budowa dysków i taśm - dysk jest przeznaczony do ciąłego podłaczenia, taśma do zapisania/odczytania i odłożenia.
    Porównanie bardzo koślawe ale spróbuj sobie wyobrazić że odłączasz dysk ze swojego destopa/laptopa a potem porównaj tą operację do wyciągnięcia taśmy magnetofonowej albo VHS z odtwarzacza.
    Obydwa działania są oczywiście możliwe ale jedno z nich wydaje się bardziej "naturalne" i mniej kłopotliwe do przeprowadzenia.

    Kolejna sprawa to kwestia skali i automatyzacji. Jeżeli taśm mamy bardzo dużo to ręczne wkładanie/wyciąganie ich z napędów staje się praktycznie niemożliwe. Potrzeba tutaj rozwiązania automatycznego i czymś takim jest urządzenie nazywane biblioteką taśmową. Jest to robot (zwykle składający się głownie z chwytaka w postaci szczęk/szczypiec) poruszający się po jakimś torze i wyciągający taśmy znapędów oraz odkladający je na specjalne półeczki - całość tego mechanizmu zamknięta jest w obudowie. Dzięki temu nie martwimy się dostarczaniem i odbieraniem taśm na każde rządanie napędów, robot kierowany przez oprogramowanie do backupu robi to za nas.
    Podobna automatyzacja z dyskami jest bardzo ciężka do wykonania, choćby z racji dużo bardziej skomplikowanego procesu fizycznego "odłączania" dysku od systemu - dla taśm magnetycznych napędy zawsze "wypluwają" je w ten sam sposób robot podjeżdża chwyta taśmę szczypcami i odwozi do "szufladki".

    -----------------------

    To co napisałem oczywiście nie wyczerpuje tematu różnic między taśmami a dyskami.
    Sprawa jest oczywista dla kogoś kto zajmuje się storage, ale dla ludzi spoza tej specjalizacji to juz takie łatwe nie jest (pamiętam sam mialem z tym spory kłopot kiedy zaczynałem swoją przygodę z pamięciami masowymi), a niestety tego typu zagadnienia, (proste dla jednych, egzotyczne dla innych) są najtrudniejsze do dobrego wytłumaczenia.
    Jakbyś dalej miał jakiś wątpliwości albo chciał dopytać o coś więcej to proszę o informację. Postaram się wyjaśnić lepiej.

    OdpowiedzUsuń
  5. Dzieki serdeczne :)

    OdpowiedzUsuń