poniedziałek, 19 kwietnia 2010

LTO

Jeszcze w nawiązaniu do poprzedniego posta.

LTO Consortium właśnie ogłosiło rozszerzenie planów rozwoju LTO dodając dwa nowe etapy: LTO7 i LTO8. Te ostatnie ma mieścić do 32TB danych na pojedynczej taśmie ( przy kompresji 2.5:1 ).



Jak widać w taśmach ciągle jest duży potencjał.
Jedyne co mnie zastanawia to fakt, że pojemność co generację się podwaja, a prędkość przesyłu danych rośnie bardzo wolno.

Źródło: http://www.lto-technology.com/technology/roadmap.html

niedziela, 18 kwietnia 2010

Taśmy magnetyczne. Koniec jest bliski?

Taśma jest przestarzała, zawodna , droga , wolna , nieopłacalna...
Precz z nią!

Mniej więcej takiej reakcji można się spodziewać jeżeli poruszy się temat taśm z dowolnym pracownikiem firmy EMC. Ostatnio usłyszałem nawet że taśma jest mniej wydajna energetycznie niż dysk.
Marketing i propaganda największej firmy na rynku macierzy dyskowych są oczywiści mocno przesadzone i nie obiektywne ale trzeba przyznać, że coraz większa i tańsza przestrzeń jaką dostarczają nowe dyski SATA , połączona z deduplikacją sprawia, że przechowywanie backupów i archiwów na dyskach coraz bardziej się opłaca. Nadal jednak długotrwałe przechowywanie dużej ilości danych ( szczególnie jeżeli będą one tylko bardzo sporadycznie potrzebne ) jest zdecydowanie tańsze przy użyciu taśm magnetycznych.



Jak sytuacja wygląda w tej chwili?


W skrócie całość zagadnienia z punktu widzenia hardware można rozdzielić na dwa zagadnienia: Napędy taśmowe / biblioteki.
Tym razem chcę się skupić wyłącznie na napędach i taśmach.

Można powiedzieć, że praktycznie na rynku pozostały trzy liczące się rozwiązania w zakresie napędów taśmowych, przy czym jedno z nich (LTO) ma sporą przewagę.

1. T10000B (StorageTek) -

StorageTek czyli specjaliści od taśm i bibliotek w 2005r połknięci przez Sun Microsystems, który z kolei ostatnio został połknięty przez Oracle. Najbardziej zaawansowany z ich napędów to T10000B - 1TB danych na taśmę ( natywnie, bez kompresji) , 120MB/sek , możliwy do zastosowania w środowisku mainframe ( interface FICON )

2. TS1130 (IBM) -
Najnowsze rozwiązanie IBMa jeżeli chodzi o napędy taśmowe ( wykluczając rozwiązania w standardach otwartych czyt: LTO ) to TS1130 znany także pod nazwą 3592 E06 ( 3 generacja napędów Jaguar ) - podobniej jak T10000B - 1TB natwynie na taśmę. Również możliwy do używania w środowisku mainframe ( interfacy ESCON i FICON )

3. LTO -
LTO czyli Linear Tape Open - otwarta technologia wykorzystywana w otwartych środowiskach :D Obecnie najpopularniejszy spośród używanych typów taśm i napędów. Pracami nad technologią LTO koordynuje LTO Consortium założone przez Segate, HP i IBMa. Cechą wyróżniającą pracę nad standardem LTO jest fakt iż od początku ma on określony i ściśle przestrzegany plan rozwoju. Począwszy od roku 2000 i LTO-1 średnio co dwa lata następuje wprowadzenie nowej technologii i podwojenie pojemności nośnika, aktualnie pierwsi producenci zaczynają wprowadzać napędy LTO-5 o natywnej pojemności kardriża 1,5TB i szybkości 145MB/sek. W planach jest jeszcze LTO-6 znowu podwajający ilość danch na taśmie. LTO 5 wprowadza także kilka nowych rozwiązań do których można zaliczyć podwójny port FC , czy wsparcie dla LTFSa ( Long Term File System ) który pozwala na swobodny dostęp do danych na taśmie na poziomie katalogów i plików.


Taśma vs Dysk

2TB dysk SATA to wydatek około 250-300$ , napęd LTO-5 w chwili obecnej kosztuje ponad 3500$ + taśmy po 160$. Już w tej chwili widać, że porównując ceny za 1 GB , dyski wcale nie są dużo droższe niż analogiczna przestrzeń na nośniku taśmowym. Biorąc pod uwagę, że pojemności i ceny dysków będą spadały dużo szybciej niż taśm, można by przypuszczać, że bardzo szybko kupowanie napędów i taśm magnetycznych całkowicie przestanie być opłacalne, dodatkowo gdy rozważymy użycie deduplikacji można by się zastanowić dlaczego wogóle ktoś jeszcze rozpatruje inne rozwiązania niż przechowywanie długoretencyjnych danych dyskach.

Odpowiedź dlaczego wciąż inwestuje się i rozbudowuje środowiska bibliotek i napędów leży we współczynniku o nazwie TCO ( Total Cost of Ownership ) - jest to, przytaczając definicję z Wikipedii:
całkowity koszt pozyskania, instalowania, użytkowania, utrzymywania i w końcu pozbycia się aktywów w firmie na przestrzeni określonego czasu.
W IT, większość kosztów związanych z danym zasobem związana jest z jego używaniem, sama cena zakupu stanowi tylko niewielką część w TCO. Taśma po nagraniu i odłożeniu na półkę zużywa zero energii, wytwarza zero ciepła. Dyski są w ciągłu ruchu, wirują z prękościami wielu tysięcy obrotów na minutę, wytwarzają duże ilości ciepłą ( kto stał kiedyś za szafą z macierzą ten wie ), wszystko to przekłada się na zwiększone zużycie energii, nie tylko pobieranej przez samo urządzenie ale także przez wszystkie systemy pomocnicze jakie są niezbędne w takim przypadku ( np: mocniejsze systemy chłodzenia/klimatyzacji na hali ). Dodatkowo na tej samej powierzchni da się przechować o wiele więcej danych na nośnikach magnetycznych niż na dyskach ( szczególnie jeżeli uwzględnimy nowe szafy HD do IBM-owskiej biblioteki TS3500 - to także ma niebagatelne znaczenie dal finalnej wartości TCO - za powierzchnia w halach jest bardzo droga.

Podsumowując - Prawdą jest , że dyski stają się coraz większe i tańsze, prawdą jest również że nowe rozwiązania technologiczne takie jak np: deduplikacja sprawieją, że przechowywanie backupów i archiwów danych staje się coraz barzdziej korzystne kosztowa, nieprawdą jest jednak że technologia taśmowa jest już wogóle nieopłacalna. Jeżeli liczymy współczynik który naprawdę jest reprezentacyjny jeżeli chodzi nam o koszta całościowe czyli TCO to użycie taśm jest wciąż najlepszym wyjściem dla danych o długich retencjach.
Dane z połowy 2008 roku mówią, że nawet przy zastosowaniu deduplikcaji współczynik opłacalności jest 5:1 na korzyść taśm ( http://www.reuters.com/article/idUS138399+28-May-2008+BW20080528 )

I jeszcze ciekawostka:
IBM i Fujifilm przedstawiły kasetę w standardzie LTO na której udało się zmieścić 35TB danych (70TB ze standardową kompresją 2:1 ). Co z tego wyniknie w praktyce dopiero zobaczymy, ale na 100% wieści o definitywnej śmierci napędów taśmowych można uznać za mocno przesadzone.


Do poczytania:
http://storagemojo.com/2010/01/26/will-a-70-tb-cartridge-save-lto
http://www.reuters.com/article/idUS138399+28-May-2008+BW20080528
http://searchdatabackup.techtarget.com/news/article/0,289142,sid187_gci1355225,00.html
http://www.storagefocus.pl/aktualnosci/backup/hp-ma-pierwsze-napedy-lto-5
http://www.storagefocus.pl/aktualnosci/backup/lto-5-wchodzi-rynek
http://www.storagereview.com/imation_now_shipping_lto_ultrium_generation_5_tape

środa, 14 kwietnia 2010

XIV - pozytywny szajs

Ostatnio miałem okazję porozmawiać trochę z jednym z inżynierów IBMa, specjalizującym się w technologii storage ( dokładniej to macierzami z serii DS8000 ). W pewnym momencie padło pytanie o kierunek rozwoju macierzy i dowiedziałem się, że od pewnego czasu wszystko zmierza w kierunku coraz większego szajsu. A zaraz potem, że szajsu w pozytywnym tego słowa znaczeniu i jako przykład podamy został XIV.


XIV - Storage Reinvented:

XIV działa na dyskach SATA, czyli dużych, wolnych i tanich. Można powiedzieć taki low-end wydajnościowy na dodatek w przeciwieństwie do "elitarnych" dysków FC używany także w normalnych desktopach przez co staje się jakiś taki pospolity :D
To już wiemy czemu XIV to "szajs", bo używa w dysków SATA.
Czemu jednak pozytywny?
Ponieważ ma całkiem ciekawą architekturę i mechanizm działania, która w dużym stopniu kompensuje niedostatki wynikające z zastosowania napędów SATA. XIV jest siecią (gridem) zbudowanym z węzłów - w minimalnej konfiguracji 6, maksymalnej 15. Każdy węzeł to 12 dysków + kontroler + cache.
Idźmy dalej: Wszystkie dane są automatycznie dzielone i rozrzucane po całej macierzy. Tutaj administrator ma niewiele do powiedzenia, macierz wie lepiej i robi tzw: "wide stripping" - czyli dzieli dane na małe kawałeczki i rozrzuca po wszystkich dostępnych dyskach. Oczywiście dane są mirrorowane i chronione dyskami "hot spare" ale ten poziom zabezpieczeń także narzucany jest automatycznie.
Co zyskujemy dzięki takiemu "rozczłonkowaniu" danych?

1. wydajność:
Przy odczycie/zapisie danych pracuje cała macierz więc wydajność poszczególnych dysków się sumuje.

2. szybszy rebuild po awarii:
Nie ma synchronizowania całego wielkiego (1TB) dysku hot spare , tutaj każdy dysk w macierzy wykonuje swój "kawałek" rebuildu przez co znowu ich wydajność się sumuje i cały proces trwa ok 30minut

3. Mniejsze ryzyko występienia DDF ( Double Disk Failure ) :
Szansa na to że dwa dyski padną jednocześnie w macierzy jest minimalna jeżeli weźmie się pod uwagę jedynie wyliczenia związane z MTBF danych dysków. Niestety sytuacja w rzeczywistości nie jest tak różowa. Uprośćmy sytuację i rozważmy strukturę RAID1 + hot spare. Jeżeli jeden dysk przestaje pracować, dane są bezpieczne na drugim dysku - chwilę po występieniu awarii uaktywnia się hot-spare i zaczyna proces odbudowy czyli przekopiowania wszystkich danych z pozostałego w mirrorze napędu na dysk "hot spare". Dla dużych dysków odbudowa może trwać i kilkanaście godzin a polega na odczytywaniu danych sektor po sektorze i zapisywaniu ich na drugiej stronie. Operacja ta jest naprawdę bardzo intensywnym i długotrwałym procesem i szansa że podczas tego "wysiłku" drugi z dysków padnie rośnie wielokrotnie.
W XIVie ten problem nie występuje ponieważ nie ma "hot sparów" w tradycyjnym tego słowa znaczeniu. Nasz mirror danych też jest porozrzucany po całej macierzy a i miejsce "hot spare" jest zarezerwowane po małym kawałeczku na wszystkich dyskach. Podczas awarii dane z prędkością wszystkich pozostałych napędów są "rebuildowane" na wolne miejsca tworzące "hot spare". Proces jest o wiele szybszy ( do 30 min ) i o wiele mniej obciąża same dyski. W efekcie niwelujemy zagrożenie drugą awarią związaną z intensywnym I/O na dysku.

Tyle w skrócie o pozytywnych aspektach "szajsu" :D

Coś z życia:

Jeżeli chodzi o moje osobiste doświadczenia z pracą z XIVem to jak narazie są bardzo malutkie. Śmieszne jest GUI które wygląda bardziej jak interfejs z Mac OSa niż program do zarządzania macierzą. Wszytko bardzo ładnie świeci na zielono choć jak słyszałem nie znaczy to jeszcze, że wszystko pracuje sprawnie. Możliwe że któryś z dysków jest do wymiany ale macierz nie chce mnie stresować komunikatami o błędach.
W porównaniu do ECC konsoli czy NaviSphere od EMC , czy choćby Sunowskiego CAMa , to zarządzanie XIVem wygląda bardzo cukierkowo i dziecinnie.
A sama macierz? Jak to macierz - buczy, grzeje, mruga lampkami ;)

Do poczytania:

7-reasons-why-ibms-xiv-isnt-perfect
ddf-debunked-xiv-two-years-later
xiv-drive-management
calculating-the-output-of-wide-striping.

I to będzie tyle jak na pierwszy post techniczny w tym blogu.

poniedziałek, 12 kwietnia 2010

Pierwszy post, po raz drugi

Emocje po tragedii sprzed 2 dni trochę opadły, więc może spróbuję zainaugurować ten blog jeszcze raz:

Będzie to blog typowo techniczny i skupiony głównie na zagadnieniu pamięci masowych i zarządzania nimi ( tzw: storage administration ). Opisywać w nim będę zarówno sprawy z którymi spotykam się w swoim życiu zawodowym jak i ( a w zasadzie głównie ) ciekawostki i interesujące informacje pojawiające się w innych blogach i specjalizowanych portalach( głównie anglojęzycznych ).
Stąd też nazwa bloga, za Wikipedią:
meta- – przedrostek oznaczający ponad, poza lub o czymś w innym kontekście

Postaram się pisząc tutaj, patrzeć właśnie z perspektywy "meta" czyli trochę jakby "nad" samym tematem i starając się wyławiać co bardziej interesujące aspekty.
Zobaczymy jak mi się uda.

Początkowo blog będzie pisany "sobie a muzą", jeżeli okaże się, że w miarę regularnie do niego zaglądami i dodaje nową treść to może za jakiś czas postaram się go bardziej wypromować. Pożyjemy-zobaczymy.

sobota, 10 kwietnia 2010

Smutna inauguracja...

Nigdy nie podejrzewałem, że blog do którego pisania zabierałem się już od pewnego czasu, będzie miał taką smutną inauguracje.

Dziś rano w Smoleńsku rozbił się rządowy samolot TU-154.
Na pokładzie był Prezydent Polski Lech Kaczyński, jego małżonka, kilkunastu posłów, szef Sztabu Generalnego WP, dowódcy wojsk lądowych, morskich, specjalnych, prezes NBP, prezes IPN i wielu innych ludzi którzy wpływali na losy i kształt Polski w ostatnich latach.

Nikt nie ocalał...