Cyfroteka.pl

klikaj i czytaj online

Cyfro
Czytomierz
00293 013905 14457834 na godz. na dobę w sumie
Profesjonalne tworzenie kopii zapasowych i odzyskiwanie danych - książka
Profesjonalne tworzenie kopii zapasowych i odzyskiwanie danych - książka
Autor: Liczba stron: 336
Wydawca: Helion Język publikacji: polski
ISBN: 978-83-246-3417-0 Data wydania:
Lektor:
Kategoria: ebooki >> komputery i informatyka >> sieci komputerowe >> inne
Porównaj ceny (książka, ebook, audiobook).

Ochrona Twoich danych w epoce terabajtów

Ból, złość i bezsilność po utracie danych jest nie do opisania. Każdy, kogo spotkało takie nieszczęście, z pewnością to potwierdzi. Strata danych może zachwiać niejedną firmą lub domem. Zgadza się - domem! Pomyśl tylko o utracie cyfrowych zdjęć z pierwszych urodzin Twojej pociechy. Celem tej książki nie jest straszenie, ale dostarczanie sprawdzonych strategii tworzenia kopii danych, istotnych zarówno z punktu widzenia firmy, jak i osoby prywatnej.

W trakcie lektury dowiesz się, na jakich nośnikach możesz wykonywać kopie danych, poznasz rodzaje macierzy dysków oraz ich zalety i wady. W kolejnych rozdziałach zostaną Ci przedstawione zaawansowane aplikacje do tworzenia kopii bezpieczeństwa, takie jak Symantec NetBackup/BackupExec i CommVault Simpana, oraz różne strategie ich wykonywania. Nauczysz się tworzyć kopię baz danych (SQL Server, Oracle) oraz serwerów poczty (Exchange, Lotus Notes). Ponadto sprawdzisz, jak zweryfikować poprawność kopii, stworzyć raport z przeprowadzonego backupu oraz odtworzyć wybrane dane. Książka ta skupia się na zabezpieczaniu przed utratą danych w dużych środowiskach firmowych i korporacyjnych, jednak użytkownicy domowi, którym zależy na bezpieczeństwie prywatnych informacji, także znajdą tu wiele cennych wskazówek. Jeśli los zawartości Twoich dysków nie jest Ci obojętny, przeczytaj tę książkę!

Bądź pewny, że Twoje dane są bezpieczne!

Znajdź podobne książki Ostatnio czytane w tej kategorii

Darmowy fragment publikacji:

Tytuł oryginału: Pro Data Backup and Recovery Tłumaczenie: Grzegorz Kowalczyk (wstęp, rozdz. 1, 3 – 11), Witold Wrotek (rozdz. 2) ISBN: 978-83-246-3417-0 Original edition copyright © 2011 by Steven Nelson. All rights reserved. Polish edition copyright © 2012 by Helion S.A. All rights reserved. All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from the Publisher. Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną, fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji. Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich właścicieli. Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce. Wydawnictwo HELION ul. Kościuszki 1c, 44-100 GLIWICE tel. 32 231 22 19, 32 230 98 63 e-mail: helion@helion.pl WWW: http://helion.pl (księgarnia internetowa, katalog książek) Drogi Czytelniku! Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres http://helion.pl/user/opinie/prokop Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję. Printed in Poland. • Kup książkę • Poleć książkę • Oceń książkę • Księgarnia internetowa • Lubię to! » Nasza społeczność Spis treĂci O autorze ..............................................................................................................................9 O korektorze merytorycznym .............................................................................................10 PodziÚkowania ...................................................................................................................11 „ Rozdziaï 1. Kopie zapasowe i odtwarzanie danych — wprowadzenie ........................13 Kto powinien przeczytaÊ tÚ ksiÈĝkÚ? ..................................................................................................13 Kopie zapasowe i odtwarzanie danych — podstawowe zaïoĝenia .....................................................14 Kopie zapasowe ............................................................................................................................................15 Archiwa danych ............................................................................................................................................21 Parametry i definicje .....................................................................................................................................27 Podsumowanie ..................................................................................................................................30 „ Rozdziaï 2. Oprogramowanie do tworzenia kopii zapasowych ....................................31 CommVault Simpana .........................................................................................................................31 Historia i tïo ..................................................................................................................................................31 Terminologia .................................................................................................................................................31 Symantec NetBackup ........................................................................................................................40 Historia i tïo ..................................................................................................................................................40 NetBackup Master Server ............................................................................................................................42 Media Server ................................................................................................................................................45 Klienty ...........................................................................................................................................................45 Przepïyw danych w Ărodowisku NetBackup .................................................................................................46 Podsumowanie ..................................................................................................................................48 „ Rozdziaï 3. Fizyczne noĂniki danych ..............................................................................49 TaĂmy ................................................................................................................................................49 TaĂmy DLT (Digital Linear Tape) ...................................................................................................................50 TaĂmy LTO (Linear Tape Open) .....................................................................................................................50 TaĂmy Oracle/StorageTek T10000 (T10k) .....................................................................................................51 Charakterystyki noĂników taĂmowych .........................................................................................................51 Dyski ..................................................................................................................................................63 RAID 10 ........................................................................................................................................................64 RAID 5 ..........................................................................................................................................................65 RAID 6 ..........................................................................................................................................................65 Implementacja i wydajnoĂÊ macierzy RAID ..................................................................................................66 PamiÚci dyskowe NAS (Network Attached Storage) ....................................................................................74 Podsumowanie ..................................................................................................................................82 5 „ PROFESJONALNE TWORZENIE KOPII ZAPASOWYCH I ODZYSKIWANIE DANYCH „ Rozdziaï 4. Wirtualne noĂniki danych ........................................................................... 85 Wirtualne biblioteki taĂmowe ............................................................................................................ 85 Typy bibliotek VTL ........................................................................................................................................ 93 Modele alokacji przestrzeni wirtualnych noĂników taĂmowych ................................................................... 96 Dlaczego biblioteki VTL? ............................................................................................................................... 98 Inne noĂniki wirtualne i ich przyszïoĂÊ ........................................................................................................ 107 „ Rozdziaï 5. Nowe technologie noĂników ................................................................... 109 Deduplikacja .................................................................................................................................... 109 Deduplikacja na poziomie bloków o staïej wielkoĂci ................................................................................... 114 Deduplikacja na poziomie bloku o zmiennej wielkoĂci ................................................................................ 115 Ograniczenia typów danych: multimedia, tajemnice i Matka Natura .......................................................... 116 Rodzaje i definicje deduplikacji ................................................................................................................... 117 CiÈgïa ochrona danych i replikacja zdalna .................................................................................................. 126 Podsumowanie ................................................................................................................................ 132 „ Rozdziaï 6. Architektura aplikacji — CommVault ...................................................... 133 Ogólna konfiguracja ......................................................................................................................... 133 Typy pamiÚci dyskowych i bibliotek MagLib .............................................................................................. 133 Procesy zapisujÈce na dyskach .................................................................................................................. 134 Multipleksowanie ....................................................................................................................................... 135 Mechanizm Fill/Spill czy Spill/Fill? ............................................................................................................... 136 Zasady przechowywania danych ................................................................................................................ 136 Pary interfejsów danych ............................................................................................................................. 138 Struktura CommCell z jednym urzÈdzeniem docelowym .................................................................. 138 Struktura CommCell z pojedynczym serwerem MediaAgent ........................................................... 139 Zaawansowane metody poïÈczeñ z pamiÚciami masowymi ....................................................................... 143 Struktura CommCell z wieloma serwerami MediaAgent .................................................................. 147 Zasoby sieciowe ......................................................................................................................................... 148 Zasoby pamiÚci masowej ........................................................................................................................... 153 ¥rodowisko z wieloma strukturami CommCell ................................................................................. 161 Podsumowanie ................................................................................................................................ 163 „ Rozdziaï 7. Architektura aplikacji — NetBackup ....................................................... 165 Konfiguracja ogólna ......................................................................................................................... 165 Multipleksowanie i wielostrumieniowoĂÊ ................................................................................................... 166 Deduplikacja w trybie inline (twinning) ....................................................................................................... 167 Strojenie buforów pamiÚci .......................................................................................................................... 168 Zmienne SIZE_DATA_BUFFERS i NUMBER_DATA_BUFFERS ................................................................... 168 Zmienna NET_BUFFER_SZ ......................................................................................................................... 170 Tworzenie kopii dodatkowych (Vault/bpduplicate) ..................................................................................... 170 Konfiguracje ogólne ......................................................................................................................... 171 NetBackup Master z jednym urzÈdzeniem docelowym ............................................................................... 171 NetBackup Master z jednym serwerem Media Server ............................................................................... 171 NetBackup Master z wieloma serwerami Media Server ............................................................................. 179 ¥rodowisko z wieloma domenami pamiÚci masowej ...................................................................... 194 Podsumowanie ................................................................................................................................ 197 „ Rozdziaï 8. Strategie tworzenia kopii zapasowych .................................................... 199 Strategie ogólne .............................................................................................................................. 199 Systemy plików ............................................................................................................................... 200 Normalny system plików ............................................................................................................................ 201 Systemy plików o duĝej gÚstoĂci (HDFS) ................................................................................................... 205 Tworzenie kopii zapasowych na poziomie bloku danych ............................................................................ 206 6 „ SPIS TRE¥CI Deduplikacja po stronie ěródïa ....................................................................................................................208 Systemy plików — podsumowanie ............................................................................................................209 Bazy danych ....................................................................................................................................209 Kopie zapasowe dzienników baz danych .....................................................................................................210 Kopie zapasowe baz danych inicjowane lokalnie ........................................................................................211 Skrypty wykonywane przed zadaniem i po nim ..........................................................................................211 Migawkowe kopie zapasowe ......................................................................................................................212 SQL Server ..................................................................................................................................................217 Oracle .........................................................................................................................................................222 Serwery pocztowe ...........................................................................................................................229 Exchange ....................................................................................................................................................230 Lotus Notes ................................................................................................................................................236 Inne aplikacje ...................................................................................................................................239 Maszyny wirtualne .....................................................................................................................................239 Podsumowanie ................................................................................................................................243 „ Rozdziaï 9. Wszystko razem, czyli przykïadowe Ărodowiska tworzenia kopii zapasowych .......................................................................................245 Tworzenie kopii zapasowych w chmurze jako usïuga ......................................................................245 Bezpieczeñstwo usïug BaaS .......................................................................................................................246 Koszty usïugi BaaS .....................................................................................................................................247 ¥rodowiska z jednym serwerem kopii zapasowych .........................................................................249 Wybór urzÈdzeñ docelowych dla kopii zapasowych ...................................................................................250 WydajnoĂÊ systemu ...................................................................................................................................254 WydajnoĂÊ klienta ......................................................................................................................................256 ¥rodowisko z jednym serwerem kopii zapasowych i jednym serwerem zapisujÈcym .....................259 ¥rodowisko CommVault z serwerem MediaAgent ......................................................................................262 ¥rodowisko z jednym serwerem gïównym i wieloma serwerami zapisujÈcymi ...............................264 Deduplikacja — kiedy i gdzie? .........................................................................................................284 Deduplikacja po stronie celu .......................................................................................................................285 Deduplikacja po stronie ěródïa ....................................................................................................................285 Wdroĝenia w zdalnych oddziaïach firmy ..........................................................................................287 Zdalny oddziaï firmy ....................................................................................................................................289 Oddziaï regionalny .......................................................................................................................................291 Zdalne centra przetwarzania danych ...........................................................................................................293 Zdalne oddziaïy firmy — podsumowanie ....................................................................................................299 Tworzenie kopii zapasowych na duĝych odlegïoĂciach ....................................................................299 Tworzenie kopii zapasowych w Ărodowisku miÚdzynarodowym ................................................................301 Podsumowanie ................................................................................................................................302 „ Rozdziaï 10. Monitorowanie i raportowanie ...............................................................303 Oprogramowanie do tworzenia kopii zapasowych ...........................................................................306 Zadania zakoñczone powodzeniem lub niepowodzeniem ............................................................................307 Kody bïÚdów ...............................................................................................................................................307 SzybkoĂÊ tworzenia kopii zapasowych dla poszczególnych klientów ..........................................................308 IloĂÊ danych objÚtych ochronÈ ...................................................................................................................308 Liczba noĂników taĂmowych w puli ...........................................................................................................308 PojemnoĂÊ dyskowej pamiÚci masowej .....................................................................................................308 Lokalizacja aktualnej kopii zapasowej katalogu kopii zapasowych ..............................................................309 Serwery tworzÈce kopie zapasowe ..................................................................................................309 Stopieñ obciÈĝenia procesorów ..................................................................................................................310 Stopieñ wykorzystania pamiÚci operacyjnej ...............................................................................................310 Stopieñ obciÈĝenia poïÈczeñ sieciowych ....................................................................................................311 Wykorzystanie pamiÚci masowej ....................................................................................................312 7 „ PROFESJONALNE TWORZENIE KOPII ZAPASOWYCH I ODZYSKIWANIE DANYCH Elementy opcjonalne ....................................................................................................................... 313 WydajnoĂÊ klientów ................................................................................................................................... 313 WydajnoĂÊ poïÈczeñ sieciowych ................................................................................................................ 315 WydajnoĂÊ pamiÚci SAN i pamiÚci dyskowych ......................................................................................... 316 WartoĂci wspóïczynników deduplikacji ...................................................................................................... 318 Podsumowanie ................................................................................................................................ 319 „ Rozdziaï 11. Podsumowanie ....................................................................................... 321 Dobra kopia zapasowa jest najwaĝniejsza! ...................................................................................... 321 Obrona kosztów tworzenia kopii zapasowych ................................................................................. 322 Jeden rozmiar nie zadowoli wszystkich... ........................................................................................ 324 „ Skorowidz .................................................................................................................. 325 8 R O Z D Z I A ’ 5 . „ „ „ Nowe technologie noĂników Przez wiele lat tworzenie kopii zapasowych było zajęciem rutynowym — najpierw należało przenieść dane na taśmę magnetyczną, a następnie na wszelki wypadek utworzyć dodat- kowo kopię takiej taśmy. Po pewnym czasie na rynku pojawiły się biblioteki VTL, które spowodowały, że tworzenie kopii zapasowych stało się trochę mniej nudnym zajęciem, aczkolwiek nadal stanowiło tylko pewną modyfikację pierwowzoru. W ostatnich latach jednak pojawiło się kilka bardzo ciekawych technologii i metod, które wniosły nowe tchnie- nie w nieco już zastały świat kopii zapasowych. Co więcej, nowe platformy i systemy ope- racyjne, a zwłaszcza szeroko wprowadzana wirtualizacja serwerów, przyniosły nowe spo- soby tworzenia kopii zapasowych, które nie mieszczą się w ich tradycyjnej definicji. W tym rozdziale omówimy nowe technologie, takie jak deduplikacja, ciągła ochrona danych i apli- kacji zdalnych, VMWare Recovery API oraz przetwarzanie w chmurze. Deduplikacja Jedną z najczęściej dziś omawianych nowych technologii jest deduplikacja (ang. dedupli- cation), czyli proces analizy danych na poziomie podplikowym (na poziomie bloków danych) i zapisywanie tylko tych elementów, które do tej pory nie zostały zapisane w pamięci maso- wej. W niektórych definicjach deduplikacji analizy danych dokonuje się tylko na pozio- mie pliku, dzięki czemu pojedynczy plik występujący w wielu lokalizacjach (na przykład dokument edytora Word) jest zapisywany w kopii zapasowej tylko raz. Tak naprawdę jednak nie jest to pełna deduplikacja, a tylko proces nazywany SIS (ang. Single Instance Storage; przechowywanie tylko jednego egzemplarza obiektu). Podczas pełnej deduplikacji dane są odczytywane, dzielone na bloki i porównywane z blokami, które zostały już wcze- śniej zapisane w pamięci masowej. Jeżeli dany blok nie zostanie odnaleziony, zostaje zapi- sany w pamięci masowej i od tej pory bierze udział w kolejnych porównaniach. Odnale- zione bloki danych są zapisywane jako wskaźniki do istniejących bloków. Dzięki takiemu podejściu ilość rzeczywiście zapisywanych danych zostaje zmniejszona, ponieważ poje- dynczy blok danych jest zapisywany tylko raz. Stopień redukcji ilości zapisywanych danych jest mierzalny, ale nie wyrażamy go w ilości zapisywanych danych, ale jako stosunek danych przetwarzanych do danych zapisywanych — wartość ta nosi nazwę współczynnika dedu- plikacji (ang. deduplication ratio). Typowa, dobra wartość tego współczynnika wynosi 10:1, a w wielu przypadkach może regularnie osiągać nawet wartości rzędu 15:1 i więcej. Kilka słów na temat współczynnika deduplikacji (czasami używa się również określenia współczynnik redukcji danych; ang. data reduction ratio): z matematycznego punktu widzenia współczynnik deduplikacji jest prostą odwrotnością procentowej wartości reduk- cji danych, jak to zostało przedstawione poniżej: 109 PROFESJONALNE TWORZENIE KOPII ZAPASOWYCH I ODZYSKIWANIE DANYCH DD 1 redukcji  1 _ danych Na przykład: jeżeli wielkość kopii zapasowej dzięki zastosowaniu deduplikacji została zredukowana o 85 , wartość współczynnika deduplikacji będzie następująca: 1 DD DD  85,01 1 15,0 66,6 lub 1:6 DD Odwrotnie, jeżeli wartość współczynnika deduplikacji jest znana, można obliczyć, o ile został zredukowany rozmiar oryginalnej kopii zapasowej. Wartość ta pozwala się zoriento- wać, ile miejsca mogą zająć dane z takiej kopii po odzyskaniu. Aby oszacować procentową wartość redukcji danych, możemy się posłużyć następującym równaniem: redukcji danych § § ¨ ¨ © © 1 1 DD · ¸ ¹ · ¸ ¹ * 100 Załóżmy, że dostawca rozwiązania deklaruje, że dany produkt posiada współczynnik deduplikacji rzędu 12:1. O ile zostanie zredukowany rozmiar utworzonej kopii zapasowej? Odpowiedź przyniesie podstawienie danych do przedstawionego wcześniej wzoru: redukcji danych redukcji danych 1 1 12 § § ¨ ¨ © ©  083,01 · · ¸ ¸ ¹ ¹ * * 100 100 redukcji danych 916,0 * 100 redukcji danych 6,91 Ale w jaki sposób możemy wyznaczyć najpierw sam współczynnik deduplikacji? Można to zrobić, biorąc zestaw danych o znanym rozmiarze, poddać procesowi deduplikacji i spraw- dzić rozmiar zapisanego zestawu danych. Współczynnik deduplikacji DD możemy wyzna- czyć, dzieląc rozmiar skopiowanych danych przez rozmiar danych zapisanych w pamięci masowej, tak jak to ilustrujemy poniżej: skopiowany ch danych zapisanych danych rozmiar rozmiar DD Współczynnik deduplikacji, podobnie jak wiele innych statystyk, może być łatwo źle rozumiany lub przyczynić się do błędnej interpretacji użyteczności całego procesu dedu- plikacji. Wiele produktów wykorzystujących technologię deduplikacji jest reklamowanych przez dostawców jako osiągające współczynniki deduplikacji rzędu 10:1, 15:1, 20:1 czy nawet wyższe. Ciągle rosnące wartości współczynnika deduplikacji mogą sugerować, że 110 ROZDZIA’ 5. „ NOWE TECHNOLOGIE NO¥NIKÓW różnica pomiędzy współczynnikiem o wartości 10:1 a 20:1 będzie odpowiadała ogromnej różnicy w ilości danych zapisanych w pamięci masowej. Na pierwszy rzut oka to może tak właśnie wyglądać, ale przyjrzyjmy się rysunkowi 5.1, ilustrującemu wpływ współczynników deduplikacji na ilość zapisywanych danych dla kopii zapasowej o rozmiarze 1 TB. Wspóïczynnik deduplikacji 1:1 2:1 3:1 4:1 5:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 Procent redukcji danych 0,00 50,00 66,67 75,00 80,00 83,33 85,71 87,50 88,89 90,00 90,91 91,67 IloĂÊ zapisanych danych (w GB) 1024,00 512,00 341,33 256,00 204,80 170,67 146,29 128,00 113,78 102,40 93,09 85,33 Wspóïczynnik deduplikacji 13:1 14:1 15:1 16:1 17:1 18:1 19:1 20:1 21:1 22:1 23:1 24:1 25:1 Procent redukcji danych 92,31 92,86 93,33 93,75 94,12 94,44 94,74 95,00 95,24 95,45 95,65 95,83 96,00 IloĂÊ zapisanych danych (w GB) 78,77 73,14 68,27 64,00 60,24 56,89 53,89 51,20 48,76 46,55 44,52 42,67 40,96 Rysunek 5.1. Wpływ wartości współczynnika deduplikacji na ilość zapisanych danych Wykres i powiązana z nim tabela przedstawione na rysunku 5.1 pokazują relacje pomię- dzy wartością współczynnika deduplikacji, ilością danych zapisanych w pamięci masowej (dla kopii zapasowej o rozmiarze 1 TB) oraz wyrażonym w procentach współczynnikiem re- dukcji danych. W miarę wzrostu wartości współczynnika deduplikacji ilość danych zapisy- wanych w pamięci masowej maleje, aczkolwiek bardziej interesujące są różnice pomiędzy 111 PROFESJONALNE TWORZENIE KOPII ZAPASOWYCH I ODZYSKIWANIE DANYCH wartościami współczynnika deduplikacji w porównaniu z różnicami w ilości zapisywanych danych dla tych współczynników. Kiedy współczynnik deduplikacji osiąga coraz wyższe wartości, różnice w ilości zapisywanych danych są coraz mniejsze — co jest zachowaniem mniej lub bardziej zgodnym z naszymi oczekiwaniami. Co interesujące, różnica w ilości zapisywanych danych dla dwóch sąsiednich wartości współczynnika deduplikacji maleje w miarę wzrostu wartości tych współczynników. Zjawisko to zostało przedstawione na rysunku 5.2. Wspóïczynnik deduplikacji 1:1 2:1 3:1 4:1 5:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 IloĂÊ zapisanych danych (w GB) 1024,00 512,00 341,33 256,00 204,80 170,67 146,29 128,00 113,78 102,40 93,09 85,33 Róĝnica Wspóïczynnik deduplikacji 13:1 14:1 15:1 16:1 17:1 18:1 19:1 20:1 21:1 22:1 23:1 24:1 25:1 0,00 512,00 170,676 85,33 51,20 34,13 24,38 18,29 14,22 11,38 9,31 7,76 IloĂÊ zapisanych danych (w GB) 78,77 73,14 68,27 64,00 60,24 56,89 53,89 51,20 48,76 46,55 44,52 42,67 40,96 Róĝnica 6,56 5,63 4,88 4,27 3,76 3,35 2,99 2,69 2,44 2,22 2,02 1,86 1,71 Rysunek 5.2. Wpływ wartości współczynnika deduplikacji na różnice pomiędzy ilościami zapisanych danych (dla kopii zapasowej o rozmiarze 1 TB) W miarę wzrostu wartości współczynnika deduplikacji różnica w ilości zapisywanych danych, jak to zostało przedstawione w kolumnie Różnica, gwałtownie maleje, zwłaszcza w porównaniu z oryginalnym rozmiarem kopii zapasowej. Wniosek? Porównując różne 112 ROZDZIA’ 5. „ NOWE TECHNOLOGIE NO¥NIKÓW produkty na bazie osiąganych wartości współczynnika deduplikacji, warto pamiętać, że większe wartości tego współczynnika nie zawsze oznaczają, że różnice osiągów pomiędzy tymi produktami są znaczące — po prostu ocena osiąganych wartości współczynnika dedu- plikacji nie jest najlepszą metodą porównywania produktów. Na przykład: jeżeli zgodnie ze specyfikacją produkt A osiąga współczynnik deduplikacji rzędu 20:1, a produkt B jest reklamowany jako osiągający współczynnik deduplikacji na poziomie 25:1, to dla kopii zapasowej o rozmiarze 1 TB różnica w ilości zapisywanych w pamięci masowej danych wynosi tylko 10 GB — czyli mniej niż 1 oryginalnego rozmiaru 1 TB kopii zapasowej! Świetnie — deduplikacja umożliwia zatem zredukowanie ilości zapisywanych w pamięci masowej danych, ale co to w praktyce oznacza i jak ten proces działa? Aby to zilustrować, posłużymy się nieco nietypowym przykładem — jeżeli musiałbyś wykonać kopię zapa- sową roju miododajnych pszczół, to jaki byłby najbardziej efektywny sposób wykonania takiego zadania? Pierwszą operacją, jaką należałoby wykonać, byłoby zidentyfikowanie podstawowych elementów składowych pojedynczej pszczoły — takich jak skrzydła, nogi, czarne paski, żółte paski, korpus i głowa. Teraz powinieneś wykonać kopię zidentyfikowanych elementów pierwszej pszczoły — będzie to pierwszy zapisany zestaw elementów składowych pszczoły. Każdy taki element składowy będziemy w terminologii deduplikacji nazywali blokiem. Idąc dalej, pszczoły, jak wszystko inne, nie są identyczne — poszczególne pszczoły mają różną liczbę pasków, skrzydełka o różnej długości i rozmiarze i tak dalej, stąd w trakcie prze- twarzania i tworzenia kopii zapasowych kolejnych pszczół będziemy zapisywali tylko takie elementy nowej pszczoły, które różnią się od pozostałych, a wszystkie inne standardowe elementy, które zostały zapisane przy okazji przetwarzania poprzednich pszczół, będą „pomijane”. Teraz dodajmy jeszcze inne gatunki owadów pszczołowatych — powiedzmy, że oprócz pszczół miodnych będziemy jeszcze mieli trzmiele. Ze strukturalnego punktu widzenia oba gatunki owadów są takie same, zwiększa się tylko liczba różniących je elementów. Istnieją również pewne oczywiste podobieństwa — na przykład żółte i czarne paski. W metodologii deduplikacji w kopii zapasowej zapisane zostałyby tylko elementy różniące poszczególne owady i tylko po jednym czarnym i żółtym pasku — bo te elementy są wspólne dla obu gatunków. Aby teraz odzyskać nasz rój, należałoby pobrać z kopii zapasowej unikalne elementy każdej odzyskiwanej pszczoły, dodać do nich odpowiednią ilość elementów wspólnych (takich jak czarne i żółte paski) i pszczoła gotowa! Zwróciłeś może uwagę na bardzo ciekawy wniosek wypływający z powyższego przy- kładu? Kiedy do urządzenia dokonującego deduplikacji danych przesyłane są różnego typu pliki, w pamięci masowej zapisywane są tylko unikalne bloki danych. Co więcej, gdy wartość współczynnika deduplikacji spada, to dzieje się tak tylko dlatego, że zwiększają się proporcje pomiędzy nowymi blokami a blokami już zapisanymi, a nie dlatego, że sam proces deduplikacji staje się mniej efektywny. W środowiskach dedykowanych do tworze- nia kopii zapasowych ten efekt staje się bardzo wyraźny. „ Uwaga Im wiÚcej danych jest zapisanych w pamiÚci masowej urzÈdzenia deduplikujÈcego, tym mniejsza iloĂÊ danych jest zapisywana, poniewaĝ znaczÈco roĂnie prawdopodobieñstwo tego, ĝe identyczny blok danych zostaï juĝ kiedyĂ wczeĂniej zapisany. Mechanizm deduplikacji nie porównuje ze sobą bezpośrednio poszczególnych bloków danych, gdyż analizowanie każdego bloku danych i porównywanie go z już wcześniej zapi- sanymi byłoby operacją bardzo czasochłonną i pochłaniającą ogromne ilości zasobów systemu. Zamiast tego systemy deduplikujące używają specjalnego mechanizmu tworzenia 113 PROFESJONALNE TWORZENIE KOPII ZAPASOWYCH I ODZYSKIWANIE DANYCH sygnatur, które pozwalają na jednoznaczną identyfikację poszczególnych bloków danych. Sygnatury bloków danych tworzone są poprzez przeprowadzenie odpowiednich obliczeń na zawartości tych bloków — taki proces jest znany pod nazwę obliczania wartości funkcji skrótu (ang. hash calculation). Obliczona wartość funkcji skrótu jest unikalnym identyfi- katorem danego bloku danych oraz jego zawartości. Ponieważ wartości funkcji skrótu bloków danych mogą być sprawnie obliczane, łatwo ze sobą porównywane i szybko zapi- sywane w pamięci masowej, są wykorzystywane jako podstawa do identyfikacji bloków danych w systemach deduplikacji. Wartość funkcji skrótu jest po prostu liczbą — zwykle dużą, zwykle unikatową, ale ciągle liczbą. Ponieważ ta liczba jest wyznaczana za pomocą standardowego, znanego algorytmu, bazującego na wartości poszczególnych bajtów bloku danych, teoretycznie jest możliwe wygenerowanie dwóch takich samych wartości funkcji skrótu dla dwóch różnych zbiorów danych. W takiej sytuacji mamy do czynienia z tzw. kolizją funkcji skrótu (ang. hash collision). Kiedy wystąpi kolizja funkcji skrótu, nie ma żadnej możliwości określenia, czy wyliczona wartość pochodziła z jednego, czy z drugiego bloku danych. Jeżeli kolizja funkcji skrótu wystąpi w systemie deduplikującym, plik zawierający blok danych powodujący kolizję nie będzie mógł być poprawnie odtworzony. Dlaczego? Bloki danych, które generują kolizje funkcji skrótu, mają różne zawartości — jedna z nich orygi- nalnie należała do pliku, który chcemy odzyskać, ale druga pochodzi z zupełnie innego pliku. Jeżeli do odzyskiwania będzie użyty ten drugi blok danych, zawartość odzyskiwanego pliku zostanie uszkodzona i prawdopodobnie nie będziemy mogli z niego korzystać. Na szczęście prawdopodobieństwo wystąpienia kolizji, choć teoretycznie możliwe, to jednak jest ekstremalnie niskie. Wartości funkcji skrótów w zależności od użytego algo- rytmu mają zwykle od 53 do 160 bitów długości (co daje rozpiętość wartości funkcji skrótu od 0 do 1048). Nawet w tym najmniej korzystnym przypadku, jeżeli korzystamy z powszech- nie znanego i używanego algorytmu obliczania funkcji skrótu dającego wynik o długości 53 bitów, prawdopodobieństwo wystąpienia kolizji wynosi jak 1 do 10-20. Dla porównania możemy obliczyć, że (w zależności od przyjętej hipotezy) od początku znanego nam Wszech- świata upłynęło do tej pory mniej niż 1017 sekund. Zatem jeżeli chciałbyś kolejno wygene- rować wszystkie możliwe wartości funkcji skrótu, gdzie czas obliczania jednej wartości byłby poniżej sekundy, to i tak znalezienie wartości generującej kolizję zajęłoby więcej czasu, niż upłynęło do tej pory od Wielkiego Wybuchu. Deduplikacja na poziomie bloków o stałej wielkości W naszym przykładzie odnoszącym się do roju poszczególne elementy składowe pszczoły, lub inaczej poszczególne bloki składowe pszczoły, były takiej samej wielkości — możemy powiedzieć, że poszczególne pszczoły były dzielone zawsze dokładnie w taki sam sposób. Jeżeli chcemy zastosować deduplikację danych do plików w środowisku rzeczywistym, musimy mieć możliwość wyznaczenia odpowiedniego rozmiaru bloków danych w pliku. Istnieją dwa sposoby na osiągnięcie tego zamierzenia: możemy arbitralnie wybrać rozmiar bloku danych do deduplikacji lub określić rozmiar bloku na bazie wybranych znaczników w strumieniu danych. Wiele systemów deduplikujących wykorzystuje mechanizm bazujący na stałej wielkości bloku danych. Jest to rozwiązanie relatywnie proste do wdrożenia, ponieważ wejściowy strumień danych jest po prostu dzielony na bloki o stałej wielkości, które są następnie ana- lizowane, identyfikowane i porównywane z blokami zapisanymi już wcześniej. Jeżeli blok danych o danej sygnaturze już istnieje w pamięci masowej, zostaje pominięty i zamiast niego zapisany zostaje tylko wskaźnik do istniejącego bloku danych. Wadą takiego rozwią- zania jest to, co się dzieje, kiedy dane w strumieniu wejściowym ulegają zmianie, co zostało zilustrowane na rysunku 5.3. 114 ROZDZIA’ 5. „ NOWE TECHNOLOGIE NO¥NIKÓW Rysunek 5.3. Deduplikacja na poziomie bloków o stałej wielkości Pierwszy rysunek reprezentuje początkowy stan danych wejściowych, które zostają wstępnie zapisane jako prosta sekwencja bitów. Następnie dokonywany jest podział stru- mienia danych na bloki o stałej wielkości — w naszym przypadku każdy blok danych składa się z 4 bitów. Drugi rysunek ilustruje początkowy stan deduplikacji; jak widać w strumieniu danych zostały zidentyfikowane dwa identyczne bloki danych, które mogą zostać poddane procesowi deduplikacji. Następnie, na skutek innych operacji, na początku sekwencji danych dodawane są dwa bity, co powoduje przesunięcie miejsc podziału danych na bloki. Zauważ, co się teraz dzieje z deduplikacją. Pomimo iż nadal mamy dwa bloki danych mające iden- tyczną zawartość, to jednak wszystkie kolejne bloki danych są inne niż przy poprzednim podziale na bloki. Co więcej, owe dwa identyczne bloki danych mają teraz zupełnie inną zawartość niż dwa bloki po pierwszym podziale, nie mówiąc już o tym, że po nowym podziale zawartość niemal wszystkich pozostałych bloków danych zmieniła się w stosunku do stanu początkowego. Taki rodzaj „nowych” danych ma z punktu widzenia deduplikacji wyjątkowo negatywny wpływ na ilość zapisywanych w pamięci masowej danych i zna- cząco redukuje wartość współczynnika deduplikacji, powodując niepotrzebne zapisywanie w pamięci masowej dodatkowych danych. Ilość „nowych” danych będących rezultatem przypadkowego przesunięcia okna podziału na bloki staje się znacząca zwłaszcza w przy- padku bloków danych o większych rozmiarach. Większe rozmiary bloków danych mają większą liczbę kombinacji bitów wewnątrz bloku, a im większa liczba takich kombinacji, tym większe prawdopodobieństwo, że blok danych o takiej zawartości nie został jeszcze zapisany w pamięci masowej urządzenia deduplikującego. Deduplikacja na poziomie bloku o zmiennej wielkości Istnieje alternatywne rozwiązanie dla deduplikacji na poziomie bloku o stałej wielkości, które rozwiązuje wiele problemów powodujących zmniejszenie wydajności takiej dedu- plikacji: deduplikacja na poziomie bloku o zmiennej wielkości. W takim rozwiązaniu dokonywana jest analiza strumienia danych wejściowych i odszukiwane są odpowiednie „znaczniki”, które wyznaczają punkty podziału bloków danych. Aby to zilustrować, powróćmy do naszego poprzedniego przykładu i zastosujmy do niego scenariusz z dedu- plikacją na poziomie bloków o zmiennej wielkości (patrz rysunek 5.4). I znów analizę wejściowego strumienia danych rozpoczynamy od stanu początkowego i na bazie znaczników dokonujemy podziału na bloki. Wspomniane „znaczniki” są miarą prawdopodobieństwa zdarzenia polegającego na tym, że w analizowanym zbiorze danych pojawi się ponownie blok danych o zawartości wyznaczonej przez dany rozmiar bloku. W naszym przypadku rozmiary bloków wahają się od 2 do 6 bitów. Teraz do oryginalnego strumienia danych dodajemy dwa takie same bity jak w poprzednim przykładzie i dokonujemy 115 PROFESJONALNE TWORZENIE KOPII ZAPASOWYCH I ODZYSKIWANIE DANYCH Rysunek 5.4. Deduplikacja na poziomie bloków o zmiennej wielkości ponownego podziału na bloki. Dzięki odpowiedniemu mechanizmowi znaczników nie- mal wszystkie bloki danych mają swoje odpowiedniki w poprzednim, początkowym zesta- wie danych, dzięki czemu możemy tutaj osiągnąć przyzwoitą wartość współczynnika de- duplikacji i znacząco zredukować ilość danych zapisywanych w pamięci masowej. Oczywiście jest to bardzo uproszczony przykład, ale dobrze ilustruje zasadę podziału na bloki danych o zmiennej wielkości. W rzeczywistości algorytmy wyznaczające miejsca po- działu bloków danych są bardzo złożone i są zwykle opatentowane przez producentów poszczególnych rozwiązań. Ograniczenia typów danych: multimedia, tajemnice i Matka Natura Deduplikacja nie jest jednak uniwersalnym rozwiązaniem pozwalającym na efektywne two- rzenie kopii zapasowych wszystkich rodzajów danych. Rodzaje danych, które z pewnością nie będą najlepszymi kandydatami do deduplikacji, można określić jako MTN: multimedia, tajemnice i natura. Pliki multimedialne, takie jak .mp3, .jpg i wiele innych formatów, zazwyczaj zawie- rają skompresowane dane lub dane, w których z definicji nie ma zbyt wielu powtarzalnych wzorców. Dokonanie kompresji przed utworzeniem kopii zapasowej skutecznie eliminuje ze strumienia danych powtarzające się elementy (jak wiadomo, proces kompresji ma za zadanie usunięcie takich elementów i zastąpienie ich odpowiednimi znacznikami i wskaź- nikami). Większość plików multimedialnych wykorzystuje taki czy inny rodzaj kompresji w celu zmniejszenia rozmiaru pliku przy zachowaniu jakości przechowywanego obrazu czy dźwięku. Nawet pliki zapisane w bezstratnych formatach multimedialnych nie poddają się zbyt dobrze procesom kompresji czy deduplikacji. Aby zilustrować przyczyny tego zjawiska, wyobraź sobie, z czego składa się zdjęcie cyfrowe — to zbiór odpowiednio zako- dowanych danych, reprezentujących wartości kolorów składowych (czerwonego, zielonego i niebieskiego) dla poszczególnych pikseli. Każdy moment wykonywania zdjęcia jest w jakimś sensie unikalny i nigdy nie będzie można go dokładnie powtórzyć. Pomimo iż kolejne zdjęcia mogą mieć jakieś składniki wspólne, to jednak kompozycja kolejnych zdjęć będzie się od siebie różnić, nawet jeżeli poszczególne zdjęcia były wykonywane w szybkiej sekwencji. Z binarnego punktu widzenia prowadzi to do utworzenia wielu różniących się od siebie binarnych wzorców danych, które prawdopodobnie nigdy wcześniej nie były analizowane przez dany system deduplikujący, co z kolei prowadzi do konieczności ich zapisania i tym samym obniżenia współczynnika deduplikacji. Określenie natura dotyczy danych, które są gromadzone i przetwarzane w wyniku doświadczeń i badań naukowych, czy zbierane z sensorów analizujących zjawiska natu- 116 ROZDZIA’ 5. „ NOWE TECHNOLOGIE NO¥NIKÓW ralne, takie jak dane hydrologiczne czy sejsmiczne. Na pierwszy rzut oka rozkład wartości takich danych może być w dużej mierze losowy, co z punktu widzenia deduplikacji nie jest zbyt dobrym znakiem — dane losowe nie poddają się zbyt dobrze deduplikacji. Wreszcie tajemnice, czy inaczej mówiąc pliki zaszyfrowane, również nie są najlep- szymi kandydatami do deduplikacji. Ideą szyfrowania danych jest ukrycie ważnych infor- macji za ścianą pozornie losowych danych. Z kolei losowość danych stanowi przekleń- stwo dla deduplikacji. W zasadzie zaszyfrowane dane powinny zostać przed deduplikacją odszyfrowane lub w przeciwnym razie współczynnik deduplikacji nie będzie zbyt imponu- jący i zwykle zbliżony do 1:1. „ Uwaga Warto tutaj powiedzieÊ kilka sïów na temat bezpieczeñstwa danych poddawanych pro- cesowi deduplikacji. Po zapisaniu danych poddanych procesowi deduplikacji moĝemy powiedzieÊ, ĝe zostaïy one w pewnym stopniu zaszyfrowane, poniewaĝ podczas takiej operacji kopiowane pliki zostajÈ rozbite na unikatowe bloki danych. Kolejne bloki danych mogÈ pochodziÊ z róĝnego typu plików binar- nych, tekstowych, dokumentów i tak dalej i nie sÈ powiÈzane z ĝadnym konkretnym typem plików. DziÚki temu poszczególne bloki nie zawierajÈ danych pozwalajÈcych na jednoznaczne przypisanie ich do konkretnych plików bez dogïÚbnej znajomoĂci technologii umoĝliwiajÈcej zrekonstruowanie caïego pliku z serii wskaěników i unikatowych bloków danych. Poniewaĝ wszystkie bloki danych sÈ poindek- sowane, a indeks nie ma ĝadnego powiÈzania z miejscem wystÈpienia danego bloku w pliku ěródïo- wym, dane zapisywane w pamiÚci masowej urzÈdzenia deduplikujÈcego majÈ charakter pseudolosowy, co jest caïkiem przyzwoitym sposobem szyfrowania. Ponowne szyfrowanie bloków danych po dedu- plikacji jest zbÚdne, poniewaĝ prowadzi do szyfrowania danych, które juĝ zostaïy w dosyÊ efektywny sposób „zaszyfrowane”. OczywiĂcie moĝna kwestionowaÊ bezpieczeñstwo danych zapisanych w ten sposób, ale w praktyce szanse na zrekonstruowanie wybranego pliku po deduplikacji, gdy ma siÚ do dyspozycji tylko zestaw wskaěników i unikatowych bloków danych i nie dysponuje siÚ szcze- góïowym opisem kolejnoĂci bloków, sÈ naprawdÚ minimalne. Rodzaje i definicje deduplikacji Omówiliśmy już teoretyczne zasady działania deduplikacji, ale w jaki sposób takie rozwią- zanie jest wdrażane w praktyce? Zazwyczaj system deduplikujący ma postać oprogramo- wania osadzonego w dedykowanym urządzeniu lub zainstalowanego jako część systemu tworzenia kopii zapasowych. Oprogramowanie deduplikujące może być zaimplementowane na jeden z dwóch sposobów: x Deduplikacja po stronie źródła (ang. Source-based deduplication) — w tym sce- nariuszu deduplikacja jest przeprowadzana po stronie klienta i do systemu pamięci masowej przesyłany jest wynikowy strumień danych. x Deduplikacja po stronie celu (ang. Target-based deduplication) — deduplikacja jest przeprowadzana przez urządzenie zapisujące dane w pamięci masowej po przesła- niu przez klienta pełnego strumienia danych kopii zapasowej. Oba rodzaje deduplikacji mają swoje zalety i ograniczenia uzależnione od rodzaju kopiowanych danych. dwa tryby przetwarzania danych: W modelu deduplikacji przeprowadzanej po stronie systemu docelowego możliwe są 117 PROFESJONALNE TWORZENIE KOPII ZAPASOWYCH I ODZYSKIWANIE DANYCH x W trybie inline deduplikacja danych jest wykonywana „w locie”, czyli wejściowy strumień danych jest przetwarzany w czasie rzeczywistym i od razu zapisywany w pamięci masowej. x W trybie post-process napływające dane są najpierw zapisywane w tymczasowym obszarze składowania (strefie buforowej) w tradycyjny sposób, a dopiero gdy ten proces się zakończy, są ponownie przeglądane i poddawane deduplikacji (patrz rysunek 5.5). Rysunek 5.5. Porównanie deduplikacji w trybie inline oraz w trybie post-process Zaletą deduplikacji w trybie inline jest to, że wymaga tylko przestrzeni pamięci maso- wej, która jest niezbędna do zapisywania danych po zakończeniu procesu deduplikacji. Dzięki temu rozmiar wymaganej pamięci masowej może być zredukowany do niezbęd- nego minimum. Z drugiej jednak strony, maksymalna przepustowość urządzenia pracu- jącego w takim trybie może być mniejsza niż w przypadku urządzeń pracujących w trybie post-process, ponieważ deduplikacja musi być przeprowadzona jeszcze przed zapisaniem danych w pamięci masowej. W zależności od architektury urządzenia proces zapisu w pamięci masowej lub odzyskiwania danych może być wolniejszy, ponieważ system będzie potrzebował dodatkowego czasu niezbędnego do analizy strumienia danych pod kątem powtarzających się bloków danych i odpowiednio zapisywania ich w pamięci masowej lub rekonstrukcji odzyskiwanego pliku. Deduplikacja w trybie inline jest najczęściej wykorzy- stywana w urządzeniach dedykowanych, takich jak EMC DataDomain, aczkolwiek jest również stosowana w rozwiązaniach NetBackup PureDisk oraz CommVault. Z drugiej strony, deduplikacja w trybie post-process wykorzystuje pewną część pamięci masowej jako tymczasowy obszar składowania dla strumienia danych kopii zapasowej. Takie podejście pozwala na zapisywanie strumienia danych z maksymalną szybkością, ale wymaga też zapewnienia dodatkowego obszaru pamięci masowej o znacznych rozmia- rach — tymczasowy obszar składowania musi być na tyle duży, aby pomieścić cały strumień danych przesyłany z klienta. Dopiero po zakończeniu zapisywania danych następuje proces deduplikacji i przetworzone dane są przenoszone do obszaru docelowego. Deduplikacja 118 ROZDZIA’ 5. „ NOWE TECHNOLOGIE NO¥NIKÓW w trybie post-process jest spotykana zarówno w rozwiązaniach dedykowanych, takich jak seria urządzeń Quantum Dxi, jak i w rozwiązaniach pomocniczych umożliwiających two- rzenie dodatkowych obrazów kopii zapasowych z systemów głównych na nośnikach dodat- kowych, takich jak proces Vault w aplikacji NetBackup czy proces AUX dla CommVault. Deduplikacja po stronie źródła Jednym z rodzajów deduplikacji jest deduplikacja po stronie źródła. W takim scenariuszu dane są deduplikowane przed wysłaniem przez sieć IP do zapisania w pamięci masowej. Poprzez wykonanie deduplikacji przez klienta można znacząco zredukować ilość danych przesyłanych przez sieć, ponieważ przesyłane są tylko unikatowe bloki danych — wszystkie inne, powtarzające się bloki danych zostały wcześniej wyeliminowane przez proces dedu- plikacji. Na rynku możemy spotkać dwa główne produkty oferujące ten rodzaj deduplikacji: NetBackup oraz EMC Avamar. Chociaż w naszej książce koncentrujemy się głównie na pakietach CommVault i NetBackup, warto zauważyć, że rozwiązania firmy CommVault, takie jak Simpana 8, wykorzystują proces deduplikacji po stronie celu, czyli przeprowadzają deduplikację dopiero po zapisaniu całego strumienia danych w tymczasowym obszarze składowania. Z pewnością warto sprawdzić, jak sprawuje się to rozwiązanie w porównaniu z Avamarem. W środowisku deduplikacji po stronie źródła klient przed wysłaniem danych na serwer wykorzystuje specjalny mechanizm do określenia, które bloki danych są unikatowe. Aby wykonać deduplikację danych po stronie źródła, standardowe klienty aplikacji NetBackup wyposażone są w specjalne wtyczki PureDisk (ang. PureDisk plug-ins), dzięki którym możliwa staje się lokalna deduplikacja przed wysłaniem strumienia danych na serwer kopii zapasowych poprzez sieć TCP/IP. Urządzeniem końcowym może być dedy- kowane urządzenie NetBackup lub inne rozwiązanie oparte na standardowym serwerze typu MS (ang. Media Server). Klient aplikacji NetBackup wysyła tylko unikatowe bloki danych i pozostawia ich dalsze przetwarzanie (dokończenie procesu deduplikacji) serwerowi kopii zapasowych (patrz rysunek 5.6). Opisane powyżej rozwiązanie zapewnia przeprowadzanie deduplikacji na poziomie poszczególnych klientów i dzięki temu pozwala na znaczące zredukowanie ilości danych przesyłanych po sieci na serwer. Jednak ze względu na fakt, że w takim modelu nie ma deduplikacji danych pomiędzy klientami, istnieje potencjalna możliwość, że taki sam pakiet danych zostanie przesłany na serwer z dwóch lub więcej różnych klientów. Jeśli jednak sam proces deduplikacji na serwerach działa poprawnie i rozmiar bloku danych jest względnie mały, to nie powinno to mieć większego wpływu na obciążenie sieci. Ponieważ klient deduplikacji pakietu NetBackup może korzystać ze zwykłego serwera MS, do przechowywania przetworzonych danych można wykorzystać standardowy serwer NetBackup. W takim rozwiązaniu podstawowa architektura strefy danych NetBackup nie ulega zmianie, aczkolwiek po stronie pamięci masowej implementacja infrastruktury ser- wera MS może być znacznie bardziej złożona (patrz rysunek 5.7). Więcej informacji na ten temat przedstawimy niebawem, podczas omawiania deduplikacji po stronie celu. Dla porównania: rozwiązanie EMC Avamar wykorzystuje zupełnie inny model. Co prawda nadal korzysta ono z deduplikacji danych po stronie klienta, ale oprócz tego zapew- nia deduplikację danych na poziomie globalnym. Zadanie to jest realizowane poprzez złożony proces, który generuje funkcje skrótu dla bloków danych na poziomie poszcze- gólnych klientów, a następnie przed wysłaniem na serwer porównuje z centralnym repo- zytorium. Takie rozwiązanie zapewnia wiele zalet. Po pierwsze, następuje dalsza redukcja ilości danych przesyłanych na serwer, ponieważ przesyłane są tylko bloki danych, które są unikatowe dla wszystkich klientów. Po drugie, kiedy do systemu podłączymy kolejnego klienta, to na serwer będą wysyłane z niego tylko takie bloki danych, które nie mają swoich odpowiedników w centralnej pamięci masowej. Z drugiej strony, pamięć masowa takiego rozwiązania jest dedykowanym urządzeniem, którego pojemność można zwiększać poprzez 119 PROFESJONALNE TWORZENIE KOPII ZAPASOWYCH I ODZYSKIWANIE DANYCH Rysunek 5.6. Deduplikacja danych na klientach NetBackup z wysyłaniem danych na serwer MS z dodatkową deduplikacją Rysunek 5.7. Deduplikacja danych na klientach NetBackup z wysyłaniem danych na serwer MS bez dodatkowej deduplikacji 120 ROZDZIA’ 5. „ NOWE TECHNOLOGIE NO¥NIKÓW dodawanie kolejnych węzłów. Ponieważ dodawanie nowych węzłów „pożera” całkiem spory obszar przestrzeni fizycznej, należy się starać, aby rozwiązanie EMC Avamar było stoso- wane tylko do przechowywania kopii zapasowych danych, które dobrze poddają się pro- cesowi deduplikacji, co pozwoli utrzymywać liczbę węzłów niezbędnych do poprawnego funkcjonowania całego systemu. Deduplikacja po stronie celu W przeciwieństwie do systemów omawianych w poprzednim punkcie w modelu dedupli- kacji po stronie celu sam proces deduplikacji jest wykonywany na urządzeniu docelowym dopiero po całkowitym zakończeniu zapisywania danych przesyłanych przez klientów. NetBackup oferuje kilka różnych rozwiązań wdrożenia deduplikacji po stronie celu, są to między innymi NetBackup Media Server with Deduplication, PureDisk oraz NetBackup PureDisk Option. Pakiet CommVault Simpana posiada tylko jedno rozwiązanie oparte na serwerze Media Agent, które zapewnia deduplikację danych po stronie celu dla struktury CommCell. Oprócz tych rozwiązań istnieją również inne, oparte na dedykowanych urzą- dzeniach do tworzenia kopii zapasowych, które są w pełni obsługiwane zarówno przez pakiet NetBackup, jak i CommVault. Urządzenia takie pozwalają na przejęcie procesu deduplikacji od serwerów MS/MA. Nasuwa się zatem pytanie: jeżeli zastosowanie rozwiązań deduplikacji po stronie źródła pozwala na znaczące zredukowanie ilości danych do przetwarzania jeszcze przed ich wysła- niem od klienta, dlaczego w ogóle stosować deduplikację po stronie celu? Istnieje co naj- mniej kilka powodów. Po pierwsze, deduplikacja po stronie źródła nie załatwia wszyst- kiego. Istnieją praktyczne ograniczenia ilości danych, które mogą zostać przetworzone w jednostce czasu nawet przy użyciu bardzo efektywnych algorytmów obliczania funkcji skrótu. Spowodowane jest to ograniczoną wydajnością lokalnych jednostek CPU, wydaj- nością docelowej pamięci masowej oraz — w przypadku rozwiązania EMC Avamar — koniecznością ciągłego komunikowania się z centralnym serwerem w celu sprawdzenia przed wysłaniem, czy poszczególne bloki danych są unikatowe. Systemy, w których duża ilość danych ulega częstym zmianom, generują w efekcie duże wolumeny danych, które muszą zostać przetworzone, i zwykle odznaczają się większą ilością unikatowych bloków danych, które muszą zostać wysłane na urządzenie docelowe. Deduplikacja po stronie źródła jest rozwiązaniem, które najlepiej sprawdza się dla źródeł danych o niskim współczynniku zmian oraz systemów, w których znajduje się ogromna liczba małych plików, znanych pod nazwą systemów plików o dużej gęstości (HDFS — ang. High Density File System). Dla innych zestawów danych, a zwłaszcza dla dużych baz danych, ilość zasobów syste- mowych niezbędnych do skutecznego przeprowadzenia procesu deduplikacji wymaga zasto- sowania specjalnego, dedykowanego rozwiązania — stąd potrzeba wprowadzenia scenariu- sza deduplikacji po stronie celu. NetBackup Dla takiego scenariusza NetBackup zapewnia dwa podstawowe rozwiązania w dwóch wariantach. Najbardziej podstawowym rozwiązaniem jest implementacja deduplikacji na serwerze NetBackup Media Server i zastosowanie do przechowywania przetworzonych danych dedykowanej jednostki DSU (ang. Disk Storage Unit). Ogólna architektura takiego rozwiązania nie różni się zbytnio od standardowego wdrożenia innych rozwiązań NetBackup, ale jednak istnieją pewne różnice. W modelu wykorzystującym serwer MS klienci wykonu- jący deduplikację danych, serwer MS zapisujący dane w pamięci masowej oraz dowolne inne serwery pomocnicze są grupowane w jednostki nazywane węzłami. Węzeł deduplika- cji wyznacza zasięg logicznej hermetyzacji granic obszaru, w którym zachodzi proces dedu- plikacji danych — klienci należący do innego węzła oraz ich dane nie są w żaden sposób deduplikowane ani zapisywane względem danych bieżącego węzła. 121 PROFESJONALNE TWORZENIE KOPII ZAPASOWYCH I ODZYSKIWANIE DANYCH Deduplikacja wielosystemowa, taka jak w opisanym wyżej modelu z serwerem MS, pozwala na ograniczenie zasięgu deduplikacji tylko do klientów powiązanych z danym ser- werem MS (patrz rysunek 5.8). Rysunek 5.8. Ograniczanie zasięgu deduplikacji na serwerach NetBackup Media Servers W typowych rozwiązaniach serwery MS zapewniają całość przetwarzania danych, włą- czając w to obliczanie wartości sygnatur poszczególnych bloków danych (zwanych czasem „odciskami palca” bloku danych), zarządzanie pamięcią masową, w której przechowywane są unikatowe bloki danych, oraz przesyłanie metadanych do głównego serwera zarządzają- cego całym procesem. Oprócz tego w każdym z węzłów można umieścić dodatkowy serwer pomocniczy LBS (ang. Load Balancing Server), którego zadaniem jest równomierne roz- kładanie obciążenia poszczególnych serwerów węzła. Server LBS pozwala na zmniejsze- nie obciążenia głównego serwera deduplikującego obliczeniami sygnatur bloków danych, a co za tym idzie, na zwiększenie wydajności całego rozwiązania (patrz rysunek 5.9). Z drugiej strony, instalowanie dodatkowego serwera LSB nie jest zalecane dopóty, dopóki zasoby głównego serwera deduplikującego nie są wyczerpane i serwer nie jest w stanie przetwarzać już większej ilości danych w oknie tworzenia kopii zapasowej. Jest to spowodowane tym, że serwer LSB wprowadza jednak pewne opóźnienia do procesu tworze- nia kopii zapasowych i dostarcza tylko usługi obliczeniowe. Serwer LSB nie ma żadnego wpływu na zarządzanie i zapis danych w pamięci masowej. Z kolei zaletą takiego rozwiązania jest to, że w obrębie danego węzła można używać zarówno klientów deduplikujących dane, jak i klientów pozbawionych tej możliwości. Dzięki temu deduplikacja danych po stronie źródła ma miejsce na przystosowanych do tego celu klientach, a dane przesyłane przez pozostałe klienty będą deduplikowane po stronie celu. Strumienie danych kopii zapasowych obu rodzajów klientów mogą być łączone i poddawane ostatecznej deduplikacji na głównym serwerze MS, co pozwala na utworzenie uniwersal- nego systemu łączącego deduplikację po stronie źródła i po stronie celu w jeden wydajny system tworzenia kopii zapasowych (patrz rysunek 5.10). 122 ROZDZIA’ 5. „ NOWE TECHNOLOGIE NO¥NIKÓW Rysunek 5.9. Zastosowanie serwera NetBackup LBS Rysunek 5.10. Uniwersalny system NetBackup Media Server z deduplikacją po stronie źródła i po stronie celu Kolejnym popularnym rozwiązaniem jest zastosowanie samodzielnego systemu Pure- Disk. Podczas gdy wtyczka PureDisk opisywana poprzednio udostępnia tylko podstawowe mechanizmy deduplikacji, pełny system PureDisk jest samodzielnym produktem (w zasa- dzie tylko do pewnego stopnia, ale o tym za chwilę), który udostępnia możliwość tworzenia deduplikowanych kopii zapasowych dla wielu klientów. Rozwiązanie PureDisk posiada unikalną architekturę, która jest zupełnie inna niż opisywany wcześniej węzeł deduplikacji oparty na serwerze MS. PureDisk Storage Pool to kolekcja serwerów i klientów, która zapew- nia skalowalną metodę deduplikacji danych przy użyciu urządzeń bazujących na stan- dardowych rozwiązaniach sprzętowych. PureDisk został utworzony w oparciu o system PDOS (ang. PureDisk Operating System), który działa na sprzęcie o standardowej architek- turze Intel x64. Dzięki temu PureDisk posiada wiele zalet urządzeń dedykowanych bez konieczności ponoszenia dodatkowych wydatków. 123 PROFESJONALNE TWORZENIE KOPII ZAPASOWYCH I ODZYSKIWANIE DANYCH Aby można było skorzystać z technologii PureDisk, trzeba w systemie zainstalować cały szereg dodatkowych usług, takich jak: x Storage Pool Authority — menedżer zarządzania pulą pamięci masowej. x Metabase Engine — baza danych przechowująca wybrane metadane opisujące klien- tów oraz ich kopie zapasowe. x Metabase Server — usługa zarządzająca zapytaniami do serwera Metabase Engine. x Content Router — usługa zarządzania obszarem przechowywania danych po dedu- plikacji. Poszczególne usługi muszą być zainstalowane na co najmniej dwóch serwerach, tak aby uzyskać odpowiednią wydajność pamięci masowej. Usługi Metabase Engine oraz Content Router to dwie usługi dodawane do puli pamięci masowej, pozwalające na jej rozbudowę (patrz rysunek 5.11). Rysunek 5.11. Rozwiązanie PureDisk1 1 Według podręcznika PureDisk: Getting Started Guide — Symantec Corp., str. 18. 124 ROZDZIA’ 5. „ NOWE TECHNOLOGIE NO¥NIKÓW Każda z tych usług jest zazwyczaj instalowana na osobnym serwerze fizycznym w celu zapewnienia odpowiedniej wydajności operacji wejścia-wyjścia oraz przetwarzania danych przesyłanych do puli pamięci masowej (ang. Storage Pool), jak nazywana jest ta kolekcja usług
Pobierz darmowy fragment (pdf)

Gdzie kupić całą publikację:

Profesjonalne tworzenie kopii zapasowych i odzyskiwanie danych
Autor:

Opinie na temat publikacji:


Inne popularne pozycje z tej kategorii:


Czytaj również:


Prowadzisz stronę lub blog? Wstaw link do fragmentu tej książki i współpracuj z Cyfroteką: