Пътят към успеха
СЪВРЕМЕННА ИНФРАСТРУКТУРА ЗА ЗАПАЗВАНЕ НА ДАННИ\(^1\)
Резюме. Текстът представя факторите, които се взимат под влияние за изграждането на инфраструктура за запазване и съхранение на информация. Дадена е основна информация, която ще доведе да опазването на бизнеса в случай на бедствие.
Ключови думи: backup, storage, archive, information, disaster
Въведение. За да се ориентира в околния свят и да може да определя действията си, човек непрекъснато се нуждае от информация – прогноза за времето, програмата на телевизията, цените на стоките, работното време на магазините, седмичната програма, печелившите числа от тотото. Информацията придобива първостепенна роля във всички сфери на живота – управление, образование, научни изследвания, здравеопазване, администрация, развлечение и др. Думата „информация“ произлиза от латинската дума informacio. Това прави информацията едно от най-ценните неща в днешни дни.
Запазването, или бекъп (от английски – backup), е термин, използван в ИТ средите, отнасящ се до запазване и архивиране на информация/данни. Както и до тяхното възстановяване в случай на някакво „бедствие“. Това може да е повреда на файл, някакъв вид природно бедствие или най-срещаното – човешка грешка. Много от нас не осъзнават нуждата от запазване/архивиране, докато не се случи най-лошото.
Тук също трябва да изясним каква е разликата между запазване (Backup) и архивиране (Archive). Запазването (Backup) е действие, което цели бързото възстановяване на изгубените данни. Тези запазени копия се държат на една ръка разстояние. Архивът, от своя страна, са данни, които не са използвани толкова често като запазените. Те се държат в отдалечени съоръжения, специализирани за тази цел.
Преди да бъде имплементирано решение за съхранение на данните, трябва да се зададат няколко основни въпроса: коя е важната за нас информация; колко да бъде далечна във времето точката на възстановяване; имаме ли план за сигурност; каква ще е протекцията на версиите; каква е сегашната инфраструктура и каква – нуждата от допълнителна техника; и не на последно място – колко финансови средства можем да отделим за изпълнението на този план.
Изграждане на съвременна инфраструктура за запазване на данни
Съвременната инфраструктура за запазване на данни може да се обобщи до следната схема, дадена на фиг. 1 по-долу. Необходимите компоненти, управлявани от администратора (Administrator) на фигурата, са:
– сървъри за данни, които ще бъдат запазвани (File server, DB Server, Mail Server, Storage);
– сървър за управление на процеса на запазване на данните (Management server);
– транспортиращ сървър (Transporting/Media server);
– лентово устройство за съхранение (Tape library) и касета (Tape with backup information);
– отдалечена сграда, в която се съхраняват архивите/данните – обикновено намираща се далеч от седалището на фирмата. (offsite facility).
Фигура 1. Общ вид на съставните компоненти на съвременната инфраструктура за запазване на данни
Важна информация може да бъде всичко! Преди ИТ инженерът да започне с изпълнението на зададената му задача, е задължително той да се запознае с дейността на организацията, за която ще работи. Трябва да се съобразят фактори, като дали информацията може да се изнася извън държавата или Европейския съюз. Дали е задължена от съответните законодателни органи да пази за определен брой години тази информация. След като изпълним това действие, ние си отговаряме на първия въпрос.
За пример ще вземем адвокатска кантора. За такова предприятие е важно освен да държи досие за всеки служител и клиенти, така и своите документи за минали, сегашни и бъдещи дела. Информацията ще е от тип файлове – текстове, сканирани документи и няколко тип „бази данни“. Други фирма, която можем да ползваме за пример, е производител на храни. При тях освен споменатото по-горе имаме наличност и специално създадени софтуери за бизнес анализ (маркетинг), както и такива, които управляват производствените ленти. Там освен основните бази от данни (SQL и Oracle) имаме и немалко налични виртуални машини. А в някои случаи дори и на cloud услуги. След като сме наясно с този фактор, вече можем да преминем към следващата точка.
Колко да бъде далечна точката на възстановяване и времето? Recovery point objective и Recovery time objective – най-конструктивните фактори са тези два. Върху тях ще положим основите на нашата инфраструктура. Нека да ги разгледаме поотделно. Точка на възстановяването е отражението вследствие възстановяването на изгубените поради бедствие услуги или данни. Желателно е това време да е възможно най-близко до момента преди загубата. Ако използваме примера с адвокатската кантора – миналите дела можем да зачислим към архивирането. При тях няма нови промени, данните не се променят и датата, от която можем да ги възстановим, може да е далечна. Например дата, след която делото е приключило. Но ако това е активно дело, тази точка на възстановяване може да бъде от няколко часа до ден. Другият ни пример е програмата, управляваща поточната линия. При нея няма изменения. Веднъж загубена, тази програмата може да се възстанови напълно функционираща от момента, в който е инсталирана.
Точка за време на възстановяването е услуга. Буквално се разбира време, за което дадените загуби ще бъдат възстановени. Дейността от нашия пример с адвокатската кантора ще иска по-голямо време за възстановяване на минали дела. Докато програмата, управляваща производствената линия, трябва да се възстанови възможно най-бързо поради финансовите загуби, породени от липсата на производство.
Освен това за да бъдат запазени и/или архивирани данните, е важно да се вземе под внимание и сигурността на вече направените копия. Трябва да се вземе под внимание дали обслужваме отдалечени офиси, при които процесът протича през незащитена интернет връзка. Избраният от нас софтуер трябва да позволява криптиране на данните. Предпочитан метод за криптиране е AES-256 (Advanced Encryption Standard с 256 битов ключ). Това е първият и единственият публично достъпен шифроващ метод, одобрен от Националната агенция за сигурност на САЩ. Тук данните се криптират, преди да бъдат изпратени по мрежата, а когато се доставят, биват декриптирани.
Друг метод е тези данни да бъдат допълнително криптирани, докато биват записвани на съответните устройства, който ще разгледаме малко по-късно. Криптирането става, докато информацията бива записвана върху носителя, и само и единствено носител с дешифриращия ключ може да ги прочете. Има и физическа сигурност на носителите. Трябва да се знае кои хора упълномощаваме да управляват данните адекватно и отговорно. Устройствата, които записват и съхраняват данните, трябва да са изолирани от останала част от сградата, както и от останалата ИТ техника. Това изискване е задължително поради важността на информацията. Веднъж изнесени от сградата на клиента, те трябва да бъдат транспортирани според норми, които предпазват както от природни бедствия (пожар, електрическо/магнитно влияние), така и от злонамерени посегателства (кражба). Копията/архивите трябва да се държат на достатъчно, но не много отдалечено място. Фактори, като огнеупорни сейфове/куфари, влажност и адекватен одит, също трябва да се вземат под внимание.
Стратегия за запазване на данни. Версия на даденото копие може да се определи като дата или ден от седмицата, когато запазването на данните се е случило. Нека да го изясним с прост пример. Имаме сървър с два диска. Единият ни диск е системният, още познат ни като английската буква С или сисвол (от английски – sysvol, system volume). На другия диск имаме записани критични данни, нека за по-кратко да го наречем Дата. Искаме да имаме повече версии на Дата заради неговата роля. За този Дата диск ще правим всеки ден бекъп. А сисвол ще бъде запазван само веднъж в седмицата по-ради малкото промени, които се правят на него, и лесното му ръчно изграждане от началото. При Дата ще имаме следните версии – ДатаПонеделник, ДатаВторник … ДатаНеделя. А при сисвол ще имаме само СисволСъбота. Всяка версия има и своята протекция. Протекцията е период от време, за което дадената версия се пази от презаписване. След тази дата на протекция дадената версия може да бъде изтрита/презаписана. Можем да пазим версиите от понеделник до петък за 14 дни, а съботно/неделните – за 24 дни. Така, ако следваме горния пример:
За ДатаПонеделник с дата 1 март ще имат протекция до 15 март. След това тази версия може да бъде изтрита или презаписана. Съответно ДатаВторник ще бъде възможно да бъде изтрита на 16 март, и така нататък. При следващия понеделник на 8 март ще имаме две версии – тази от 1 и от 8 март. Докато СисволСъбота и ДатаСъбота от 6 март ще бъдат с протекция 4 седмици. Неофициална статистика показва, че 90% от възстановяването на дадена информация се случва до 10 дни, след като последно е работено по данните. Найчесто потребителите виждат, че нещо е повредено или са направили грешка, в понеделник или петък.
След като сме поставили нашите основи на стратегията, е време да се премине към практическата част от заданието. Тук е моментът да помислим и от инфраструктурна гледна точка. Ако тепърва се изгражда инфраструктурата – това е най-лесният и удобен вариант. При тази ситуация можем лесно да пресметнем какво ни е нужно, за да постигнем нашата цел. Примерно каква връзка ни трябва между устройствата за записване и сървърите с информацията, която искаме да запазим/архивираме. Кое поколение и модел устройства ни трябват за нашите нужди, както и много други фактори.
Предизвикателството е, когато вече имаме дадената инфраструктура и трябва да се съобразим с нейното състояние, за да вкараме нашето решение за запазване/архивиране на информация. Първо определяме така наречения bottleneck. Това е факторът, които може буквално да спъне нашата работа. Дали ще е капацитетът на мрежата, скоростта на запис/четене на устройствата, или ще е чисто или просто фирмена политика, ние трябва да сме наясно с тези фактори.
Вече разполагащи с цялостната визия за бизнеса на клиента, неговите желания и състоянието на инфраструктурата можем да започнем работа. Тук ще отчетени и финансовата гледна точка, докато проучваме нужната ни техника. Ще определим така наречения backup window. Това е диапазонът, в който ни е позволено да извършваме действието запазване/архивиране. Това време обичайно е след като е приключила дейността на клиента – най-често „прозорец“ от 19:00 ч. до 08:00 ч. Но ако даденият бизнес работи в няколко часови зони и имаме по-малко време, да кажем 4 или 6 часа? И за двата случая имаме предоставени два типа устройства за записване. Те могат да бъдат лентово или дисково базирани носители. Като, разбира се, могат да се комбинират, за да предоставят по-добри резултати.
Лентовите устройства са по-известни с името касети. Те представляват намотани на ролка магнитни ленти. Макар и принципът да е остарял, предимството при тях е липсата на каквато и да е електроника, водеща до неизправности. При правилно експлоатиране и запазване такава касета има възможност да стигне до десетки години годност. Друг важен фактор, които трябва да добавим, е цената. На най-новите и масово използвани касети от шесто поколение можем да поберем 6.25 терабайта (при компресия от 2,5:1) обем от информация, и то за около 40 долара на касета. Ако погледнем твърдите дискове, за същите пари можем да се сдобием само с 1 терабайт. За съжаление, финансовата гледна точка се променя, когато трябва да се закупят устройствата за записване и четене на тези касети. Така едно от тези устройства в самостоятелна конфигурация може да излезе около 2000 долара. При по-голяма конфигурация, наричана библиотека, цената може да достигне до 40 000 долара и по-вече. Устройства от този тип могат да бъдат използвани при един добър диапазон от свободно време, в което можем да извършим запазването на информация, както и след това използваните касети да бъдат изпратени на специализирано място за съхранение. Така се подсигуряваме, че дори и ако офисът/дата центърът или мястото, на което оригинално е съхранявана информация, бъде разрушено, ще можем да подновим действието на бизнеса в рамките на дни, дори и на часове.
Дисково базираните устройства са другата крайност. Там имаме голямо количество електроника, която може да се повреди по една или друга причина. Най-големият фактор, който надделява пред лентовите носители, е бързината на запис и четене и отстраняването на механичното движение. Тук записът на информация се извършва почти мигновено върху диска, независимо дали е твърд диск (HHD), или полупроводниково дисково устройство (SSD). Този тип устройства постигат още по-ефективно действие, използвайки RAID (Redundant Array of Independent Disks) технологията. Това е масив от независими дискове, които работят като един, позволявайки сигурност и бързо действие за записване и четене на информация. Придружени със специален софтуер за дедупликация и операционна система, тези дисково базирани устройства могат да запазят стотици гигабайтове информация за броени часове.
Хибридният вариант или сценарий, при който може да се ползват и двете технологии, най-вече се среща при гореспоменатия малък времеви диапазон. Тъй като дисковите устройства ни предлагат по-бърз запис и четене, първоначално можем да запазим информацията на тях, след което да бъде преместена върху лентови носители дори извън зададеното ни време. За този вариант ни е нужна самостоятелна мрежа между двете устройства. Така оставяме незасегната мрежата, която се ползва през работно време.
Сравнителен анализ на съвременните комерсиални приложения за запазване на данни
След като достигнем финансовата страна на инфраструктурата и платформите за сравнение на данни, трябва да вземем всичките гореизброени фактори и да ги приложим в зависимост от нашите нужди. Благодарение на бързо развиващия се ИТ сектор можем да използваме програми с отворен код или някои от корпоративните решения. Тук трябва да калкулираме различни многобройни фактори за създаването на такава инфраструктура.
Фигура 3.1. Графика с четирите квадранта на Гартнер, показваща лидерите, претендентите, визионерите и играчите в специализирана ниша от сектора „Запазване на информация“
Като заключение можем да кажем, че за да изградим такава инфраструктура, трябва да се поставим на мястото на бизнеса, да разберем условията и нуждите му. Трябва да вникнем в детайли в това, което ни се предоставя от модерния ИТ свят, и да се възползваме максимално от дадените ни похвати и инструменти.
NOTES / БЕЛЕЖКИ
1. Авторът е студент II курс, специалност „Компютърно администриране на софтуерни приложения“.
Консултант при разработване на настоящия текст е гл. ас. д-р инж. Страхил Соколов, катедра „Информационни технологии“, Факултет по телекомуникации и мениджмънт, Висше училище по телекомуникации и пощи. E -mail: strahil.sokolov@gmail.com
2. How to build a storage and backup strategy for your small business: http://www. cio.com/article/2378019/small-business/how-to-build-a-storage-and-backupstrategy-for-your-small-business.html
3. Backup infrastructure presents services prospects: http://searchitchannel. techtarget.com/tip/Backup-infrastructure-presents-services-prospects
4. Five ways to create a more efficient backup infrastructure: http://www. computerweekly.com/news/1326870/Five-ways-to-create-a-more-efficientbackup-infrastructure
5. Backup for dummies – Acronis Special Edition by Joel Berman 2014: https:// www.ahsay.com/blog/tag/backup-infrastructure-as-a-service/
6. HP Data Protector 8.xx and 9.xx. HP internal books
7. Gartner