Система резервного копирования (технологии)
От ошибок, в результате которых изменяются или удаляются данные и в которых виноваты операционная система или человек, не защищают ни RAID, ни кластер, ни любая другая технология обеспечения отказоустойчивости. Резервное копирование — одно из оптимальных решений для таких ситуаций, так как оно позволяет хранить копии разного срока давности, например за каждый день текущей недели, двухнедельной, месячной, полугодовой и годовой давности. Возможность использовать внешние съемные носители существенно снижает затраты на хранение информации, однако для некоторых задач больше подходят альтернативные технологии.
Каталог решений и проектов резервного копирования доступен на TAdviser.
Содержание |
Резервное копирование данных – является неотъемлемой частью функционирования корпоративных ИТ.
Стримеры - ленточные накопители
Стримеры - это наиболее распространенное средство резервного копирования, установленным в каждом банке и любом предприятии не только enterprise и среднего уровня, но и внутри многих ИТ-отделов малых предприятий. Они просты, надежны и недороги в обслуживании, а некоторые их недостатки до сих пор не смогли перевесить весьма существенные достоинства. Кстати, одним из самых больших потребителей картриджей на магнитной ленте является Google, используя их для внутреннего бэкапа.
Тем более что современные ленты намного более совершенны, чем их предтечи даже несколько лет назад. Это позволяет довести плотность хранения до впечатляющих значений (например, компактные картриджи LTO-5 выпускаются объемом до 3 Тб), а скорость чтения-записи сравнять с дисковыми системами. Помимо этого, хранение и организация backup-процессов на лентах до сих пор остается самым экономичным решением для бизнес-пользователей. Поэтому в случае, если ленточным хранилищем информации пользуются по расписанию и по назначению, мелкие неудобства (например, увеличенное время произвольного доступа) не будут существенны по сравнению с преимуществами ленточных накопителей. Ведь для создания резервных копий в сбалансированной ИТ-инфраструктуре тот же быстрый произвольный доступ к информации совершенно ни к чему.
Дисковые хранилища
Дисковые хранилища являются альтернативой ленточным накопителям. Сама идея использования массивов жестких дисков не новая, однако, буквально недавно такие хранилища стоили очень дорого, чтобы использовать их для бэкапа. По мнению ведущих специалистов HP, в России всего 3% компаний используют дисковые хранилища. Но благодаря снижению стоимости мегабайта хранения на жестких дисках, в последнее время стало возможным иногда использовать их для создания резервных копий. Сегодня одна из самых многообещающих реализаций – это системы RDX, когда защищенные дисковые картриджи, в специальных корпусах эмулируют работу ленточной библиотеки. Особенно преуспела в их производстве норвежская Tandberg.
В качестве наиболее результативного решения по обеспечению отказоустойчивости специалисты все чаще рекомендуют дополнять дисковое хранение ленточным и наоборот. Стоит отметить, особенность современных ИТ-систем: «горячих данных» (используются постоянно), обычно, не больше 20%. Нужные приложения и данные с которыми работают достаточно часто лучше всего хранить на дисках, а архив – на магнитных лентах и в этой роли им пока нет достойных конкурентов.
Технология «Теневого копирования» (Shadow Copy)
Технология теневого копирования реализована в Windows Server 2003, но сходное есть и в продуктах третьих разработчиков на разных платформах. Идея достаточно проста. В дисковом разделе по расписанию (по умолчанию в Shadow Copy — дважды в день) отслеживаются все изменения на самом низком уровне, и есть возможность восстановить состояние диска в целом или даже предыдущие версии отдельных файлов на момент создания теневой копии (возможность восстановить предыдущую версию имеется только при доступе к файлу через сетевой ресурс).
Преимущества теневых копий — в простоте пользования и возможности восстановить файл для самих пользователей без вмешательства администратора. К сожалению, копии «отъедают» место на жестком диске, нельзя задать копирование отдельных файлов или каталогов, невозможно гарантировать количество копий и нельзя установить хранение, например, копии месячной давности. Но в целом технология вполне заслуживает внимания. Подобный подход (автоматическое хранение старых версий) реализован и во многих системах документооборота. Следует заметить, что технология теневого копирования реализована и в Windows XP: через нее восстанавливается (откатывается) система и происходит резервное копирование в NTBackup, однако интерфейса для восстановления отдельных файлов, к сожалению, нет.
Системы контроля версий
Современные системы контроля версий (такие, как CVS, Subversion или коммерческие продукты) можно (и иногда довольно удобно) использовать не только для контроля версий исходного кода программ, но и для хранения версий, например, корпоративных документов. Недостаток такого подхода в его «чистом» виде состоит в том, что требуется приучить пользователя работать с такой системой, — это не всегда легко. Кроме того, с некоторыми типами двоичных файлов такие системы работают крайне неэффективно.
Восстановление данных на уровне приложения
Многие приложения, работающие с данными (например, системы управления базами данных) поддерживают журналы транзакций, откатывающие изменения к определенному моменту времени. Иногда это требует нетривиальных действий, как, например, в случае с Microsoft SQL Server. Никак не стоит сбрасывать со счетов такой способ. По использованию он весьма похож на резервную копию, но дает более полный контроль над тем, к какому моменту времени в прошлом следует восстановить систему.
2016: Российские учёные нашли способ быстрого восстановления данных
Старший научный сотрудник Института проблем передачи информации Российской академии наук (ИППИ РАН), профессор Университета Мэрилэнда (США) Александр Барг вместе с Ицхаком Тамо из Университета Тель-Авива (Израиль) и старшим научным сотрудником ИППИ РАН Алексеем Фроловым предложили границы параметров для кодов с локальным восстановлением, применяемых в распределенных системах хранения данных. Их статья вышла в журнале IEEE Transactions on Information Theory. В 2015 году за публикацию в том же издании Барг и Тамо получили одну из самых престижных премий в области теории информации и кодирования IEEE Information Theory Society Paper Award за обширное исследование кодов с локальным восстановлением[1].
Чтобы обезопасить пользователей от потери данных, любую информацию – как на персональных компьютерах, так и в виртуальных хранилищах (социальные сети, «облака») – распределяют на нескольких серверах или дисках. Ведь выход из строя дисков является частым явлением.«Группа Астра» в свободном доступе опубликовала курс по российской службе каталога ALD Pro для обучения администраторов
В современных распределенных системах существует 2 способа защиты данных:
1. Их дублирование (back-up) на нескольких дисках – если один из них выходит из строя, то для восстановления хранящейся на нем информации достаточно обратиться к одному диску с копией (или, по-другому, служебной информацией). Время восстановления минимальное, однако, общий объём информации очень большой, например, если данные повторяются 3 раза, то объем служебной информации – 200 процентов.
2. Использование кодов Рида-Соломона. В этом случае объём служебной информации минимален, но восстановление происходит значительно дольше. К примеру, Facebook использует код Рида-Соломона с параметрами (14, 10). В этом случае объем служебной информации – 40 процентов, но для восстановления одного диска нужно считать данные с 10 других.
Поскольку чаще всего выходит из строя именно один диск, то возникает задача построения кодов со свойством локального восстановления. Такие коды должны «уметь» восстанавливать испорченный диск с минимальным числом обращений к другим дискам. Объем служебной информации также должен быть минимален.
Впервые коды с локальным восстановлением были предложены сотрудниками компании Microsoft П. Гопаланом, С. Еханиным и др. Они установили оценку минимального объёма служебной информации при таком кодировании.
В своей работе Александр Барг вместе с Ицхаком Тамо предложили общий алгебраический метод кодирования данных, достигающий этой оценки, т.е. обладающий наилучшей возможной эффективностью.
В статье, опубликованной в июньском номере журнала IEEE Transactions on Information Theory, Тамо, Барг и Фролов исследовали обобщение кодов с локальным восстановлением и получили нижние и верхние границы для параметров кодов с многими восстанавливающими множествами, таких как объем служебной информации и минимальное расстояние.
«Мы рассматриваем случай, когда для каждого диска (символа большого алфавита) имеется несколько восстанавливающих множеств дисков. Это свойство гарантирует высокую доступность данных, к которым происходит частое обращение, ведь при выходе из строя диска, разные пользователи могут восстановить этот диск, обращаясь к разным серверам со служебными данными. Таким образом, достигается оптимальное распределение нагрузки в системе» – пояснил Алексей Фролов.
Примечания