Надежный способ хранить данные

Как и где хранить данные в течение долгого времени

Многие задумываются о том, как сохранить данные на долгие годы, а те, кто нет, могут просто не знать, что компакт диск с фотографиями со свадьбы, видео с детского утренника или другой семейной и рабочей информацией с большой вероятностью нельзя будет прочитать лет через 5-10. Я задумываюсь. Как же в таком случае хранить эти данные?

В этой статье постараюсь рассказать максимально подробно о том, на каких накопителях хранение информации является надежным, а на каких — нет и каков срок хранения при разных условиях, где хранить данные, фотографии, документы и в каком виде это делать. Итак, наша цель — обеспечить сохранность и доступность данных в течение максимально возможного промежутка времени, хотя бы 100 лет.

Общие принципы хранения информации, продлевающие срок её жизни

Существуют наиболее общие принципы, которые применимы к любому типу информации, будь то фотографии, текст или файлы и способные увеличить вероятность успешного доступа к ней в будущем, среди них:

  • Чем больше количество копий, тем вероятнее, что данные проживут дольше: книга, напечатанная миллионным тиражом, фотография, распечатанная в нескольких экземплярах для каждого родственника и сохраненная в цифровом виде на разных накопителях, скорее всего будут храниться и быть доступными долго.
  • Следует избегать нестандартных способов хранения (во всяком случае, как единственного способа), экзотических и проприетарных форматов, языков (например, для документов лучше использовать ODF и TXT, а не DOCX и DOC).
  • Хранить информацию следует в несжатых форматах и в незашифрованном виде — в противном случае, даже незначительное повреждение целостности данных может сделать всю информацию недоступной. Например, если требуется надолго сохранить медиа файлы, то для звука лучше будет WAV, для фотографий — несжатые RAW, TIFF и BMP, для видео — кадры без сжатия, DV, хотя это не вполне возможно в быту, учитывая объемы видео в данных форматах.
  • Регулярная проверка целостности и доступности данных, повторное их сохранение с использованием новых появившихся способов и устройств.

Итак, с основными идеями, которые помогут нам оставить фото с телефона правнукам, разобрались, переходим к информации о различных накопителях.

Традиционные накопители и сроки сохранности информации на них

Наиболее распространенные способы хранения различного рода информации на сегодня — жесткие диски, Flash-накопители (SSD, USB флешки, карты памяти), оптические диски (CD, DVD, Blu-Ray) и не относящиеся к накопителям, но также служащие той же цели облачные хранилища (Dropbox, Яндекс Диск, Google Drive, OneDrive).

Какой из перечисленных способов является надежным способом сохранить данные? Предлагаю рассмотреть их по порядку (я веду речь лишь о бытовых способах: стримеры, например, учитывать не буду):

  • Жесткие диски — традиционные HDD наиболее часто используются для хранения самых разных данных. При обычном использовании их средний срок службы 3-10 лет (такая разница обусловлена как внешними факторами, так и качеством устройства). При этом: если вы запишите информацию на жесткий диск, отключите его от компьютера и положите в ящик стола, то данные можно будет считать без ошибок в течение примерно того же промежутка времени. Сохранность данных на жестком диске в значительной степени зависит от внешних воздействий: любые, даже не сильные удары и встряхивания, в меньшей степени — магнитные поля, могут послужить причиной преждевременного выхода накопителя из строя.
  • USBFlash,SSD — срок службы Flash накопителей в среднем около 5 лет. При этом, обычные флешки очень часто выходят из строя значительно раньше этого срока: достаточно одного статического разряда при подключении к компьютеру, чтобы данные стали недоступны. При условии записи важной информации и последующего отключения SSD или флешки для хранения, срок доступности данных составляет около 7-8 лет.
  • CD,DVD,Blu-Ray — из всех перечисленных, оптические диски обеспечивает наибольший срок хранения данных, способный превышать 100 лет, однако с данным типом накопителей связано и наибольше количество нюансов (например, записанная вами DVD болванка, скорее всего проживет лишь пару лет), а потому он будет рассмотрен отдельно далее в этой статье.
  • Облачные хранилища — срок хранения данных в облаках Google, Microsoft, Яндекс и других неизвестен. Скорее всего, будут храниться в течение долгого времени и пока это коммерчески оправдано для компании, предоставляющей услугу. Согласно лицензионным соглашениям (я прочитал два, для самых популярных хранилищ), ответственности за утрату данных эти компании не несут. Не стоит забывать о возможности потери своего аккаунта из-за действий злоумышленников и других непредвиденных обстоятельств (а их перечень действительно широк).

Итак, самым надежным и долговечным бытовым накопителем на данный момент времени является оптический компакт-диск (о чем я напишу подробно ниже). Однако, самые дешевые и удобные — это жесткие диски и облачные хранилища. Не следует пренебрегать какими-либо из этих способов, ведь их совместное использование повышает сохранность важных данных.

Хранение данных на оптических дисках CD, DVD, Blu-ray

Наверное, многие из вас сталкивались с информацией о том, что данные на CD-R или DVD может храниться десятки, если не сотни лет. А еще, думаю, среди читателей есть такие, кто что-то записал на диск, а когда захотел его посмотреть через год-три, этого сделать не удалось, хотя привод для чтения был исправен. В чем же дело?

Читайте также:  Способы обеспечения возврата денежных средств по кредитному договору

Обычные причины быстрой потери данных заключаются в низком качестве записываемого диска и выборе не того типа диска, неправильных условиях его хранения и неправильном режиме записи:

  • Перезаписываемые диски CD-RW, DVD-RW не предназначены для хранения данных, срок сохранности мал (в сравнении с дисками для однократной записи). В среднем, на CD-R информация хранится дольше, чем на DVD-R. По независимым тестам, почти все CD-R показали ожидаемый срок хранения более 15 лет. Такой же результат был только у 47 процентов проверенных DVD-R (тесты Библиотеки Конгресса и Национального Института Стандартов). Другие тесты показали средний срок службы CD-R в районе 30 лет. Про Blu-ray проверенной информации нет.
  • Дешевые болванки, продающиеся чуть ли не в продуктовом магазине по три рубля за штуку не предназначены для хранения данных. Использовать их для записи сколько-нибудь значимой информации без сохранения ее дубликата не следует вообще.
  • Не следует использовать запись в несколько сессий, рекомендуется использовать минимальную скорость записи, доступную для диска (с помощью соответствующих программ записи дисков).
  • Следует избегать нахождения дисков на солнечном свете, в других неблагоприятных условиях (перепады температуры, механические воздействия, повышенная влажность).
  • Качество записывающего привода также может влиять на сохранность записанных данных.

Выбор диска для записи информации

Записываемые диски отличаются материалом, на который производится запись, типом отражающей поверхности, твердостью поликарбонатной основы и, собственно, качеством изготовления. Говоря о последнем пункте, можно отметить, что один и тот же диск одной марки, произведенный в разных странах может сильно отличаться качеством.

В качестве записываемой поверхности оптических дисков в настоящее время используется цианин, фталоцианин или металлизированный Azo, в качестве отражающего слоя — золото, серебро или сплав серебра. В общем случае, оптимальным должно быть сочетание фталоцианина для записи (как самого устойчивого из перечисленных) и золотого отражающего слоя (золото — самый инертный материал, другие подвержены окислению). Однако, качественные диски могут иметь и другие сочетания этих характеристик.

К сожалению, в России диски для архивного хранения данных практически не продаются, в Интернете удалось найти лишь по одному магазину, продающему отличные DVD-R Mitsui MAM-A Gold Archival и JVC Taiyo Yuden по баснословной цене, а также Verbatim UltraLife Gold Archival, который, насколько я понял, Интернет-магазин привозит из США. Все перечисленные являются лидерами в сфере архивного хранения и обещают сохранность данных в районе 100 лет (а Mitsui заявляет о 300 годах для своих CD-R).

В список лучших записываемых дисков, помимо указанных выше можно включить диски Delkin Archival Gold, которые в России я не обнаружил вообще. Впрочем, вы всегда можете купить все перечисленные диски на Amazon.com или в другом иностранном интернет-магазине.

Из более распространенных дисков, которые можно найти в России и которые могут сохранить информацию десять и более лет, к качественным относятся:

  • Verbatim, производства Индии, Сингапура, ОАЭ или Тайваня.
  • Sony, произведенные в Тайване.

«Могут сохранить» относится и ко всем перечисленным дискам Archival Gold — все-таки, это не гарантия сохранности, а потому не стоит забывать о перечисленных в начале статьи принципах.

А теперь, обратите внимание на диаграмму внизу, на которой отражено увеличение количества ошибок чтения оптических дисков в зависимости от срока их нахождения в камере с агрессивной средой. График носит маркетинговый характер, да и шкала времени не размечена, но заставляет задать вопрос: а что это за марка — Millenniata, на дисках которой ошибки не появляются. Сейчас расскажу.

Millenniata M-Disk

Компания Millenniata предлагает диски однократной записи M-Disk DVD-R и M-Disk Blu-Ray, со сроком хранения видео, фотографий, документов и другой информации до 1000 лет. Главное отличие M-Disk от других записываемых компакт-дисков в использовании неорганического слоя из стеклоуглерода для записи (в других дисках используется органика): материал устойчив к коррозии, воздействиям температуры и света, влаги, кислот, щелочей и растворителей, по твердости сравним с кварцем.

При этом, если на обычных дисках под воздействием лазера меняется пигментация органической пленки, то в M-Disk в буквальном смысле выжигаются дырки в материале (правда не ясно, куда деваются продукты горения). В качестве основы, похоже, тоже используется не самый обычный поликарбонат. В одном из рекламных видео диск кипятят в воде, потом кладут в сухой лед, даже запекают в пицце и после этого он продолжает работать.

В России таких дисков я не обнаружил, но на том же Amazon они присутствуют в достаточном количестве и не так уж и дороги (примерно 100 рублей за диск M-Disk DVD-R и 200 за Blu-Ray). При этом, диски совместимы для чтения со всеми современными приводами. С октября 2014 компания Millenniata начинает сотрудничество с Verbatim, так что не исключаю, что скоро эти диски будут более популярны. Хотя, не уверен, что на нашем рынке.

Что касается записи, то чтобы записать M-Disk DVD-R требуется сертифицированный привод с эмблемой M-Disk, так как в них используется более мощный лазер (опять же, у нас таких не нашел, но на Amazon есть, от 2.5 тысяч рублей). Для записи M-Disk Blu-Ray подойдет любой современный привод для записи данного типа дисков.

Я планирую обзавестись таким приводом и набором чистых M-Disk в ближайшие месяц-два и, если вдруг тема интересна (отметьтесь в комментариях, да и статьей поделитесь в соцсетях), могу поэкспериментировать с их кипячением, выкладыванием на мороз и другими воздействиями, сравнить с обычными дисками и написать об этом (а может не поленюсь снять и видео).

Ну а пока закончу свою статью о том, где хранить данные: все, что знал, рассказал.

Читайте также:  Лечение по женски народными способами

Источник

Хранение данных. Или что такое NAS, SAN и прочие умные сокращения простыми словами

TL;DR: Вводная статья с описанием разных вариантов хранения данных. Будут рассмотрены принципы, описаны преимущества и недостатки, а также предпочтительные варианты использования.

Зачем это все?

Хранение данных — одно из важнейших направлений развития компьютеров, возникшее после появления энергонезависимых запоминающих устройств. Системы хранения данных разных масштабов применяются повсеместно: в банках, магазинах, предприятиях. По мере роста требований к хранимым данным растет сложность хранилищ данных.

Надежно хранить данные в больших объемах, а также выдерживать отказы физических носителей — весьма интересная и сложная инженерная задача.

Хранение данных

Под хранением обычно понимают запись данных на некоторые накопители данных, с целью их (данных) дальнейшего использования. Опустим исторические варианты организации хранения, рассмотрим подробнее классификацию систем хранения по разным критериям. Я выбрал следующие критерии для классификации: по способу подключения, по типу используемых носителей, по форме хранения данных, по реализации.

По способу подключения есть следующие варианты:

  • Внутреннее. Сюда относятся классическое подключение дисков в компьютерах, накопители данных устанавливаются непосредственно в том же корпусе, где и будут использоваться. Типовые шины для подключения — SATA, SAS, из устаревших — IDE, SCSI.


подключение дисков в сервере

  • Внешнее. Подразумевается подключение накопителей с использованием некоторой внешней шины, например FC, SAS, IB, либо с использованием высокоскоростных сетевых карт.


дисковая полка, подключаемая по FC

По типу используемых накопителей возможно выделить:

  • Дисковые. Предельно простой и вероятно наиболее распространенный вариант до сих пор, в качестве накопителей используются жесткие диски
  • Ленточные. В качестве накопителей используются запоминающие устройства с носителем на магнитной ленте. Наиболее частое применение — организация резервного копирования.
  • Flash. В качестве накопителей применяются твердотельные диски, они же SSD. Наиболее перспективный и быстрый способ организации хранилищ, по емкости SSD уже фактически сравнялись с жесткими дисками (местами и более емкие). Однако по стоимости хранения они все еще дороже.
  • Гибридные. Совмещающие в одной системе как жесткие диски, так и SSD. Являются промежуточным вариантом, совмещающим достоинства и недостатки дисковых и flash хранилищ.

Если рассматривать форму хранения данных, то явно выделяются следующие:

  • Файлы (именованные области данных). Наиболее популярный тип хранения данных — структура подразумевает хранение данных, одинаковое для пользователя и для накопителя.
  • Блоки. Одинаковые по размеру области, при этом структура данных задается пользователем. Характерной особенностью является оптимизация скорости доступа за счет отсутствия слоя преобразования блоки-файлы, присутствующего в предыдущем способе.
  • Объекты. Данные хранятся в плоской файловой структуре в виде объектов с метаданными.

По реализации достаточно сложно провести четкие границы, однако можно отметить:

  • аппаратные, например RAID и HBA контроллеры, специализированные СХД.


RAID контроллер от компании Fujitsu

  • Программные. Например реализации RAID, включая файловые системы (например, BtrFS), специализированные сетевые файловые системы (NFS) и протоколы (iSCSI), а также SDS


пример организации LVM с шифрованием и избыточностью в виртуальной машине Linux в облаке Azure

Давайте рассмотрим более детально некоторые технологии, их достоинства и недостатки.

Direct Attached Storage — это исторически первый вариант подключения носителей, применяемый до сих пор. Накопитель, с точки зрения компьютера, в котором он установлен, используется монопольно, обращение с накопителем происходит поблочно, обеспечивая максимальную скорость обмена данными с накопителем с минимальными задержками. Также это наиболее дешевый вариант организации системы хранения данных, однако не лишенный своих недостатков. К примеру если нужно организовать хранение данных предприятия на нескольких серверах, то такой способ организации не позволяет совместное использование дисков разных серверов между собой, так что система хранения данных будет не оптимальной: некоторые сервера будут испытывать недостаток дискового пространства, другие же — не будут полностью его утилизировать:

Конфигурации систем с единственным накопителем применяются чаще всего для нетребовательных нагрузок, обычно для домашнего применения. Для профессиональных целей, а также промышленного применения чаще всего используется несколько накопителей, объединенных в RAID-массив программно, либо с помощью аппаратной карты RAID для достижения отказоустойчивости и\или более высокой скорости работы, чем единичный накопитель. Также есть возможность организации кэширования наиболее часто используемых данных на более быстром, но менее емком твердотельном накопителе для достижения и большой емкости и большой скорости работы дисковой подсистемы компьютера.

Storage area network, она же сеть хранения данных, является технологией организации системы хранения данных с использованием выделенной сети, позволяя таким образом подключать диски к серверам с использованием специализированного оборудования. Так решается вопрос с утилизацией дискового пространства серверами, а также устраняются точки отказа, неизбежно присутствующие в системах хранения данных на основе DAS. Сеть хранения данных чаще всего использует технологию Fibre Channel, однако явной привязки к технологии передачи данных — нет. Накопители используются в блочном режиме, для общения с накопителями используются протоколы SCSI и NVMe, инкапсулируемые в кадры FC, либо в стандартные пакеты TCP, например в случае использования SAN на основе iSCSI.

Давайте разберем более детально устройство SAN, для этого логически разделим ее на две важных части, сервера с HBA и дисковые полки, как оконечные устройства, а также коммутаторы (в больших системах — маршрутизаторы) и кабели, как средства построения сети. HBA — специализированный контроллер, размещаемый в сервере, подключаемом к SAN. Через этот контроллер сервер будет «видеть» диски, размещаемые в дисковых полках. Сервера и дисковые полки не обязательно должны размещаться рядом, хотя для достижения высокой производительности и малых задержек это рекомендуется. Сервера и полки подключаются к коммутатору, который организует общую среду передачи данных. Коммутаторы могут также соединяться с собой с помощью межкоммутаторных соединений, совокупность всех коммутаторов и их соединений называется фабрикой. Есть разные варианты реализации фабрики, я не буду тут останавливаться подробно. Для отказоустойчивости рекомендуется подключать минимум две фабрики к каждому HBA в сервере (иногда ставят несколько HBA) и к каждой дисковой полке, чтобы коммутаторы не стали точкой отказа SAN.

Читайте также:  Вязание носков жаккард простым способом

Недостатками такой системы являются большая стоимость и сложность, поскольку для обеспечения отказоустойчивости требуется обеспечить несколько путей доступа (multipath) серверов к дисковым полкам, а значит, как минимум, задублировать фабрики. Также в силу физических ограничений (скорость света в общем и емкость передачи данных в информационной матрице коммутаторов в частности) хоть и существует возможность неограниченного подключения устройств между собой, на практике чаще всего есть ограничения по числу соединений (в том числе и между коммутаторами), числу дисковых полок и тому подобное.

Network attached storage, или сетевое файловое хранилище, представляет дисковые ресурсы в виде файлов (или объектов) с использованием сетевых протоколов, например NFS, SMB и прочих. Принципиально базируется на DAS, но ключевым отличием является предоставление общего файлового доступа. Так как работа ведется по сети — сама система хранения может быть сколько угодно далеко от потребителей (в разумных пределах разумеется), но это же является и недостатком в случае организации на предприятиях или в датацентрах, поскольку для работы утилизируется полоса пропускания основной сети — что, однако, может быть нивелировано с использованием выделенных сетевых карт для доступа к NAS. Также по сравнению с SAN упрощается работа клиентов, поскольку сервер NAS берет на себя все вопросы по общему доступу и т.п.

Unified storage

Универсальные системы, позволяющие совмещать в себе как функции NAS так и SAN. Чаще всего по реализации это SAN, в которой есть возможность активировать файловый доступ к дисковому пространству. Для этого устанавливаются дополнительные сетевые карты (или используются уже существующие, если SAN построена на их основе), после чего создается файловая система на некотором блочном устройстве — и уже она раздается по сети клиентам через некоторый файловый протокол, например NFS.

Software-defined storage — программно определяемое хранилище данных, основанное на DAS, при котором дисковые подсистемы нескольких серверов логически объединяются между собой в кластер, который дает своим клиентам доступ к общему дисковому пространству.

Наиболее яркими представителями являются GlusterFS и Ceph, но также подобные вещи можно сделать и традиционными средствами (например на основе LVM2, программной реализации iSCSI и NFS).

N.B. редактора: У вас есть возможность изучить технологию сетевого хранилища Ceph, чтобы использовать в своих проектах для повышения отказоустойчивости, на нашем практическим курсе по Ceph. В начале курса вы получите системные знания по базовым понятиям и терминам, а по окончании научитесь полноценно устанавливать, настраивать и управлять Ceph. Детали и полная программа курса здесь.


Пример SDS на основе GlusterFS

Из преимуществ SDS — можно построить отказоустойчивую производительную реплицируемую систему хранения данных с использованием обычного, возможно даже устаревшего оборудования. Если убрать зависимость от основной сети, то есть добавить выделенные сетевые карты для работы SDS, то получается решение с преимуществами больших SAN\NAS, но без присущих им недостатков. Я считаю, что за подобными системами — будущее, особенно с учетом того, что быстрая сетевая инфраструктура более универсальная (ее можно использовать и для других целей), а также дешевеет гораздо быстрее, чем специализированное оборудование для построения SAN. Недостатком можно назвать увеличение сложности по сравнению с обычным NAS, а также излишней перегруженностью (нужно больше оборудования) в условиях малых систем хранения данных.

Гиперконвергентные системы

Подавляющее большинство систем хранения данных используется для организации дисков виртуальных машин, при использовании SAN неизбежно происходит удорожание инфраструктуры. Но если объединить дисковые системы серверов с помощью SDS, а процессорные ресурсы и оперативную память с помощью гипервизоров отдавать виртуальным машинам, использующим дисковые ресурсы этой SDS — получится неплохо сэкономить. Такой подход с тесной интеграцией хранилища совместно с другими ресурсами называется гиперконвергентностью. Ключевой особенностью тут является способность почти бесконечного роста при нехватке ресурсов, поскольку если не хватает ресурсов, достаточно добавить еще один сервер с дисками к общей системе, чтобы нарастить ее. На практике обычно есть ограничения, но в целом наращивать получается гораздо проще, чем чистую SAN. Недостатком является обычно достаточно высокая стоимость подобных решений, но в целом совокупная стоимость владения обычно снижается.

Облака и эфемерные хранилища

Логическим продолжением перехода на виртуализацию является запуск сервисов в облаках. В предельном случае сервисы разбиваются на функции, запускаемые по требованию (бессерверные вычисления, serverless). Важной особенностью тут является отсутствие состояния, то есть сервисы запускаются по требованию и потенциально могут быть запущены столько экземпляров приложения, сколько требуется для текущей нагрузки. Большинство поставщиков (GCP, Azure, Amazon и прочие) облачных решений предлагают также и доступ к хранилищам, включая файловые и блочные, а также объектные. Некоторые предлагают дополнительно облачные базы, так что приложение, рассчитанное на запуск в таком облаке, легко может работать с подобными системами хранения данных. Для того, чтобы все работало, достаточно оплатить вовремя эти услуги, для небольших приложений поставщики вообще предлагают бесплатное использование ресурсов в течение некоторого срока, либо вообще навсегда.

Из недостатков: могут заблокировать аккаунт, на котором все работает, что может привести к простоям в работе. Также могут быть проблемы со связностью и\или доступностью таких сервисов по сети, поскольку такие хранилища полностью зависят от корректной и правильной работы глобальной сети.

Заключение

Надеюсь, статья была полезной не только новичкам. Предлагаю обсудить в комментариях дополнительные возможности систем хранения данных, написать о своем опыте построения систем хранения данных.

Источник

Оцените статью
Разные способы