Как устроены хранилища данных: обзор для новичков
Международный рынок гипермасштабируемых дата-центров растет с ежегодными темпами в 11%. Основные «драйверы» — предприятия, подключенные устройства и пользователи — они обеспечивают постоянное появление новых данных. Вместе с объемом рынка растут и требования к надежности хранения и уровню доступности данных.
Ключевой фактор, влияющий на оба критерия — системы хранения. Их классификация не ограничивается типами оборудования или брендами. В этой статье мы рассмотрим разновидности хранилищ — блочное, файловое и объектное — и определим, для каких целей подходит каждое из них.
Типы хранилищ и их различия
Хранение на уровне блоков лежит в основе работы традиционного жесткого диска или магнитной ленты. Файлы разбиваются на «кусочки» одинакового размера, каждый с собственным адресом, но без метаданных. Пример — ситуация, когда драйвер HDD пишет и считывает блоки по адресам на отформатированном диске. Такие СХД используются многими приложениями, например, большинством реляционных СУБД, в списке которых Oracle, DB2 и др. В сетях доступ к блочным хостам организуется за счет SAN с помощью протоколов Fibre Channel, iSCSI или AoE.
Файловая система — это промежуточное звено между блочной системой хранения и вводом-выводом приложений. Наиболее распространенным примером хранилища файлового типа является NAS. Здесь, данные хранятся как файлы и папки, собранные в иерархическую структуру, и доступны через клиентские интерфейсы по имени, названию каталога и др.
При этом следует отметить, что разделение «SAN — это только сетевые диски, а NAS — сетевая файловая система» искусственно. Когда появился протокол iSCSI, граница между ними начала размываться. Например, в начале нулевых компания NetApp стала предоставлять iSCSI на своих NAS, а EMC — «ставить» NAS-шлюзы на SAN-массивы. Это делалось для повышения удобства использования систем.
Что касается объектных хранилищ, то они отличаются от файловых и блочных отсутствием файловой системы. Древовидную структуру файлового хранилища здесь заменяет плоское адресное пространство. Никакой иерархии — просто объекты с уникальными идентификаторами, позволяющими пользователю или клиенту извлекать данные.
Марк Горос (Mark Goros), генеральный директор и соучредитель Carnigo, сравнивает такой способ организации со службой парковки, предполагающей выдачу автомобиля. Вы просто оставляете свою машину парковщику, который увозит её на стояночное место. Когда вы приходите забирать транспорт, то просто показываете талон — вам возвращают автомобиль. Вы не знаете, на каком парковочном месте он стоял.
Большинство объектных хранилищ позволяют прикреплять метаданные к объектам и агрегировать их в контейнеры. Таким образом, каждый объект в системе состоит из трех элементов: данных, метаданных и уникального идентификатора — присвоенного адреса. При этом объектное хранилище, в отличие от блочного, не ограничивает метаданные атрибутами файлов — здесь их можно настраивать.
/ 1cloud
Применимость систем хранения разных типов
Блочные хранилища
Блочные хранилища обладают набором инструментов, которые обеспечивают повышенную производительность: хост-адаптер шины разгружает процессор и освобождает его ресурсы для выполнения других задач. Поэтому блочные системы хранения часто используются для виртуализации. Также хорошо подходят для работы с базами данных.
Недостатками блочного хранилища являются высокая стоимость и сложность в управлении. Еще один минус блочных хранилищ (который относится и к файловым, о которых далее) — ограниченный объем метаданных. Любую дополнительную информацию приходится обрабатывать на уровне приложений и баз данных.
Файловые хранилища
Среди плюсов файловых хранилищ выделяют простоту. Файлу присваивается имя, он получает метаданные, а затем «находит» себе место в каталогах и подкаталогах. Файловые хранилища обычно дешевле по сравнению с блочными системами, а иерархическая топология удобна при обработке небольших объемов данных. Поэтому с их помощью организуются системы совместного использования файлов и системы локального архивирования.
Пожалуй, основной недостаток файлового хранилища — его «ограниченность». Трудности возникают по мере накопления большого количества данных — находить нужную информацию в куче папок и вложений становится трудно. По этой причине файловые системы не используются в дата-центрах, где важна скорость.
Объектные хранилища
Что касается объектных хранилищ, то они хорошо масштабируются, поэтому способны работать с петабайтами информации. По статистике, объем неструктурированных данных во всем мире достигнет 44 зеттабайт к 2020 году — это в 10 раз больше, чем было в 2013. Объектные хранилища, благодаря своей возможности работать с растущими объемами данных, стали стандартом для большинства из самых популярных сервисов в облаке: от Facebook до DropBox.
Такие хранилища, как Haystack Facebook, ежедневно пополняются 350 млн фотографий и хранят 240 млрд медиафайлов. Общий объем этих данных оценивается в 357 петабайт.
Хранение копий данных — это другая функция, с которой хорошо справляются объектные хранилища. По данным исследований, 70% информации лежит в архиве и редко изменяется. Например, такой информацией могут выступать резервные копии системы, необходимые для аварийного восстановления.
Но недостаточно просто хранить неструктурированные данные, иногда их нужно интерпретировать и организовывать. Файловые системы имеют ограничения в этом плане: управление метаданными, иерархией, резервным копированием — все это становится препятствием. Объектные хранилища оснащены внутренними механизмами для проверки корректности файлов и другими функциями, обеспечивающими доступность данных.
Плоское адресное пространство также выступает преимуществом объектных хранилищ — данные, расположенные на локальном или облачном сервере, извлекаются одинаково просто. Поэтому такие хранилища часто применяются для работы с Big Data и медиа. Например, их используют Netflix и Spotify. Кстати, возможности объектного хранилища сейчас доступны и в сервисе 1cloud.
Благодаря встроенным инструментам защиты данных с помощью объектного хранилища можно создать надежный географически распределенный резервный центр. Его API основан на HTTP, поэтому к нему можно получить доступ, например, через браузер или cURL. Чтобы отправить файл в хранилище объектов из браузера, можно прописать следующее:
После отправки к файлу добавляются необходимые метаданные. Для этого есть такой запрос:
Богатая метаинформация объектов позволит оптимизировать процесс хранения и минимизировать затраты на него. Эти достоинства — масштабируемость, расширяемость метаданных, высокая скорость доступа к информации — делают объектные системы хранения оптимальным выбором для облачных приложений.
Однако важно помнить, что для некоторых операций, например, работы с транзакционными рабочими нагрузками, эффективность решения уступает блочным хранилищам. А его интеграция может потребовать изменения логики приложения и рабочих процессов.
Источник
Все по полочкам. Способы хранения данных
Никогда еще нам не был доступен столь огромный объем информации, как сегодня: через интернет и файлообменные сети можно достать миллионы музыкальных композиций, видеоклипов, фильмов, игр и книг. А жесткий диск компьютера не резиновый, даже самые вместительные винчестеры забиваются за два-три месяца. При этом все данные кажутся важными и удалять нечего. Как решить проблему? Вариантов много. Сегодня мы определимся с тем, какой способ хранения данных можно считать оптимальным.
Вопрос «сколько памяти нужно любителю игр для полного счастья?» далеко не так прост, как может показаться на первый взгляд. 80, 160, 250 или 750 Гбайт? Нет, друзья. Памяти никогда не бывает много, просто человек устроен так, что ему всегда хочется большего. Сколько бы памяти ни было свободно, он всегда найдет, чем ее заполнить. В Императорском колледже Лондонского университета сейчас разрабатывается новый способ хранения данных, который позволит создать диски объемом 1 Тбайт. Впрочем, для начала лучше научиться правильно распределять нынешние объемы.
CD и DVD: есть еще порох
Начнем с самого простого и близкого сердцу. Можно купить вагон CD-болванок и записать на них все свои фотографии, музыку и фильмы, сжатые кодеком DivX. Технология CD-R проверена временем и обеспечивает сохранность данных сроком до 100 лет. Еще пять лет назад записываемые компакт-диски были самым распространенным и экономичным средством хранения данных.
Сегодня на рынке представлено огромное количество самых разных CD-R-болванок, но сложно сказать наверняка, какие из них хорошие, а какие плохие. Подвести могут даже носители от самых уважаемых компаний. А вообще, конечно, лучше не рисковать и взять компакты от Philips, Sony или TDK. При покупке большого количества дисков можно неплохо сэкономить.
Штуки шутками, но мало кто будет спорить с тем, что сейчас весь мир лежит у ног DVD. DVD вмещают значительно больше данных, нежели CD, и при выборе между CD и DVD следует отдать предпочтение последним. Тем более что пишущие DVD-приводы установлены в абсолютном большинстве современных компьютеров.
На DVD удобно хранить информацию, но даже емкости двухслойного DVD-носителя (8,5 Гбайт) в некоторых случаях недостаточно. Не говоря уже об однослойных DVD емкостью 4,7 Гбайт. На этом фоне выгодно смотрятся носители HD-DVD и Blu-ray. Оба формата призваны решить проблему хранения видео высокого разрешения — максимальная емкость дисков HD-DVD и Blu-ray на данный момент составляет 30 и 50 Гбайт соответственно. Бесспорно, HD-DVD и Blu-ray-приводы дадут сто очков вперед любому современному DVD-резаку, но вот стоят они пока безумные деньги. Так что списывать со счетов DVD-приводы пока рано.
Впрочем, мы отвлеклись. Вернемся к теме: в чем плюсы использования оптических носителей для хранения информации? Главные причины, по которым на этот способ хранения данных стоит обратить внимание, отсутствие необходимости больших разовых вложений и достаточно хорошее соотношение цены и удобства. Недостатки? Для того чтобы найти дистрибутив маленькой программы или альбом любимого музыкального исполнителя в коллекции из сотни CD/DVD-дисков, потребуется много времени.
CD-хранилища
Учет дисков лучше всего поручить CD-библиотеке-органайзеру. На рынке сегодня представлен целый ряд подобных устройств, но одни непомерно дорого стоят, а другие совершенно неудобны в работе. По-настоящему интересных моделей всего две: Dacal DC-300 и Novatron CD-Caddy CDM-751. Эти аппараты заполняют нишу между большими и дорогостоящими автоматическими дисковыми библиотеками-чейнджерами и элегантными пластмассовыми этажерками.
CD-Caddy CDM-751 стоит почти $500, зато владелец такого аппарата будет мило улыбаться над потугами друзей найти в своей CD-коллекции трехсотую серию «Симпсонов» или фотографию любимого кота.
С виду эта CD-библиотека напоминает стандартный компьютерный корпус. Размеры сравнимы. Изготовлена она не из металла, а из прочного пластика. Внутри находятся отсеки для 75 дисков без коробочек. Рядом с каждым из лотков есть световой индикатор, загорающийся при отсутствии CD на месте. В верхней части башни расположена клавиатура, которая пригодится, если надо достать диск без посредничества компьютера. В поисках нужного диска, может быть, придется перебрать все 75 лотков, но в конце концов поиск увенчается успехом.
Сразу после подключения библиотеки к компьютеру и установки программного обеспечения пользователю придется заполнить базу данных — прочитать оглавление диска, присвоить ему номер, отнести к одной из категорий (Software, Video, DVD, Game) и положить на место. Это нудно, но позволит избежать в будущем проблем с поиском нужного компакта.
Как мы уже отметили, CD-хранилище постоянно следит за наличием того или иного диска на своем месте и информирует об этом пользователя («поджигает» светодиод рядом с лотком, а также меняет цвет и шрифт записи под соответствующим номером в базе данных на компьютере). Так что если не игнорировать подсказку, ситуация с кучей скопившихся на столе болванок под слоем пыли будет исключена.
Хранилище размером с компьютер вмещает до 75 дисков и следит за тем, чтобы каждый из них был на своем месте.
Технические характеристики Novatron CD-Caddy CDM-751
Тип устройства: CD-библиотека
Емкость: 75 лотков
Интерфейс: USB 1.1
Среднее время доступа: 1,8 с
Управление: 11-клавишная цифровая клавиатура
Размеры: 195x280x521 мм
Для тех, в чьей коллекции больше 75 дисков, предназначена CD-библиотека Dacal DC-300. Это хранилище вмещает до 150 стандартных 12-сантиметровых компактов одновременно. От предыдущей модели DC-300 отличается заметно более доступной ценой и необычным дизайном — со стороны устройство напоминает популярные нынче гибриды сканера, ксерокса и принтера.
Для уменьшения размеров устройства разработчики решили использовать в нем механизм карусельного типа. При поступлении запроса на выдачу диска эта «карусель» автоматически подает компакт через специальную щель на передней панели.
Информация в базу данных вводится следующим образом: достаем диск из кейса, вставляем в CD-привод и ждем какое-то время, пока автоматически будут считаны названия диска и содержащихся на нем файлов, затем ставим компакт на определенное место в библиотеке и переходим к новому диску. Ничего сложного, но времени потребуется много.
Управление выбором диска осуществляется так же, как и в предыдущей модели: либо путем выбора нужного диска из базы данных, либо путем выбора позиции диска с цифровой клавиатуры на передней панели библиотеки.
CD-библиотека от Dacal стоит недорого и вмещает до 150 дисков.
Важно помнить, что и в DC-300, и в CD-Caddy CDM-751 компакты хранятся без CD-кейсов — придется найти для коробочек место на чердаке. Благо рисунок с кейса можно отсканировать и присвоить полученную BMP-картинку диску в базе данных.
Технические характеристики Dacal DC-300
Тип устройства: CD-библиотека
Емкость: 150 лотков для 12-см дисков
Интерфейс: USB 1.1
Среднее время доступа: 1,5 с
Управление: многопозиционный переключатель с кнопкой
Размеры: 370x390x180 мм
Описанные выше устройства не заменят CD-чейнджера, однако с их помощью можно упорядочить коллекцию из кучи CD/DVD-дисков и, как результат, организовать быстрый доступ к нужной информации.
Таблица 1 | ||||||||||||||||||||||||
|
Перпендикулярный мир |
Не за горами |