- Как устроены хранилища данных: обзор для новичков
- Типы хранилищ и их различия
- Применимость систем хранения разных типов
- 5 основных принципов хранения неструктурированных данных
- Избегайте дублирования.
- Удаляйте устаревшие версии.
- Установите срок хранения оригиналов.
- Удаляйте то, что не используется.
- Храните данные в одном месте.
- Что предлагают лидеры рынка для хранения неструктурированных данных
- Гибридное хранилище от Fujitsu и Qumulo
- Как будут расти объемы данных
- Как организовать хранение данных в облаке
Как устроены хранилища данных: обзор для новичков
Международный рынок гипермасштабируемых дата-центров растет с ежегодными темпами в 11%. Основные «драйверы» — предприятия, подключенные устройства и пользователи — они обеспечивают постоянное появление новых данных. Вместе с объемом рынка растут и требования к надежности хранения и уровню доступности данных.
Ключевой фактор, влияющий на оба критерия — системы хранения. Их классификация не ограничивается типами оборудования или брендами. В этой статье мы рассмотрим разновидности хранилищ — блочное, файловое и объектное — и определим, для каких целей подходит каждое из них.
Типы хранилищ и их различия
Хранение на уровне блоков лежит в основе работы традиционного жесткого диска или магнитной ленты. Файлы разбиваются на «кусочки» одинакового размера, каждый с собственным адресом, но без метаданных. Пример — ситуация, когда драйвер HDD пишет и считывает блоки по адресам на отформатированном диске. Такие СХД используются многими приложениями, например, большинством реляционных СУБД, в списке которых Oracle, DB2 и др. В сетях доступ к блочным хостам организуется за счет SAN с помощью протоколов Fibre Channel, iSCSI или AoE.
Файловая система — это промежуточное звено между блочной системой хранения и вводом-выводом приложений. Наиболее распространенным примером хранилища файлового типа является NAS. Здесь, данные хранятся как файлы и папки, собранные в иерархическую структуру, и доступны через клиентские интерфейсы по имени, названию каталога и др.
При этом следует отметить, что разделение «SAN — это только сетевые диски, а NAS — сетевая файловая система» искусственно. Когда появился протокол iSCSI, граница между ними начала размываться. Например, в начале нулевых компания NetApp стала предоставлять iSCSI на своих NAS, а EMC — «ставить» NAS-шлюзы на SAN-массивы. Это делалось для повышения удобства использования систем.
Что касается объектных хранилищ, то они отличаются от файловых и блочных отсутствием файловой системы. Древовидную структуру файлового хранилища здесь заменяет плоское адресное пространство. Никакой иерархии — просто объекты с уникальными идентификаторами, позволяющими пользователю или клиенту извлекать данные.
Марк Горос (Mark Goros), генеральный директор и соучредитель Carnigo, сравнивает такой способ организации со службой парковки, предполагающей выдачу автомобиля. Вы просто оставляете свою машину парковщику, который увозит её на стояночное место. Когда вы приходите забирать транспорт, то просто показываете талон — вам возвращают автомобиль. Вы не знаете, на каком парковочном месте он стоял.
Большинство объектных хранилищ позволяют прикреплять метаданные к объектам и агрегировать их в контейнеры. Таким образом, каждый объект в системе состоит из трех элементов: данных, метаданных и уникального идентификатора — присвоенного адреса. При этом объектное хранилище, в отличие от блочного, не ограничивает метаданные атрибутами файлов — здесь их можно настраивать.
/ 1cloud
Применимость систем хранения разных типов
Блочные хранилища
Блочные хранилища обладают набором инструментов, которые обеспечивают повышенную производительность: хост-адаптер шины разгружает процессор и освобождает его ресурсы для выполнения других задач. Поэтому блочные системы хранения часто используются для виртуализации. Также хорошо подходят для работы с базами данных.
Недостатками блочного хранилища являются высокая стоимость и сложность в управлении. Еще один минус блочных хранилищ (который относится и к файловым, о которых далее) — ограниченный объем метаданных. Любую дополнительную информацию приходится обрабатывать на уровне приложений и баз данных.
Файловые хранилища
Среди плюсов файловых хранилищ выделяют простоту. Файлу присваивается имя, он получает метаданные, а затем «находит» себе место в каталогах и подкаталогах. Файловые хранилища обычно дешевле по сравнению с блочными системами, а иерархическая топология удобна при обработке небольших объемов данных. Поэтому с их помощью организуются системы совместного использования файлов и системы локального архивирования.
Пожалуй, основной недостаток файлового хранилища — его «ограниченность». Трудности возникают по мере накопления большого количества данных — находить нужную информацию в куче папок и вложений становится трудно. По этой причине файловые системы не используются в дата-центрах, где важна скорость.
Объектные хранилища
Что касается объектных хранилищ, то они хорошо масштабируются, поэтому способны работать с петабайтами информации. По статистике, объем неструктурированных данных во всем мире достигнет 44 зеттабайт к 2020 году — это в 10 раз больше, чем было в 2013. Объектные хранилища, благодаря своей возможности работать с растущими объемами данных, стали стандартом для большинства из самых популярных сервисов в облаке: от Facebook до DropBox.
Такие хранилища, как Haystack Facebook, ежедневно пополняются 350 млн фотографий и хранят 240 млрд медиафайлов. Общий объем этих данных оценивается в 357 петабайт.
Хранение копий данных — это другая функция, с которой хорошо справляются объектные хранилища. По данным исследований, 70% информации лежит в архиве и редко изменяется. Например, такой информацией могут выступать резервные копии системы, необходимые для аварийного восстановления.
Но недостаточно просто хранить неструктурированные данные, иногда их нужно интерпретировать и организовывать. Файловые системы имеют ограничения в этом плане: управление метаданными, иерархией, резервным копированием — все это становится препятствием. Объектные хранилища оснащены внутренними механизмами для проверки корректности файлов и другими функциями, обеспечивающими доступность данных.
Плоское адресное пространство также выступает преимуществом объектных хранилищ — данные, расположенные на локальном или облачном сервере, извлекаются одинаково просто. Поэтому такие хранилища часто применяются для работы с Big Data и медиа. Например, их используют Netflix и Spotify. Кстати, возможности объектного хранилища сейчас доступны и в сервисе 1cloud.
Благодаря встроенным инструментам защиты данных с помощью объектного хранилища можно создать надежный географически распределенный резервный центр. Его API основан на HTTP, поэтому к нему можно получить доступ, например, через браузер или cURL. Чтобы отправить файл в хранилище объектов из браузера, можно прописать следующее:
После отправки к файлу добавляются необходимые метаданные. Для этого есть такой запрос:
Богатая метаинформация объектов позволит оптимизировать процесс хранения и минимизировать затраты на него. Эти достоинства — масштабируемость, расширяемость метаданных, высокая скорость доступа к информации — делают объектные системы хранения оптимальным выбором для облачных приложений.
Однако важно помнить, что для некоторых операций, например, работы с транзакционными рабочими нагрузками, эффективность решения уступает блочным хранилищам. А его интеграция может потребовать изменения логики приложения и рабочих процессов.
Источник
5 основных принципов хранения неструктурированных данных
Новая проблема, с которой мы столкнулись, это не количество хранимой информации, а ее ценность и польза.
Представляем вашему вниманию перевод статьи Дугласа Дункана (Douglas Duncan) – директора по информационным технологиям компании Columbia Insurance Group. Автор рассказывает о 5 основных принципах правильного хранения неструктурированных данных. Оригинал статьи читайте на сайте CIOReview.
Неструктурированные данные существовали задолго до Интернета, толстых энциклопедий, пыльных библиотек и даже хранящихся в пещерах свитков из овечьей шкуры. Раньше в дополнение к традиционной устной форме хранения информации использовались такие методы, как засечки на палочках, царапины на камнях и узлы на веревочках. Сегодня же неструктурированные данные передаются с помощью печатного текста и изображений, причем гораздо чаще в электронном виде, нежели физическом.
Наши технологии стали совершеннее, но есть ли значительная разница между тем, как данные хранились в прошлом и как они хранятся сейчас? Те из наших предков, кто был достаточно обеспечен и могущественен, чтобы не тратить все свое время на поиски пищи и жилья, были ограничены во времени и знаниях, необходимых для долговременного хранения информации. Им понадобилось достаточно много времени, чтобы научиться создавать и расшифровывать знаки, пиктограммы и надписи. Кроме того, им нужно было овладеть определенными навыками и знаниями, чтобы создать инструменты для записи и передачи информации следующим поколениям.
«Новая проблема, с которой мы столкнулись, это не количество хранимой информации, а ее ценность и польза.»
Чем больше информации вы получаете, тем больше места требуется для ее хранения. Не случайно, что наряду с бурным ростом знаний за последние 400 с лишним лет, наша способность хранить (и делиться) информацией также значительно улучшилась. Это автоматизация в самом чистом виде.
Сегодня благодаря ей скорость и объем хранения и передачи данных ограничивается лишь нашими потребностями. Хранить информацию дешево, системы быстрые, так в чем же проблема?
Несмотря на то, что закон Мура касается количества транзисторов на интегральной схеме, он может применяться к группе связанных технологий, таких как скорость процессора и объем информации, которую можно хранить. Так как хранить данные дешево, а системы мощные, мы предполагаем, что создание большего количества хранилищ решит существующие проблемы. Но это то же самое, что утверждать, что больше машин скорой помощи сократят дорожно-транспортные происшествия или что морозильник большего размера сделает мороженое вкуснее. Новая проблема, с которой мы столкнулись, это не количество хранимой информации, а ее ценность и польза.
Критериев для определения того, стоит или нет хранить документ или изображение, может быть бесконечное множество. Однако существует пять ключевых принципов, на которые следует обратить внимание:
1. Избегайте дублирования.
2. Удаляйте устаревшие версии.
3. Установите срок хранения оригиналов.
4. Удаляйте то, что не используется.
5. Храните данные в одном месте.
Избегайте дублирования.
Настройте политики и процедуры, ограничивающие количество мест, в которых сотрудники могут сохранять документы. Как правило, изначально они сохраняют документы на своем компьютере, а уже потом в общедоступном месте. Если документ или изображение получены по электронной почте (наиболее частый случай), то они также некоторое время хранятся на почтовом сервере. Результатом отсутствия жестких ограничений будет огромное количество дублей. Это приведет к более высоким затратам на хранение, а также к большим трудностям в управлении файлами и выстраивании эффективного сотрудничества.
Удаляйте устаревшие версии.
Обычно при создании документа появляются несколько его версий, которые не нужны после согласования окончательного варианта. Помимо очень редких случаев, эти промежуточные версии не имеют никакой ценности. Убедитесь, что есть правила, обеспечивающие их удаление.
Установите срок хранения оригиналов.
Каждая компания должна иметь политику хранения документов. В первую очередь она предназначена для защиты компании в судебных тяжбах, но также помогает уменьшить объем хранимых документов. В каждом офисе есть свой «барахольщик», который никогда не выбрасывает и не удаляет документы. Он живет в страхе, что как только он выбросит документ, именно этот документ и понадобится ему на следующий же день. Разумеется, иногда так и есть. Но даже если это сработает в одном конкретном случае, в целом для блага компании лучше иметь строгую политику хранения документов.
Удаляйте то, что не используется.
Хотя политика вашей компании требует хранить некоторые виды документов в течение определенного срока, вполне вероятно, что кроме них есть большое количество рабочих документов и других вспомогательных материалов, которые хранить необязательно. Эти документы и изображения могли стать ненужными, если их заменили или их содержимое стало неактуально. Политика вашей компании должна четко регламентировать удаление таких файлов.
Храните данные в одном месте.
Храните неструктурированные данные вместе, а не в разных местах, которые, к тому же, часто могут быть недоступны (однако, не забывайте при этом про безопасность и конфиденциальность). Этот принцип является основой для первых четырех.
Когда речь заходит об управлении объемом ненужных документов и изображений, сложно не перейти тонкую грань между предоставлением сотрудникам свободы в работе и полным контролем их деятельности. Управление корпоративным контентом (ECM – Enterprise Content Management) — следующий уровень эффективности бизнеса. Неспособность достичь этого уровня приведет к серьезным издержкам и невозможности найти документы и изображения, необходимые для сотрудничества и успешного ведения бизнеса.
Управление корпоративным контентом — следующий уровень эффективности бизнеса. Неспособность достичь этого уровня приведет к серьезным издержкам и невозможности найти документы и изображения, необходимые для сотрудничества и успешного ведения бизнеса.
Хорошо обдумайте предложенные принципы и постарайтесь внедрить их в компании. Тогда и вы, и ваша компания добьетесь успеха.
Источник
Что предлагают лидеры рынка для хранения неструктурированных данных
По мере того как цифровые технологии все сильнее интегрируются в бизнес и повседневную жизнь, стремительно растут объемы неструктурированных данных. Компании ищут, где хранить, как обрабатывать и оперативно получать доступ к огромным массивам информации, а крупные поставщики IT-решений находят общие пути решения проблемы, которая вот-вот станет глобальной.
Гибридное хранилище от Fujitsu и Qumulo
Fujitsu объединила усилия с компанией Qumulo, которая разрабатывает ПО для хранения данных в гибридных облачных средах. Сотрудничество крупных вендоров имеет шанс оказаться успешным и принести двойную пользу корпоративным клиентам в виде готового решения объектной системы хранения. Те смогут работать с безопасными и надежными локальными файловыми хранилищами, поддерживающими горизонтальное масштабирование, а также использовать более гибкие и экономически эффективные облачные продукты.
Программное обеспечение Qumulo для хранения файлов в облаке будет интегрировано в СХД Fujitsu. Это решит проблему консолидации, обработки и хранения неструктурированных данных: видео с камер наблюдения, мультимедийных файлов, результатов диагностики и сканирования, а также всей той информации, которую генерируют IoT-устройства.
Раньше данные хаотично хранились в периферийных и облачных системах, что было неудобно. Даже внутри одной компании подразделения тратили много времени на доступ к данным, и в итоге замедлялась работа критически важных приложений.
Облачные хранилища опережают традиционные СХД по масштабируемости и скорости доступа
Как будут расти объемы данных
Аналитики Gartner прогнозируют, что до 2024 года объемы неструктурированных данных вырастут в три раза. Первыми от этого пострадают корпорации, использующие устаревшие решения для хранения, не рассчитанные на новые нагрузки. В Qumulo уверены: компаниям уже нужно пересмотреть принципы хранения данных, в частности перейти на быстрые и масштабируемые облачные решения. Для этого идеально подходит ПО Qumulo: оно предоставляет ЦОД и отдельным приложениям быстрый, эффективный и недорогой доступ к данным в облаке.
Fujitsu, которая интегрирует программные решения Qumulo в свои системы хранения данных, поможет компаниям модифицировать корпоративные сети в облачные системы хранения, поддерживающие горизонтальное масштабирование. Бизнес получит универсальные инструменты для хранения и защиты данных, а значит, создаст благоприятные условия для дальнейшей цифровой трансформации.
Партнерство Fujitsu и Qumulo даст реальное преимущество корпоративным клиентам, которые смогут использовать максимум возможностей гибридных IT-сред. Компаниям будет доступно бесшовное масштабирование кластеров файловых хранилищ в дата-центрах и облаке, плюс они смогут просматривать и контролировать данные в режиме реального времени.
Как организовать хранение данных в облаке
Размещать данные на cloud-сервисах можно по-разному. Универсальный вариант, который идеально подходит для хранения неструктурированных данных, – это объектное хранилище. Его можно непрерывно масштабировать до петабайта без намека на падение производительности, что важно для требовательных к ресурсам приложений.
Облачные хранилища позволяют размещать и обрабатывать данные произвольного типа: фотографии, бухгалтерские документы, проекты, аудио-, видео-, текстовые и другие файлы. У каждого объекта есть метаданные, которые описывают его содержимое и позволяют в нужный момент быстро извлечь его из хранилища. По информации в метаданных объекты легко индексировать и анализировать, не привлекая базы данных и дополнительное ПО, так как неважно, в каком приложении объекты созданы.
Метаданные упрощают поиск и индексацию объектов в хранилище, как если бы их занесли в картотеку
Как с максимальной пользой использовать объектные хранилища:
- размещать статичные данные на долгий срок;
- размещать неструктурированные данные;
- создавать резервные копии важных данных;
- разворачивать DevOps.
Главные потребители услуг объектного хранения в облаке – организации финансово-банковской сферы, системы здравоохранения, популярные интернет-сервисы (электронная почта, мессенджеры, социальные сети). Также хранение в виде объектов хорошо применимо к WORM-данным, которые пишутся один раз, но считываются многократно.
Продукты, представленные сегодня на рынке объектных СХД, достаточно гибкие и позволяют организовать хранилища разных типов и для разных задач. Например, Dell EX3000D подходит для создания эластичной системы хранения (ECS), Western Digital ActiveScale – для IT-сред со смешанными нагрузками, а IBM Spectrum Scale можно назвать оптимальной СХД для облачных сервисов с большими объемами данных.
Источник