- Системы контроля качества данных
- Источники и процессы работы с данными
- Зачем нужен контроль качества данных
- Кто должен заниматься контролем
- Характеристики качества данных
- Управление качеством основных данных: главные принципы
- Системное управление качеством основных данных
- Организационная структура
- Процессы управления КД
- Инструменты управления КД
- Качество данных для BI-системы
- Качество данных и ETL
- Дисциплина КД
- Этапы проверки КД
Системы контроля качества данных
Аудит и классификация данных
на базе системы
К ачество данных (КД) – характеристика, которая отражает степень их пригодности к использованию. В зависимости от сферы использования это понятие может относиться и к набору значений количественных либо качественных переменных.
Во время недавних опросов, проведенных в среде высшего руководства 1 200 компаний Европы и США, более 97% респондентов указали, что ошибки в контактных клиентских данных являются для них серьезной проблемой. Оказалось, что 83% фирм терпят финансовые убытки из-за низкого качества информации. По оценкам специалистов, они оцениваются в среднем в размере 15% от реальных доходов компаний. При этом лишь 35% фирм централизованно управляют данными. Кроме того, аналитики авторитетного агентства Gartner установили, что плохое качество используемых данных отрицательно влияет на продуктивность работы различных компаний, из-за чего их производительность сокращается на 20%.
Источники и процессы работы с данными
К источникам данных относятся следующие объекты:
- наборы данных;
- традиционные системы, предназначенные для записывания выполняемых операций;
- документы;
- операции с информацией.
С данными могут проводиться следующие манипуляции:
- перемещение информации из того или иного источника в определенную базу данных, а также объединение данных в одном формате;
- преобразование, то есть подготовка имеющейся информации к последующему хранению в оптимальной форме, благодаря чему существенно упрощается реализация запросов пользователей, которые требуются для принятия решений;
- загрузка, предусматривающая размещение данных в хранилище посредством добавления фактов или же внесения корректировок в уже имеющиеся;
- анализ в виде Data Mining, OLAP либо сводных отчетов;
- выдача результатов в приемлемом для юзера виде.
Эти сведения применяются в словаре метаданных (СМ), в который автоматически добавляются словари источников данных, а также описываются форматы для того чтобы в дальнейшем их был удобнее согласовать между собой. Помимо этого, в словаре метаданных присутствует информация касательно периодичности пополнения и о том, каким образом данные согласованы между собой по времени. Ключевой задачей словаря метаданных является освобождение разработчика от необходимости самостоятельного стандартизирования всей информации. Следует стремиться к тому, чтобы создаваемое хранилище никоим образом не конфликтовало с используемыми системами.
Вся информация зачастую предоставляется пользователям в формате многоразмерных баз данных. В качестве измерения может использоваться стоимость, время, географический регион и другие факторы, выбор которых определяется сферой бизнеса.
Зачем нужен контроль качества данных
Одним из ключевых требований, которому должна соответствовать грамотная база данных и выбранная система сбора информации – высокое качество данных. На основании полученной информации в дальнейшем будут рассчитываться показатели, демонстрирующие, насколько эффективно ведется бизнес и является ли он на данный момент стабильным.
Если окажется, что сохраненные данные содержат ошибки, в дальнейшем это может привести к неправильному выполнению расчетов, а это может спровоцировать серьезные убытки для предприятия. По этой причине большинство крупных компаний, работа которых характеризуется большими денежными оборотами, уделяют особенное внимание контролю качества данных.
При этом для многих фирм одним из ключевых факторов является сумма затрат, которые требуются для реализации грамотной системы контроля данных. Крупные организации готовы выделять большие бюджеты, чтобы организовать полноценную проверку загружаемой в базу информации, а также ее очистку от бесполезных сведений. В то же время нередко случается так, что даже крупные компании, организовывая работу собственного хранилища данных, не принимают во внимание, что контроль качества данных должен выполняться на постоянной основе, поэтому такие мероприятия не заложены в их бюджет. Не в последнюю очередь это объясняется ограниченным финансированием IT-отделов, из-за которого сложно выделить отдельного сотрудника, в обязанности которого входил бы только постоянный контроль данных.
Кто должен заниматься контролем
Перед важными расчетами необходимо быть уверенным в качестве исходных данных. Кроме назначения ответственного за качество персональных и других данных, компании должны проводить разъяснительную работу среди сотрудников, чтобы они были готовы выполнять некоторую часть этой работы. У таких пользователей больше возможностей понять и выявить производственные причины, по которым появляется бессмысленная или просто неверная информация.
Характеристики качества данных
Качество данных определяется рядом международных и российских стандартов. При этом стоит отметить, что к данному понятию относятся исключительно сведения, которые в дальнейшем используются для принятия управленческих решений.
Качество данных определяется на основании нескольких ключевых критериев:
- происхождение загружаемой информации;
- полнота полученных сведений;
- то, насколько своевременно они были получены;
- насколько точной является информация.
В соответствии с нормами, указанными в стандарте ISO/IEC25012:2008, к ним добавляют следующие характеристики: конфиденциальность, легкость получения доступа к имеющимся данным, результативность их использования, а также возможность их восстановления. Зависимыми от применяемых систем являются 10 из 15 характеристик качества основных данных.
Объективная оценка качества поступающих данных предусматривает контроль нескольких факторов:
- правильность;
- легкость получения доступа;
- сумма, необходимая для обеспечения качества;
- сумма, которую компании нужно тратить для того, чтобы исправить допущенные ошибки.
Чтобы иметь возможность применять метрики, необходимо использовать правила проверки, которые формализуют порядок, в соответствии с которым сотрудниками компании выполняется расчет и измерение указанных факторов. Чтобы добиться реального результата, недостаточно отталкиваться только от стандартных правил и метрик, требуется комплексный подход.
Управление качеством основных данных: главные принципы
Чтобы обеспечить высокое качество используемой информации, компании должны выполнять несколько базовых условий:
1. Работа с сотрудниками компании всех уровней. В данном случае речь идет и о рядовых специалистах, и о топ-менеджерах компании. Это важно для оптимизации работы компании.
2. Организация управления КД путем влияния на источник, из которого поступает вся информация. Не стоит считать, что достаточно обращать внимание на точность информации, получаемой в результате проведенных изменений и внесении корректировок, чтобы обеспечить стабильно высокое качество данных. Добиться действительно высоких результатов можно только в том случае, если используемая система управления КД затрагивает источник, из которого добывается информация.
3. Регулярная модернизация. КД должно постоянно усовершенствоваться. Чтобы это реализовать, нужен серьезный подход к проверке информации, полученной в результате проведения измерений, а также к постоянной корректировке основных данных. Следует понимать, что даже в таком случае ошибки неизбежны. Исключить их повторяемость можно только посредством проведения глубокого анализа и поиска причин, которые мешают росту качества основных данных. Так что компании нужно позаботиться о модернизации не только используемых процессов управления данными, но и в принципе любых бизнес-процессов, реализация которых предусматривает использование какой-либо информации.
Системное управление качеством основных данных
Управление качеством данных опирается на три важнейших элемента.
Организационная структура
Создание грамотной организационной структуры помогает более эффективно распределять роли, а также назначать сотрудников, которые в дальнейшем будут нести ответственность за правильность обработки и выполнения других операций по обработке информации. Зачастую крупные организации, которые уделяют особое внимание качеству данных, создают для этого специальные отделы, ответственные за оперативный оборот данных и отслеживание любых операций с ними.
Процессы управления КД
В соответствии ГОСТом и другими стандартами процессы управления КД делятся на три группы: выполнение операций над данными,
непрерывный контроль качества данных, повышение КД.
Инструменты управления КД
У бизнеса есть широкий арсенал инструментальных систем для обработки и выполнения операций с данными. К ним относятся системы управления мастер-данными, продукты Data Quality, программы для работы с аналитикой.
Качество данных для BI-системы
BI-технологии – современные и эффективные инструменты для получения и анализа бизнес-данных. Они автоматизируют обработку даже крупных объемов информации, жизненно необходимой руководству компании для принятия решений.
Современные BI-решения развиваются по четырем направлениям:
1. Хранение. Сохранение данных, применяемых для бизнес-анализа, организуется в хранилищах data warehouse. Данные собираются из различных транзакционных источников. Их структурируют таким образом, чтобы обеспечить наибольшую эффективность в процессе поиска, извлечения и обработки.
2. Интеграция. Интеграционная составляющая BI-системы представляет собой инструменты для работы с данными.
3. Анализ. Это самый важный блок BI-систем, в котором применяются OLAP-инструменты, позволяющие рассматривать различные срезы данных и выявлять тренды и зависимости, в соответствие с выбранными критериями.
К ключевым задачам BI-систем относятся:
- повышение эффективности управления бизнесом;
- снижение издержек;
- поддержка принятия стратегических решений;
- снижение управленческих рисков;
- операционный контроль.
Качество данных и ETL
Важнейшей составляющей BI-систем являются процедуры ETL (Extraction, Transformation, Loading). При их реализации часто возникают проблемы, связанные с качеством данных:
- Несколько значений одного и того же показателя.
- Множество источников данных.
- Разные уровни истории. Это серьезная и распространенная проблема. Для ее решения приходится пользоваться несколькими источниками. Например, это могут быть отчетности за разные годы.
- Чистота и точность данных. Данные включаемые в хранилище, обязательно должны проверяться на чистоту.
- Дробление для проверки и дальнейшего утверждения.
Дисциплина КД
Любая проблема, связанная с КД, влечет за собой значительные и неожиданные расходы. Чтобы их избежать, специалисты рекомендуют придерживаться следующих несложных правил:
- Осуществлять оценку качества данных до начала разработки конкретного проекта.
- Уделять внимание, прежде всего, проверке и оценке, а не технологии ПО. Для этой цели можно отчасти использовать инструменты для профилирования данных.
- Проводить проверку на старте каждого этапа разработки BI-системы. Так можно минимизировать убытки и избежать задержек запуска проектов или остановки производственных процессов.
- Проверять, все ли данные, необходимые для выполнения решаемой задачи, в наличии. При этом масштаб оценки должен определяться пользовательскими требованиями.
Этапы проверки КД
Процедура проверки качества данных выполняется в четыре шага, после каждого из которых назначаются сотрудники, которые в дальнейшем будут нести ответственность за внесение каких-либо корректировок в аналитическую или учетную системы:
- Контроль качества всей загружаемой информации. Грамотно устроенная система контроля качества данных предусматривает использование встроенных интеграционных шлюзов, работающих на основании заранее заложенных правил контроля, в соответствии с которыми выполняется проверка данных, поступающих из любых источников. За счет использования такого решения можно значительно сократить время, необходимое для загрузки информации. К перечню таких правил относится выполнение проверки любых загружаемых данных на предмет целостности, присутствия всех необходимых взаимосвязей и атрибутов, которые в дальнейшем будут отображаться в учете для формирования правильной отчетности. Этот этап является одним из наиболее важных, так как в дальнейшем за счет него можно будет быстро поправить систематические недочеты, а также обучить персонал внимательному учету данных.
- Контроль качества данных после их загрузки. Сюда входит выполнение определенного перечня мероприятий, чтобы убедиться в полноте полученных данных на агрегатном уровне. Если мероприятия по контролю КД не проводились до загрузки в базу данных, то в таком случае все они должны быть выполнены уже после проведения загрузки. Если в процессе проведения указанных операций будет обнаружено, что данные не соответствуют правилам и им требуются поправки, создается специализированный протокол ошибок и выполненных корректировок. В дальнейшем протокол может использоваться для того чтобы дополнить оформленную отчетность полезной информацией, что особенно важно, к примеру, для компаний, работающих в банковской сфере. Также на этом этапе проверяется полнота информации, соответствие сделок.
- Контроль КД после расчета агрегатов. На этом шаге выполняется проверка корректности загруженной информации, полученной в результате вычислений с использованием набора различных сведений. После устранения ошибок, которые были обнаружены на этом этапе, может осуществляться расчет отчетных форм.
- Контроль качества рассчитанных отчетов. Данный этап требуется для того чтобы уполномоченные сотрудники компании могли убедиться в том, что составленная отчетность отражает достоверную информацию. Выполняется классический контроль данных, а также ручная верификация формы на уровне детальных данных.
Даже обеспечив корректность данных, невозможно автоматически получать достоверную и качественную отчетность. В ближайшее время вряд ли стоит ожидать окончательную автоматизацию подобных процессов.
Функции контроля КД помогают отследить ошибки и вовремя внести требующиеся коррективы в структуру и методы учета. С их помощью можно оперативно вносить необходимые изменения, когда отчетность готовится в авральном режиме. Во многом эффективность работы зависит от правильного распределения ответственности. Сочетание автоматизированных средств загрузки данных, их контроля и расчета с оперативной реакцией персонала обеспечивает конечный успех.
Источник