- О сборе данных. Как собирать данные, анализировать их и грабить корованы
- Собирайте всё
- Приоритеты и выбор источников данных
- Взаимосвязь данных
- Сбор и покупка данных
- Методология сбора информации
- Проблемы сбора информации
- Методы сбора информации
- Качество информации
- Срок действия и актуальность
- Надежность и достоверность
- Объективность
- Этапы сбора и анализа информации
- Подготовка
- Сбор данных
- Первичные и вторичные источники информации
- Внутренние источники
- Внешние источники
- Оценка и интерпретация данных
О сборе данных. Как собирать данные, анализировать их и грабить корованы
В предыдущей статье мы рассматривали вопросы качества данных («О качестве данных и распространенных ошибках при их сборе» на Хабре).
Сегодня я хочу продолжить разговор о качестве данных и обсудить их сбор: как правильно расставить приоритеты при выборе источника, как и какие данные собирать, оценка ценности данных для компании и другое.
Собирайте всё
Вы решили улучшить оформление и оплату товара на сайте?
Отлично, а как проходит процесс формирования корзины покупателем? В какой момент он делает окончательный выбор товаров: до добавления в корзину или перед оплатой покупки?
На каждом сайте может быть по разному, но как ведет себя клиент у вас?
При обладании данными об оформлении заказа их можно проанализировать и определиться с вектором обновления, который будет удобен не только вам, но и пользователям.
Собирайте все данные, до которых дотягиваетесь. Вы никогда не будете знать со стопроцентной уверенностью, какие из них могут вам понадобится, а возможность сбора может выдаться только одна.
Чем больше данных вы соберете, тем больше информации о пользователях у вас будет, а что важнее — вы сможете понимать и прогнозировать контекст их поступков.
Контекст помогает лучше понимать своего клиента, его желания и намерения, а чем лучше вы знаете своего клиента, тем лучше вы сможете реализовать его персональные потребности, а значит повысить лояльность и повысить вероятность возврата клиента.
Сегодня сбор абсолютно всех данных уже не такая редкость, особенно это распространено в онлайн проектах. В компании, максимизирующей сбор данных и умеющей с ними работать, на их основе будет вестись практически вся деятельность: маркетинг, продажи, работа персонала, обновления и усовершенствования, поставки.
У каждого направления есть внутренние и внешние источники данных в различных форматах и разного качества.
Это хорошо для работы аналитиков и принятия решений, но отсюда также возникает проблема с хранением этого массива данных и их обработкой. Каждое действие увеличивает финансовую нагрузку и положительный эффект от обладания данными может вырасти в «головную боль».
Для принятия решения о целесообразности сбора и обработки тех или иных данных нужно понимание их основных характеристик. Давайте вкратце пройдемся по ним:
Объем
Показатель, влияющий на финансовые издержки по хранению и изменению данных и временные издержки по их обработке. И хотя с увеличением объема данных цена на хранение единицы снижается, но, учитывая увеличивающееся количество источников, финансовая нагрузка может стать нерациональной.
Разнообразие
Разнообразный набор источников данных дает более полную картину и помогает лучше оценить контекст действий пользователя, но обратная сторона медали — разнообразие форматов и расходы на их интеграцию в вашу систему аналитики. Не всегда все данные возможно собрать воедино, а если и возможно, то не всегда это необходимо.
Скорость
Какой объем данных требуется обрабатывать в единицу времени?
Вспомним недавние выборы президента США — благодаря быстрой обработке сообщений Twitter можно было понимать настроение избирателей в ходе дебатов и корректировать их ход.
Гигантам работы с данными, таким как Facebook и Google, на достижение сегодняшних результатов потребовать огромное количество времени, но благодаря этому у них теперь есть данные о каждом пользователе и они могут прогнозировать их действия.
Частая проблема персонала, работающего с данными — ограниченные ресурсы, в первую очередь финансовые и кадровые.
В большинстве компаний аналитикам приходится расставлять жесткие приоритеты в выборе источников данных, и тем самым отказываться от некоторых из них.
Кроме того необходимо учитывать интересы бизнеса, а значит оценивать рентабельность инвестиций в работу с данными и возможное влияние данных на компанию.
Приоритеты и выбор источников данных
При ограниченных ресурсах в работе с данными специалистам приходится расставлять приоритеты и делать выбор между источниками.
Чем же руководствоваться при этом и как определить ценность данных для компании?
Главная цель работы аналитиков — давать необходимую другим подразделениям информацию качественно и своевременно. Эта информация оказывает прямое влияние на эффективность компании и работу отделов.
У каждого отдела или подразделения есть свой «основной» тип данных.
Так для отдела по работе с клиентами важны контакты клиента и данные его социальных сетей, а для отдела маркетинга — история покупок и карта действий.
Так и выходит, что каждая команда имеет свой набор «очень важных данных» и эти данные определенно важнее и нужнее чем у других подразделений.
Вот только от важности и нужности данных проблема с ограниченными ресурсами не исчезает, а значит приходится расставлять приоритеты и действовать в соответствии с ними. Основной фактор для определения приоритетности данных — ROI, но не стоит забывать и про доступность, полноту и качество.
Вот список в котором приведены некоторые показатели, которые могут помочь в расстановке приоритетов:
Высокая
Причина: Данные нужны немедленно.
Объяснение: Если у какого-то подразделения появляется острая необходимость в данных с жестко ограниченными сроками, такие данные предоставляются в первую очередь.
Высокая
Причина: Данные повышают ценность.
Объяснение: Данные повышают прибыль или сокращают издержки, обеспечивая высокую ROI.
Высокая
Причина: Разным командам требуются одни и те же данные.
Объяснение: Удовлетворяя потребности нескольких команд в данных вы повышаете ROI.
Высокая
Причина: Краткосрочные или потоковые данные.
Объяснение: Некоторые интерфейсы и протоколы дают ограниченное по времени «окно» для сбора данных, следует поторопиться.
Средняя
Причина: Дополнение для существующего набора данных, которые повышают их качества.
Объяснение: Новые данные дополняют имеющиеся и улучшают понимание контекста действий.
Средняя
Причина: Код обработки данных может быть использован повторно.
Объяснение: Использование известного кода сокращает ROI и уменьшает количество возможных ошибок.
Средняя
Причина: Данные легко доступны.
Объяснение: Если данные ценны, а добыть их просто — вперед.
Средняя
Причина: Удобный API позволяет собрать данные за прошедшие периоды.
Объяснение: Если данные не требуются еще вчера, а вы всегда можете получить к ним доступ, то не стоит ставить им слишком высокий приоритет.
Низкая
Причина: Аналитики имеют доступ к данным или иные пути их получения.
Объяснение: Если у аналитиков уже имеется доступ к данным, то, возможно, есть более приоритетные задачи.
Низкая
Причина: Низкое качество данных.
Объяснение: Низкокачественные данные могут быть бесполезны, а иногда и вредны.
Низкая
Причина: Необходимо извлечение из веб-страниц.
Объяснение: Обработка таких данных может быть достаточно сложной и требовать чрезмерных усилий.
Низкая
Причина: Низкая вероятность использования данных.
Объяснение: Данные, которые хорошо бы иметь, но если их нет, то и ладно.
Зато, обладая этими данными, можно грабить корованы!
Как мы видим не всякие данные важно предоставить «прямо сейчас», а значит необходимо расставлять приоритеты и следовать в соответствии с ними.
Важно сохранять баланс между приобретением новых данных и их ценностью для компании.
Взаимосвязь данных
Вы получаете важные данные от отдела продаж, маркетинга, от логистов и обратную связь от клиентов, но самая большая ценность данных возникает после установления связей между разными видами данных.
Для примера рассмотрим Диану и ее заказ. Недавно она заказала комплект садовой мебели, сопоставив ее заказ с данными аналитики, мы видим, что она провела на сайте 30 минут и просмотрела 20 разных наборов. Это значит, что она выбирала мебель уже на сайте, не зная заранее, что будет заказывать.
Смотрим откуда она пришла — поисковая выдача.
Если бы у нас была информация о других покупках Дианы, то мы бы узнали, что она за последний месяц часто покупала товары для дома.
Частые онлайн покупки и использования поисковиков для нахождения интернет-магазинов говорит о низкой лояльности брендам, а значит склонить ее к повторной покупке будет сложно.
Так, получая каждый новый уровень информации, составляется индивидуальный портрет пользователя, по которому можно узнать о его жизни, привязанностях, привычках и прогнозировать его поведение.
Добавляем информацию из оформления заказа и понимаем, что это женщина, а по адресу доставки видим, что она живет в частном секторе.
Продолжая анализировать можно найти информацию о ее доме и участке, спрогнозировать ее потребности и сделать превентивное предложение.
При правильном анализе данных предложение может сработать и мы склоним клиента к повторной покупке, а так же повысим его лояльность за счет индивидуального подхода.
Предложение скидок за приглашение друга из соцсети даст нам доступ к ее списку друзей и информации аккаунта, тогда можно будет продолжать индивидуальный маркетинговый подход к клиенту и составить под нее таргетированную рекламу, но это вряд ли будет рентабельно.
Сбор и покупка данных
Сегодня существует множество способов сбора данных, один из самых распространенных — API. Но кроме того как собрать данные, их нужно обновлять, и тут все уже зависит от объема.
Небольшие объемы данных (до 100 тысяч строк) целесообразнее заменять свежими, а вот с крупными массивами уже актуально частичное обновление: добавление новых и удаление устаревших значений.
Массивы некоторых данных настолько огромны, что обрабатывать их все будет слишком дорого для компании, в таких случая проводят выборку, и на ее основании проводят аналитику. Часто практикуется «простая случайная выборка», но обычно данные, собранные с ее помощью, не репрезентативны и сравнимы с подбрасыванием монетки.
Важный вопрос: собирать сырые или агрегированные данные?
Некоторые поставщики данных дают уже скомпилированные подборки, но у них есть несколько недостатков. Например, в них могут отсутствовать необходимые или желаемые значения, которые повысили бы ценность аналитики на основе этих данных для компании, но у вас не будет возможности собирать или дополнять их. Данные, собранные сторонними агрегаторами, удобны для архивации и хранения, также они значительно экономят время и человеческий ресурс.
Но если есть возможность собирать сырые данные, то лучше выбрать их — они более полные, и вы сможете самостоятельно агрегировать их в соответствии со своими потребностями и запросами бизнеса, а после работать с ними так, как вам потребуется.
Многие компании самостоятельно собирают данные, а также использует доступные в открытых источниках. Но в некоторых случаях они вынуждены заплатить за получение необходимых данных третьей стороне. Иногда выбор мест приобретения данных может быть ограничен, в других случаях нет, но независимо от этого при выборе источника данных и принятии решения о их приобретении следует обратить внимание на несколько факторов:
Цена
Все любят бесплатные данные — и руководство и аналитики, но иногда высококачественная информация доступна только за деньги. В таком случае следует взвесить рациональность приобретения и сравнить стоимость и ценность данных.
Качество
Данные чисты, им можно доверять?
Эксклюзивность
Данные подготовлены индивидуально для вас или доступны всем желающим? Вы получите преимущество перед конкурентами, если будете использовать их?
Выборка
Есть возможность получить выборку для оценки качества данных до приобретения?
Обновления
Какой срок жизни данных, как быстро они устаревают, будут ли они обновляться и как часто?
Надежность
Какие ограничения у интерфейсов получения данных, какие еще ограничения могут накладываться на вас?
Безопасность
Если данные важны, то будут ли они зашифрованы и насколько надежными протоколами? Также не стоит забывать о безопасности при их передаче.
Условия использования
Лицензирование или иные ограничения. Что может не позволить вам воспользоваться данными в полном объеме?
Формат
Насколько вам удобно работать с форматом приобретаемых данных? Есть ли возможность их интеграции в вашу систему?
Документация
Если вам предоставляют документацию — хорошо, а если нет, то стоит поинтересоваться способом сбора данных для оценки их ценности и надежности.
Объем
Если данных много, вы сможете обеспечить их хранение и обработку? Ценные данные не всегда будут объемные, как и наоборот.
Степень детализации
Эти данные подходят для уровня необходимой вам аналитики?
Это далеко не все, но основные и несомненно важные вопросы, которыми стоит задаться перед приобретением данных у поставщиков.
На этом я закончу статью по сбору данных.
Если информация была для вас полезна, то я буду рад обратной связи.
Возможно, вы с чем-то не согласны или хотите поделиться своими методами и наработками — приглашаю в комментарии, и надеюсь на увлекательное и полезное обсуждение.
Всем спасибо за внимание и хорошего дня!
Источник
Методология сбора информации
Каждый руководитель знает, что стратегически важные решения должны основываться на всестороннем анализе имеющейся информации. Но в современном мире при огромном количестве информации бывает чрезвычайно сложно найти конкретный ответ на свой вопрос. Ведь поток информации, с которым нам всем приходится ежедневно иметь дело, неуклонно растет.
Проблемы, с которыми можно столкнуться при сборе информации, можно обойти путем адекватной подготовки процесса сбора информации и применения правильных методов по сбору и анализу. Предлагаем вам рассмотреть следующий методический подход для работы с информацией.
Проблемы сбора информации
Неопределенность — для принятия стратегических решений необходима информация о будущем. По большей части, однако, точные прогнозы часто основаны на неопределенных (бездоказательных) предположениях.
Сложность — будущие события часто зависят от множества различных факторов, которые влияют друг на друга. Даже если сами связи очевидны, небольшие отклонения в одном факторе могут привести к совершенно разным конечным результатам.
Субъективность (предвзятость) — проведением анализа занимаются люди, которые имеют субъективное восприятие мира и фильтруют информацию в соответствии со своим опытом, способностями или предпочтениями.
Методы сбора информации
Существует множество методов сбора информации. Для качества информации, получаемой с точки зрения предполагаемой цели, и для затрат на сбор информации крайне важно использовать правильные методы.
Качество информации
Прежде чем начать собирать информацию, необходимо рассмотреть (и желательно записать) с какой целью требуется собрать информацию. Анализы, которые «относятся к теме», но не дают большой выгоды для принятия решения, не имеют значения и не должны использоваться в смысле эффективного использования ресурсов.
Срок действия и актуальность
Информация, которая ближе всего по временной шкале к началу сбора, должна быть собрана в первую очередь. Устаревшие исследования не должны использоваться при проведении анализа.
Надежность и достоверность
Ошибки обследования, измерения и оценки должны быть сведены к минимуму. Необходимо включать параллельное использование различных измерительных инструментов (для обеспечения согласованности) или повторение исследования в разное время (для обеспечения стабильности). Во многих случаях простая проверка достоверности уже может показать слабые стороны полученной информации.
Объективность
Зависимость результатов от “человеческого фактора” должна быть сведена к минимуму. Это особенно верно для информации, которую можно трактовать под различным углом.
Этапы сбора и анализа информации
Подготовка
Вначале формулируется вопрос, на который необходимо получить ответ. Например, «анализ привлекательности китайского рынка» с точки зрения российского производителя нефтехимической продукции можно разбить на следующие вопросы:
- Как будут развиваться рынок и конкурентная среда нефтехимической промышленности Китая в ближайшие десять лет? Точнее, как будут развиваться спрос, предложение и рыночные цены на отдельные товары?
- Какие возможности выхода на рынок доступны для нашей компании с учетом имеющихся возможностей?
- Какую долю рынка мы сможем завоевать на китайском рынке?
- Какую прибыль нам следует ожидать?
Создание различных диаграмм может помочь в процессе структурирования и наглядной визуализации тенденций.
На основе оперативной проблемы должен быть подготовлен план анализа. Он включает в себя модели и методы анализа, которые будут использоваться, с учетом существующего информационного статуса, а также времени и ресурсов.
Подход, основанный на гипотезах, часто оказывается полезным. Для каждого из рассматриваемых вопросов разрабатывается гипотеза, которая состоит из утверждения, считающимся наиболее вероятным. Пример: «Гипотеза: поставки в Китай резко возрастут, поскольку будут наращиваться как локально высокие нефтехимические мощности, так и избыточные мощности на Ближнем Востоке, что приведет к увеличению импорта».
Сбор данных
Во время последующего выполнения сбора данных необходимо соблюдать осторожность, чтобы минимизировать влияние источников ошибок, описанных выше. Информация может быть получена как из первичных, так и из вторичных источников данных.
Поскольку фактическое обследование или оценка часто показывает качество полученной информации, может возникнуть необходимость в корректировке процедуры анализа. Например, использовать дополнительные вторичные источники или специальные методики для проверки полученных результатов.
Первичные и вторичные источники информации
Источники информации могут быть классифицированы как первичные или вторичные.
Если информация для стратегического анализа собирается независимо от проведенных ранее исследований, то это называется сбор первичных данных. Однако по многим вопросам имеет смысл прибегнуть к уже имеющейся информации, так называемым вторичным данным, которые ранее собирались для аналогичных или других целей. Их преимущество состоит в том, что они доступны и зачастую дешевле. Однако часто эта информация недостаточно актуальна или не подходит для рассматриваемой проблемы.
Внутренние источники
- Данные бухгалтерского и оперативного учета;
- Статистика продаж и заказов;
- База данных;
- Архивные данные.
Внешние источники
- Официальная статистика;
- Отраслевые и специализированные отчеты;
- Информация из научных институтов и ассоциаций;
- Информация из технической и общей литературы;
- Международные базы данных.
Оценка и интерпретация данных
Теперь следует провести оценку и интерпретацию полученной информации. Первоначально она состоит из объединения, суммирования и обработки данных. Для этой цели доступны многочисленные статистические методы. Из большого количества собранных данных необходимо сделать итоговые выводы. Поскольку целью анализа является картина будущего развития, часто используется метод представления тренда. Это основано на предположении, что события из прошлого будут продолжаться в будущем.
Источник