Способы сбора баз данных

Способы сбора данных большими компаниями

В этой статье освещаются некоторые из наиболее необычных способов сбора больших данных.

Автор: Владимир Безмалый

Большие данные стали провозглашать глобальный переломный момент в индустрии высоких технологий, предоставляя предприятиям и правительствам огромное количество данных практически обо всем, что люди выбирают в Интернете. Но большие данные выходят за рамки файлов cookie и отслеживания в Интернете.

Использование больших данных может дать предприятиям интересное, а иногда и удивительное понимание нашей жизни. В этой статье освещаются некоторые из наиболее необычных способов сбора больших данных.

Использование карт лояльности может принести некоторые преимущества, так как поощряет постоянных клиентов и стимулирует совершать больше покупок.

При этом клиенты должны знать, что каждый раз, когда они используют лояльные или кредитные карты, их данные о покупках отслеживаются и сохраняются.

Хотя розничным продавцам это помогает понять, какие продукты продаются различным группам покупателей, эту информацию также можно использовать для создания подробных профилей клиентов, которые затем можно продавать рекламодателям и другим предприятиям.

Онлайн-игроки не освобождаются от сбора больших данных.

Постоянное подключение к Интернету устройств позволяет разработчикам игр мгновенно получать доступ к большим объемам данных, даже если игра является однопользовательской.

Всякий раз, когда пользователь сталкивается с трудностями на определенном уровне, совершает покупку в приложении, устанавливает или удаляет игру, играет в течение длительного периода времени или сдается через несколько минут, эта информация отслеживается и сохраняется.

3. Спутниковые снимки

Один интересный источник больших данных — это то, что можно увидеть с неба. С развитием Google Earth и Google Maps спутниковые данные стали общедоступными. Это позволяет опытным аналитикам создавать удивительно полные картины определенных областей и даже начать понимать типы людей, которые живут и работают в этих местах.

4. Базы данных работодателя

Отделы кадров могут использовать большие данные для профилирования своих сотрудников и количественной оценки производительности их труда на рабочем месте. История сотрудников в компании может быть общим интересом, но большие данные также включают менее интуитивные цифры, включая:

Количество времени, которое работники проводят с определенными программами на своих компьютерах

Время дня, когда сотрудники наиболее активны

Время, когда сотрудники впервые включают свои устройства

Информация, документированная с помощью технологий, часто может найти применение в больших наборах данных и помогает создать представление о качестве сотрудников.

5. Ваш почтовый ящик

Современные почтовые сервисы являются хранилищами больших объемов пользовательских данных.

Хотя приведенная ниже информация относится не ко всем службам, это относится к некоторым из наиболее популярных поставщиков услуг электронной почты, включая Google и Yahoo. Обе эти компании используют алгоритмы для сканирования содержимого вашей электронной почты по определенным ключевым словам с целью предоставления рекламы, ориентированной на ваши интересы.

Например, это может включать ссылки для бронирования отелей после того, как вы получили электронное письмо с описанием предстоящей поездки.

6. Активность в социальных сетях

Сайты социальных сетей являются еще одним крупным поставщиком больших данных. Пользователи социальных сетей часто охотно предоставляют информацию о своей личной жизни таким службам, а соглашения об условиях обслуживания обычно предоставляют сайтам право хранить и использовать эту информацию по своему усмотрению.

Однако аналитику больших данных также можно использовать для документирования, какие функции пользователи соглашаются отключить, какие записи они удаляют и как часто они заходят на сайт в разные дни дня. Эта информация может быть использована для создания подробных профилей привычек пользователей и определения того, какая информация важна для них.

Использование больших данных

От использования в Интернете и приложений до кредитных карт и спутниковых изображений, компании теперь могут упаковать нашу жизнь во все большие наборы данных. Однако собрать все эти данные — это одно, а использовать их, чтобы узнать больше о тенденциях клиентов, — это другое.

Как эти данные можно использовать для предоставления информации о клиентах и сотрудниках.

1. Ваши ценности с высоты птичьего полета

Общедоступные спутниковые данные. С одной стороны — это то, что не может показать много информации. Фактически нам кажется, что мы ничего не видим, кроме расположения городов или особенностей местности.

Однако некоторые аналитики утверждают, что многое можно узнать о людях и организациях, основываясь на том, что видно с неба.

Например, компания под названием HaystaqDNA разработала алгоритмы, которые могут определить, есть ли у жителей солнечные батареи, установленные на их крышах.

Это позволяет иметь представление о том, какие жители следят за экологией и имеют достаточный доход, чтобы инвестировать в новые технологии.

2. Майнинг для рыночных тенденций

Dataminr — это компания, которая специализируется на изучении пользователей Twitter на основе их сообщений. Ежедневно публикуя более 500 миллионов твитов, организациям может быть интересно узнать, какие твиты важнее. Это может помочь дать ощущение срочных новостей или другой информации.

Dataminr просматривает эти твиты в режиме реального времени, используя алгоритмы для их классификации на основе важности, репутации пользователя и структуры информации. Например, если достаточное количество пользователей пишут в Твиттере по определенной теме, Dataminr может отправить клиентам предупреждение о том, что эти новости могут быть важными.

3. Прогнозирование успеха работника

HR-отделы обычно заинтересованы в создании подробных профилей своих сотрудников и в попытках количественно оценить производительность на рабочем месте.

Тем не менее, некоторые компании специализируются на более глубоком анализе.

Например, компания Evolv, работающая с большими данными, предполагает, что даже веб-браузер, который выбирает человек, может что-то сказать о будущей производительности.

Данные компании показывают, что пользователи, которые используют альтернативные браузеры, такие как Google Chrome или Mozilla Firefox, часто демонстрируют более высокую производительность, чем люди, которые используют браузеры по умолчанию, поставляемые с их системами.

4. Руководство для вашей следующей покупки

Данные с карт лояльности и кредитных карт могут предоставить ритейлерам больше информации, чем о том, сколько они продали определенного продукта. С большими данными информация обо всем, что клиент выбирает для покупки, может быть продана рекламным компаниям.

Читайте также:  Способы дыхания у насекомых

Рекламные компании делают это, чтобы они могли ориентироваться на потребителей с определенной историей покупок. Например, компания может захотеть рассылать рекламу всем, кто купил определенную кашу на завтрак в прошлом месяце.

5. Обнаружение изменений в образе жизни

Данные о покупках могут сделать больше, чем позволить компаниям сосредоточиться на определенных рекламных объявлениях.

В одном случае Target смогла использовать большие данные, чтобы обнаружить, что одна из ее клиенток была беременна, и позже отправила ей купоны на детские товары.

Статистик Эндрю Поул разработал формулу, состоящую из 25 продуктов, которые определяли вероятность беременности, когда продукты были куплены вместе.

Люди, которые неосознанно участвовали в эксперименте, не знали, что они были беременны во время эксперимента, но позже подтвердили, что система Поляка была правильной.

6. Максимизация покупок в приложении

Отслеживание игроков, когда они играют в свои любимые мобильные или консольные игры, может дать четкое представление о действиях, которые часто предпринимаются, прежде чем игрок решит потратить дополнительные деньги.

Используя такие инструменты, как HoneyLizer ™, разработчики программного обеспечения могут включать рекламные объявления в свои игры и максимизировать шансы на будущие покупки, не отвлекая пользователя.

7. Сканирование электронной почты для интересов

Многие компании часто проявляют активный интерес к содержанию электронных писем пользователя.

Предположим, вы отправляете электронное письмо другу о домашнем животном с помощью популярного сервиса, такого как Google Gmail.

Впоследствии, когда вы видите рекламу продуктов животного происхождения как в Gmail, так и в других областях Google, часто это является результатом анализа больших данных.

В Google Ads используются алгоритмы сканирования электронной почты и доставки целевой рекламы в зависимости от общих тем пользователей.

8. Использование отсутствия информации

Одним из интересных способов использования социальных сетей компаниями является понимание того, какие сообщения или темы удаляются и почему. Недавно группа исследователей из Гарвардского университета смогла сделать снимок всех постов в социальных сетях в Китае, а затем сопоставить список со снимком постов после того, как правительство подвергло их цензуре.

После сравнения первого снимка со вторым исследователи смогли определить типы постов, обычно подвергаемых цензуре китайскими властями, и, в свою очередь, лучше понять правящее правительство.

Легальность больших данных

Понимание, предоставляемое большими данными, может быть обширным, поскольку компании продолжают вводить новшества и разрабатывать новые способы понимания своих клиентов на основе увеличивающегося объема данных, доступных для них.

Однако некоторые защитники конфиденциальности могут поставить под сомнение законность использования больших данных.

Большие данные: как компании могут собирать ваши данные?

Условия обслуживания Соглашения

Когда вы пытаетесь понять, как компании могут собирать различную информацию о людях, вполне естественно, что компании получают эти данные незаконно. В действительности, однако, компании не только действуют в рамках своих законных прав, когда они собирают и используют эту информацию, но они делают это с явного юридического согласия своих клиентов.

Компании могут довольно легко получить легальный доступ к вашим данным, зачастую даже прежде, чем пользователи поймут, что они дали свое одобрение. Ключевым моментом здесь является более пристальное внимание к соглашениям об условиях обслуживания (ToS) и понимание того, что они означают для конфиденциальности клиентов.

Соглашения ToS — это длинные тексты, которые появляются при подписке на услугу. В качестве предварительного условия для создания новой учетной записи или использования новой программы пользователям часто предлагается прочитать, а затем принять условия. Поскольку эти термины длинны и полны иногда запутанных юридических структур предложений, большинство людей просто нажимают «согласиться» и переходят к созданию своих учетных записей.

При этом пользователи могут не осознавать, что они фактически «подписали» юридическое соглашение, позволяющее предприятиям делать то, что они включили в условия. Если в компании есть пункт, разрешающий сбор данных истории покупок клиентов, а затем вы нажимаете «согласиться», пользователь теряет любое законное право на возбуждение спора.

Проблема усложняется еще и тем, что некоторые компании включают в себя положения, которые дают им право изменять ПС без уведомления пользователей. Это означает, что, просто «соглашаясь» с ToS один раз, при первом создании учетной записи пользователи фактически соглашаются с любыми изменениями, которые компания хочет внести, даже если эти изменения включают все более инвазивные процедуры сбора данных.

Известные примеры

Каждый крупный веб-сервис поддерживает свою специфику ToS, и было бы невозможно наметить все, с чем пользователь соглашается в каждом случае онлайн. Но для вкуса того, что может быть включено в соглашение, некоторые примеры компании включают:

Google — Google оставляет за собой право хранить всю историю поиска и использовать ее и другую информацию о пользователях для будущих служб. Google также отслеживает пользователей на других веб-сайтах, которые используют виджеты Google или аналитическое программное обеспечение.

YouTube — YouTube сохраняет все, что пользователи выбирают для публикации. Простое удаление видео с сайта фактически не удаляет их с серверов YouTube. Сервис также оставляет за собой право удалять пользовательский контент без предупреждения и может изменять его условия без предварительного уведомления.

Facebook — Facebook включает в себя положения Условий обслуживания, которые позволяют отслеживать пользователей на других сайтах и автоматически обмениваться любыми данными, размещенными на сайте, с другими предприятиями и службами. Пользователи приложения Facebook Android также могут быть удивлены, узнав, что в ToS есть пункт, который позволяет записывать звук и видео в любое время без согласия пользователя.

Netflix — ToS for Netflix включает в себя как право раскрывать информацию о пользователях без предварительного уведомления, так и отказ от права на групповой иск против компании.

Прочитайте мелкий шрифт

Хотя эта информация может показаться причиной серьезной озабоченности, реальность сбора больших данных не так страшна, как может показаться. Тем не менее, в будущем, возможно, стоит уделить больше внимания соглашениям об условиях обслуживания. Убедитесь, что вы точно знаете, что вы «подписываете», когда переходите к следующему этапу создания учетной записи.

Читайте также:  Самый простой способ сглаза

Источник

О сборе данных. Как собирать данные, анализировать их и грабить корованы


В предыдущей статье мы рассматривали вопросы качества данных («О качестве данных и распространенных ошибках при их сборе» на Хабре).
Сегодня я хочу продолжить разговор о качестве данных и обсудить их сбор: как правильно расставить приоритеты при выборе источника, как и какие данные собирать, оценка ценности данных для компании и другое.

Собирайте всё

Вы решили улучшить оформление и оплату товара на сайте?
Отлично, а как проходит процесс формирования корзины покупателем? В какой момент он делает окончательный выбор товаров: до добавления в корзину или перед оплатой покупки?
На каждом сайте может быть по разному, но как ведет себя клиент у вас?
При обладании данными об оформлении заказа их можно проанализировать и определиться с вектором обновления, который будет удобен не только вам, но и пользователям.

Собирайте все данные, до которых дотягиваетесь. Вы никогда не будете знать со стопроцентной уверенностью, какие из них могут вам понадобится, а возможность сбора может выдаться только одна.

Чем больше данных вы соберете, тем больше информации о пользователях у вас будет, а что важнее — вы сможете понимать и прогнозировать контекст их поступков.
Контекст помогает лучше понимать своего клиента, его желания и намерения, а чем лучше вы знаете своего клиента, тем лучше вы сможете реализовать его персональные потребности, а значит повысить лояльность и повысить вероятность возврата клиента.

Сегодня сбор абсолютно всех данных уже не такая редкость, особенно это распространено в онлайн проектах. В компании, максимизирующей сбор данных и умеющей с ними работать, на их основе будет вестись практически вся деятельность: маркетинг, продажи, работа персонала, обновления и усовершенствования, поставки.
У каждого направления есть внутренние и внешние источники данных в различных форматах и разного качества.

Это хорошо для работы аналитиков и принятия решений, но отсюда также возникает проблема с хранением этого массива данных и их обработкой. Каждое действие увеличивает финансовую нагрузку и положительный эффект от обладания данными может вырасти в «головную боль».

Для принятия решения о целесообразности сбора и обработки тех или иных данных нужно понимание их основных характеристик. Давайте вкратце пройдемся по ним:

Объем
Показатель, влияющий на финансовые издержки по хранению и изменению данных и временные издержки по их обработке. И хотя с увеличением объема данных цена на хранение единицы снижается, но, учитывая увеличивающееся количество источников, финансовая нагрузка может стать нерациональной.

Разнообразие
Разнообразный набор источников данных дает более полную картину и помогает лучше оценить контекст действий пользователя, но обратная сторона медали — разнообразие форматов и расходы на их интеграцию в вашу систему аналитики. Не всегда все данные возможно собрать воедино, а если и возможно, то не всегда это необходимо.

Скорость
Какой объем данных требуется обрабатывать в единицу времени?
Вспомним недавние выборы президента США — благодаря быстрой обработке сообщений Twitter можно было понимать настроение избирателей в ходе дебатов и корректировать их ход.

Гигантам работы с данными, таким как Facebook и Google, на достижение сегодняшних результатов потребовать огромное количество времени, но благодаря этому у них теперь есть данные о каждом пользователе и они могут прогнозировать их действия.
Частая проблема персонала, работающего с данными — ограниченные ресурсы, в первую очередь финансовые и кадровые.
В большинстве компаний аналитикам приходится расставлять жесткие приоритеты в выборе источников данных, и тем самым отказываться от некоторых из них.
Кроме того необходимо учитывать интересы бизнеса, а значит оценивать рентабельность инвестиций в работу с данными и возможное влияние данных на компанию.

Приоритеты и выбор источников данных

При ограниченных ресурсах в работе с данными специалистам приходится расставлять приоритеты и делать выбор между источниками.
Чем же руководствоваться при этом и как определить ценность данных для компании?

Главная цель работы аналитиков — давать необходимую другим подразделениям информацию качественно и своевременно. Эта информация оказывает прямое влияние на эффективность компании и работу отделов.

У каждого отдела или подразделения есть свой «основной» тип данных.
Так для отдела по работе с клиентами важны контакты клиента и данные его социальных сетей, а для отдела маркетинга — история покупок и карта действий.
Так и выходит, что каждая команда имеет свой набор «очень важных данных» и эти данные определенно важнее и нужнее чем у других подразделений.

Вот только от важности и нужности данных проблема с ограниченными ресурсами не исчезает, а значит приходится расставлять приоритеты и действовать в соответствии с ними. Основной фактор для определения приоритетности данных — ROI, но не стоит забывать и про доступность, полноту и качество.
Вот список в котором приведены некоторые показатели, которые могут помочь в расстановке приоритетов:

Высокая
Причина: Данные нужны немедленно.
Объяснение: Если у какого-то подразделения появляется острая необходимость в данных с жестко ограниченными сроками, такие данные предоставляются в первую очередь.

Высокая
Причина: Данные повышают ценность.
Объяснение: Данные повышают прибыль или сокращают издержки, обеспечивая высокую ROI.

Высокая
Причина: Разным командам требуются одни и те же данные.
Объяснение: Удовлетворяя потребности нескольких команд в данных вы повышаете ROI.

Высокая
Причина: Краткосрочные или потоковые данные.
Объяснение: Некоторые интерфейсы и протоколы дают ограниченное по времени «окно» для сбора данных, следует поторопиться.

Средняя
Причина: Дополнение для существующего набора данных, которые повышают их качества.
Объяснение: Новые данные дополняют имеющиеся и улучшают понимание контекста действий.

Средняя
Причина: Код обработки данных может быть использован повторно.
Объяснение: Использование известного кода сокращает ROI и уменьшает количество возможных ошибок.

Средняя
Причина: Данные легко доступны.
Объяснение: Если данные ценны, а добыть их просто — вперед.

Средняя
Причина: Удобный API позволяет собрать данные за прошедшие периоды.
Объяснение: Если данные не требуются еще вчера, а вы всегда можете получить к ним доступ, то не стоит ставить им слишком высокий приоритет.

Низкая
Причина: Аналитики имеют доступ к данным или иные пути их получения.
Объяснение: Если у аналитиков уже имеется доступ к данным, то, возможно, есть более приоритетные задачи.

Читайте также:  Можжевельник народные способы лечения

Низкая
Причина: Низкое качество данных.
Объяснение: Низкокачественные данные могут быть бесполезны, а иногда и вредны.

Низкая
Причина: Необходимо извлечение из веб-страниц.
Объяснение: Обработка таких данных может быть достаточно сложной и требовать чрезмерных усилий.

Низкая
Причина: Низкая вероятность использования данных.
Объяснение: Данные, которые хорошо бы иметь, но если их нет, то и ладно.
Зато, обладая этими данными, можно грабить корованы!

Как мы видим не всякие данные важно предоставить «прямо сейчас», а значит необходимо расставлять приоритеты и следовать в соответствии с ними.
Важно сохранять баланс между приобретением новых данных и их ценностью для компании.

Взаимосвязь данных

Вы получаете важные данные от отдела продаж, маркетинга, от логистов и обратную связь от клиентов, но самая большая ценность данных возникает после установления связей между разными видами данных.

Для примера рассмотрим Диану и ее заказ. Недавно она заказала комплект садовой мебели, сопоставив ее заказ с данными аналитики, мы видим, что она провела на сайте 30 минут и просмотрела 20 разных наборов. Это значит, что она выбирала мебель уже на сайте, не зная заранее, что будет заказывать.
Смотрим откуда она пришла — поисковая выдача.

Если бы у нас была информация о других покупках Дианы, то мы бы узнали, что она за последний месяц часто покупала товары для дома.
Частые онлайн покупки и использования поисковиков для нахождения интернет-магазинов говорит о низкой лояльности брендам, а значит склонить ее к повторной покупке будет сложно.

Так, получая каждый новый уровень информации, составляется индивидуальный портрет пользователя, по которому можно узнать о его жизни, привязанностях, привычках и прогнозировать его поведение.
Добавляем информацию из оформления заказа и понимаем, что это женщина, а по адресу доставки видим, что она живет в частном секторе.

Продолжая анализировать можно найти информацию о ее доме и участке, спрогнозировать ее потребности и сделать превентивное предложение.
При правильном анализе данных предложение может сработать и мы склоним клиента к повторной покупке, а так же повысим его лояльность за счет индивидуального подхода.

Предложение скидок за приглашение друга из соцсети даст нам доступ к ее списку друзей и информации аккаунта, тогда можно будет продолжать индивидуальный маркетинговый подход к клиенту и составить под нее таргетированную рекламу, но это вряд ли будет рентабельно.

Сбор и покупка данных

Сегодня существует множество способов сбора данных, один из самых распространенных — API. Но кроме того как собрать данные, их нужно обновлять, и тут все уже зависит от объема.

Небольшие объемы данных (до 100 тысяч строк) целесообразнее заменять свежими, а вот с крупными массивами уже актуально частичное обновление: добавление новых и удаление устаревших значений.

Массивы некоторых данных настолько огромны, что обрабатывать их все будет слишком дорого для компании, в таких случая проводят выборку, и на ее основании проводят аналитику. Часто практикуется «простая случайная выборка», но обычно данные, собранные с ее помощью, не репрезентативны и сравнимы с подбрасыванием монетки.

Важный вопрос: собирать сырые или агрегированные данные?
Некоторые поставщики данных дают уже скомпилированные подборки, но у них есть несколько недостатков. Например, в них могут отсутствовать необходимые или желаемые значения, которые повысили бы ценность аналитики на основе этих данных для компании, но у вас не будет возможности собирать или дополнять их. Данные, собранные сторонними агрегаторами, удобны для архивации и хранения, также они значительно экономят время и человеческий ресурс.

Но если есть возможность собирать сырые данные, то лучше выбрать их — они более полные, и вы сможете самостоятельно агрегировать их в соответствии со своими потребностями и запросами бизнеса, а после работать с ними так, как вам потребуется.

Многие компании самостоятельно собирают данные, а также использует доступные в открытых источниках. Но в некоторых случаях они вынуждены заплатить за получение необходимых данных третьей стороне. Иногда выбор мест приобретения данных может быть ограничен, в других случаях нет, но независимо от этого при выборе источника данных и принятии решения о их приобретении следует обратить внимание на несколько факторов:

Цена
Все любят бесплатные данные — и руководство и аналитики, но иногда высококачественная информация доступна только за деньги. В таком случае следует взвесить рациональность приобретения и сравнить стоимость и ценность данных.

Качество
Данные чисты, им можно доверять?

Эксклюзивность
Данные подготовлены индивидуально для вас или доступны всем желающим? Вы получите преимущество перед конкурентами, если будете использовать их?

Выборка
Есть возможность получить выборку для оценки качества данных до приобретения?

Обновления
Какой срок жизни данных, как быстро они устаревают, будут ли они обновляться и как часто?

Надежность
Какие ограничения у интерфейсов получения данных, какие еще ограничения могут накладываться на вас?

Безопасность
Если данные важны, то будут ли они зашифрованы и насколько надежными протоколами? Также не стоит забывать о безопасности при их передаче.

Условия использования
Лицензирование или иные ограничения. Что может не позволить вам воспользоваться данными в полном объеме?

Формат
Насколько вам удобно работать с форматом приобретаемых данных? Есть ли возможность их интеграции в вашу систему?

Документация
Если вам предоставляют документацию — хорошо, а если нет, то стоит поинтересоваться способом сбора данных для оценки их ценности и надежности.

Объем
Если данных много, вы сможете обеспечить их хранение и обработку? Ценные данные не всегда будут объемные, как и наоборот.

Степень детализации
Эти данные подходят для уровня необходимой вам аналитики?

Это далеко не все, но основные и несомненно важные вопросы, которыми стоит задаться перед приобретением данных у поставщиков.

На этом я закончу статью по сбору данных.
Если информация была для вас полезна, то я буду рад обратной связи.
Возможно, вы с чем-то не согласны или хотите поделиться своими методами и наработками — приглашаю в комментарии, и надеюсь на увлекательное и полезное обсуждение.
Всем спасибо за внимание и хорошего дня!

Источник

Оцените статью
Разные способы