Алексей Семёнов
Что такое Big Data
Большие данные (Big Data, биг дата) — это структурированные и неструктурированные данные огромных объемов и разнообразия, а также методы их обработки, которые позволяют распределенно анализировать информацию.
Термин Big Data появился в 2008 году. Впервые его употребил редактор журнала Nature — Клиффорд Линч. Он рассказывал про взрывной рост объемов мировой информации и отмечал, что освоить их помогут новые инструменты и более развитые технологии.
Если говорить простыми словами, большие данные — это общее название для больших массивов данных и методов их обработки. Такие данные эффективно обрабатываются с помощью масштабируемых программных инструментов, которые появились в конце 2000-х годов и стали альтернативой традиционным базам данных и решениям Business Intelligence.
Анализ больших данных проводят для того, чтобы получить новую, ранее неизвестную информацию. Подобные открытия называют инсайтом, что означает озарение, догадку, внезапное понимание.
Традиционная аналитика |
Big data аналитика |
Постепенный анализ небольших пакетов данных |
Обработка сразу всего массива доступных данных |
Редакция и сортировка данных перед обработкой |
Данные обрабатываются в их исходном виде |
Старт с гипотезы и ее тестирования относительно данных |
Поиск корреляций по всем данным до получения искомой информации |
Данные собираются, обрабатываются, хранятся и лишь затем анализируются |
Анализ и обработка больших данных в реальном времени, по мере поступления |
Функции и задачи больших данных
Когда говорят о Big Data, упоминают правило VVV — три признака или свойства, которыми большие данные должны обладать:
Volume — объем (данные измеряются по величине физического объема документов).
Velocity — данные регулярно обновляются, что требует их постоянной обработки.
Variety — разнообразные данные могут иметь неоднородные форматы, быть неструктурированными или структурированными частично.
В России под Big Data подразумевают также технологии обработки, а в мире — лишь сам объект исследования.
Функция |
Задача |
Big Data — собственно массивы необработанных данных |
Хранение и управление большими объемами постоянно обновляющейся информации |
Data mining — процесс обработки и структуризации данных, этап аналитики для выявления закономерностей |
Структурирование разнообразных сведений, поиск скрытых и неочевидных связей для приведения к единому знаменателю |
Machine learning — процесс машинного обучения на основе обнаруженных связей в процессе анализа |
Аналитика и прогнозирование на основе обработанной и структурированной информации |
В 2007 году стал популярен новый тип машинного обучения — Deep learning (Глубокое обучение). Он позволил усовершенствовать нейронные сети до уровня ограниченного искусственного интеллекта. При обычном машинном обучении компьютер извлекал опыт через примеры программиста, а при Deep Learning система уже сама создает многоуровневые вычисления и делает выводы.
К источникам больших данных относят:
- Интернет — соцсети, блоги, СМИ, форумы, сайты, интернет вещей (IoT).
- Корпоративные данные — транзакционная деловая информация, архивы, базы данных.
- Показания устройств — датчиков, приборов, а также метеорологические данные, данные сотовой связи и т.д.
При этом нельзя сказать, что есть отдельные виды больших данных — суть метода в том, что он объединяет самые различные типы данных и извлекает из них новую, ранее недоступную информацию.
Для корректного функционирования система больших данных должна быть основана на определенных принципах:
- Горизонтальная масштабируемость — любая система, которая обрабатывает большие данные должна быть расширяемой. Если объем данных вырастет в 2 раза, то количество серверов в кластере также должно быть увеличено в 2 раза.
- Отказоустойчивость — необходимое условие при большом количестве машин, которые неизбежно будут выходить из строя.
- Локальность данных — для снижения издержек данные необходимо обрабатывать на том же сервере, где они хранятся.
Активнее всего большие данные используют в финансовой и медицинской отраслях, высокотехнологичных и интернет-компаниях, а также в государственном секторе.
Всех, кто имеет дело с большими данным, можно условно разделить на несколько групп:
- Поставщики инфраструктуры — решают задачи хранения и предобработки данных. Например: IBM, Microsoft, Oracle, Sap и другие.
- Датамайнеры — разработчики алгоритмов, которые помогают заказчикам извлекать ценные сведения. Среди них: Yandex Data Factory, «Алгомост», Glowbyte Consulting, CleverData и др.
- Системные интеграторы — компании, которые внедряют системы анализа больших данных на стороне клиента. К примеру: «Форс», «Крок» и др.
- Потребители — компании, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов. Это «Сбербанк», «Газпром», «МТС», «Мегафон» и другие компании из отраслей финансов, телекоммуникаций, ритейла.
- Разработчики готовых сервисов — предлагают готовые решения на основе доступа к большим данным. Они открывают возможности Big Data для широкого круга пользователей.
Основные поставщики больших данных в России — поисковые системы. Они имеют доступ к массивам данных, а кроме того, обладают достаточной технологической базой для создания новых сервисов.
На рынке бизнес-аналитики с 2012 года, когда компания запустила Google BigQuery — облачный сервис для анализа Big Data в режиме реального времени. Через год его интегрировали в Google Analytics Premium — платную версию счетчика. Недавно Google представила Cloud Bigtable — масштабируемый, облачный сервис баз данных.
Большинство сервисов компании построено на анализе больших данных: поисковый алгоритм на основе нейросетей «Палех», машинный перевод, фильтрация спама, таргетинг в контекстной рекламе, предсказание пробок и погоды, распознавание речи и образов, управление беспилотными автомобилями.
Некоторое время в «Яндексе» существовало отдельное подразделение Yandex Data Factory, которое оказывало консультационные услуги крупным компаниям. Но впоследствии эта структура была внедрена в отдел поиска.
Система веб-аналитики «Рейтинг Mail.Ru» — первый проект, который начал применять технологии обработки больших данных. Сейчас Big Data используется практически во всех сервисах компании — «Таргет.Mail.Ru», «Почта Mail.Ru», «Одноклассники», «Мой Мир», «Поиск Mail.Ru» и других.
С помощью анализа больших данных Mail.Ru таргетирует рекламу, оптимизирует поиск, ускоряет работу техподдержки, фильтрует спам, изучает поведение пользователей и т.д.
Сначала медиахолдинг использовал большие данные только в поиске, а затем в компании появилось направление датамайнинга. «Рамблер» применяет технологии для персонализации контента, блокировки ботов и спама, обработки естественного языка.
Выгоды использования технологии в бизнесе
- Упрощается планирование.
- Увеличивается скорость запуска новых проектов.
- Повышаются шансы проекта на востребованность.
- Можно оценить степень удовлетворенности пользователей.
- Проще найти и привлечь целевую аудиторию.
- Ускоряется взаимодействие с клиентами и контрагентами.
- Оптимизируются интеграции в цепи поставок.
- Повышается качество клиентского сервиса, скорость взаимодействия.
- Повышается лояльность текущих клиентов.
Интерес к технологиям больших данных в России растет, но у Big Data есть как драйверы, так и ограничители.
Драйверы |
Ограничители |
Высокий спрос на Big Data для повышения конкурентоспособности с помощью возможностей технологий |
Необходимость обеспечивать безопасность и конфиденциальность данных |
Развитие методов обработки медиафайлов на мировом уровне |
Нехватка квалифицированных кадров |
Реализация отраслевого плана по импортозамещению программного обеспечения |
В большинстве российских компаний объем накопленных информационных ресурсов не достигает уровня Big Data |
Тренд на использование услуг российских провайдеров и системных интеграторов |
Новые технологии сложно внедрять в устоявшиеся информационные системы компаний |
Создание технопарков, которые способствуют развитию информационных технологий |
Высокая стоимость технологий |
Государственная программа по внедрению грид-систем — виртуальных суперкомпьютеров, которые распространяются по кластерам и связываются сетью |
Заморозка инвестиционных проектов в России и отток зарубежного капитала |
Перенос на территорию России серверов, которые обрабатывают персональную информацию |
Рост цен на импортную продукцию |
Зачем нужны большие данные в маркетинге? Анализ массивов информации о компании открывает новые возможности:
- Понять работу бизнеса в цифрах.
- Изучить конкурентов.
- Узнать своих клиентов.
Маркетинг сможет выйти на новый уровень понимания и аналитики, что позволит снизить издержки и увеличить продажи.
Выгоды использования технологии в маркетинге
- Создание точных портретов целевых потребителей.
- Предсказание реакции потребителей на маркетинговые сообщения.
- Максимальная персонализация рекламных сообщений.
- Увеличение кросс-продаж, повторных продаж, ремаркетинга.
- Поиск и определение причин популярности востребованных товаров и продуктов.
- Совершенствование продуктов и услуг, повышение лояльности клиентов.
- Повышение качества обслуживания.
- Предупреждение мошенничества.
- Снижение издержек в работе с поставщиками и клиентами.
Благодаря специальным сервисам технологии больших данных, Big Data найдется применение в любом отделе маркетинга, в том числе среднего и малого бизнеса. Вам не потребуется устанавливать и обслуживать дорогостоящее оборудование и содержать специалиста.
«1С-Битрикс BigData»
Облачный сервис для персонализации торговых предложений, встроенный в систему управления сайтом. Позволяет повысить качество управления и эффективность рекламы, увеличить средний чек, объемы продаж и конверсию за счет персональных предложений, которые создаются на основе знаний о пользователе.
RTB Media
Сервис по управлению закупками цифровой рекламы, который помогает эффективно участвовать в RTB-аукционах. Использует большие данные для привлечения нужных покупателей. С помощью сервиса можно настроить кросс-канальный, поисковый и товарный ретаргетинг.
Alytics
Система сквозной аналитики с автоматизацией контекстной рекламы и интерактивными отчетами. Возможности: аналитика, интерактивные дашборды, коллтрекинг, автоматическое управление контекстной рекламой. Позволяет эффективно управлять рекламными бюджетами, предоставляет отчет о таких показателях, как CPA, ROI, выручка и др. Внедряется в несколько кликов, подойдет для специалистов по контекстной рекламе, маркетологов и руководителей.
Интерфейс раздела аналитики
Crossss
Сервис для мультиканальной персонализации интернет-магазинов, своеобразный мерчендайзинг для e-commerce. Сервис собирает информацию об интересах пользователей, анализирует ее и помогает предугадывать желания покупателя. Crossss может перестроить контент сайта лично на каждого пользователя на основе его поведения: выстроить выкладку товаров в каталоге, создать персонализированные и таргетированные почтовые рассылки.
Раздел аналитики в сервисе
Технологии Big Data уже обыденность — множество компаний использует их для решения задач своего бизнеса, наряду с автоматизацией и CRM. Будущее больших данных — применение технологий Blockchain, глубокое внедрение искусственного интеллекта, повсеместный переход на облачные сервисы и платформы для самостоятельной работы, а также анализ Dark Data — всей неоцифрованной информации о компании.
www.uplab.ru /blog/big-data-technologies/
Источник: https://www.uplab.ru/blog/big-data-technologies/ |