Формула Big Data: семь «V» + неординарная задача
Мир сходит с ума по Big Data, и это вполне логично: всем интересно, какие технологии будут использоваться в ближайшем будущем, когда на нас обрушатся новые лавины данных, и что из этого выйдет.
Все знают, что суть технологий Big Data – это работа с гигантскими массивами данных (что следует, впрочем, уже из самого термина). Но объем данных еще не делает погоды.
Аналитики придумали емкую формулу Big Data – они считают, что в определении проекта Big Data должны фигурировать семь важных характеристик, «7 V»: Volume, Velocity, Variety, Veracity, Variability, Visualization, Value. То есть объем, скорость, разнообразие, достоверность, изменчивость, визуализация, ценность. При этом каждая «V» важна для понимания общей картины.
Меньше всего вопросов вызывают первые три «V»: Volume, Velocity, Variety. Действительно, кто будет спорить, что Big Data – это прежде всего объем, Volume? Объем данных растет по экспоненте: например, самолеты ежегодно генерируют 2,5 млрд ТБ данных с датчиков, установленных в двигателях. При этом данные постоянно обновляются, генерятся новые, и скорость обновления (Velocity – вторая «V») также важна для того, чтобы считать их «большими». Например, каждую минуту в мире выполняется почти 2,5 миллиона запросов к поисковой системе Google. Задача проектов Big Data заключается в том, чтобы справиться с огромной скоростью, с которой данные создаются, и анализировать их в режиме реального времени.
Третья «V» – Variety, разнообразие. Это означает, что проекты Big Data должны включать данные в самых разных форматах: структурированные и неструктурированные данные, текстовые, графические, данные корпоративной почты или соцсетей, вплоть до видео. Каждый из этих типов данных требует различных типов анализа и подходящих инструментов. Социальные медиа могут помочь владельцам бренда проанализировать настроения клиентов, а сенсорные данные предоставят информацию о том, как чаще всего используется продукт, чтобы применить эти знания для его улучшения.
Еще недавно трех «V» было вполне достаточно. Но все на свете изменяется, в том числе и подходы к определению. Поэтому аналитики присовокупили еще четыре «V», чтобы избежать недопонимания. Итак, в определение были добавлены Veracity, Variability, Visualization, Value. Рассмотрим каждый из этих пунктов.
Veracity – Достоверность: безусловно, эта характеристика является крайне важной, поскольку любой анализ будет совершенно бесполезен, если данные окажутся недостоверными. Более того, нам крайне важно заранее удостовериться, что с данными все ок, ведь их неточность может привести к неправильным решениям. Самый простой пример – контакты с ложными именами и неточной контактной информацией.
Variability – Изменчивость: новое веяние в сфере Big Data. Здесь речь идет о том, что значение одних и тех же данных может различаться в зависимости от контекста, например, одни и те же слова в Твиттере могут иметь различные значения и отражать различные настроения. Мы должны учитывать все нюансы! Для того чтобы выполнить правильный анализ настроений, алгоритмы должны быть в состоянии понять контекст и быть в состоянии расшифровать точное значение слова в этом контексте.
Visualization – Визуализация: это необходимая часть анализа, поскольку именно визуализация делает большие данные доступными для человеческого восприятия. Визуализация больших объемов сложных данных гораздо более эффективна и понятна для человека, чем электронные таблицы и отчеты, полные чисел и формул. Конечно, визуализация в рамках Big Data не означает построение обычных графиков или круговых диаграмм: возможно, будут построены сложные графики, которые будут включать в себя множество переменных данных, однако они все равно останутся понятными и читаемыми.
Value – Ценность: здесь речь идет о том, чтобы извлечь максимум пользы из результатов анализа больших данных. Важно то, как вы будете использовать эти данные и сможете ли превратить свою организацию в продвинутую компанию, которая опирается на идеи, полученные из анализа данных, для принятия решений.
Однако и этих семи «V» недостаточно для понимания сути Big Data: речь идет о том, что все эти семь характеристик должны быть применены к сложной задаче, как правило, с несколькими переменными и нетривиальным условием.
И небольшое заключение в итоге: безусловно, мы не могли со спокойной совестью пройти мимо Big Data, поэтому сейчас в рамках продукта «Форсайт. Аналитическая платформа» развиваются все необходимые для работы с большими данными технологии: поддержка Hadoop, интеграция с программно-аппаратными комплексами, интеграция с решениями SAP.