Сайт о телевидении

Сайт о телевидении

» » Big data инструменты и технологии. Лучшие книги по Big Data. Большие Данные в разных странах мира

Big data инструменты и технологии. Лучшие книги по Big Data. Большие Данные в разных странах мира

«Big Data» - тема, которая активно обсуждается технологическими компаниями. Некоторые из них успели разочароваться в больших данных, другие - напротив, максимально используют их для бизнеса… Свежий аналитический обзор отечественного и мирового рынка «Big Data», подготовленный Московской Биржей совместно с аналитиками «IPOboard », показывает, какие тренды наиболее актуальны сейчас на рынке. Надеемся, информация будет интересной и полезной.

ЧТО ТАКОЕ BIG DATA?

Ключевые характеристики
Большие Данные, на сегодняшний момент, являются одним из ключевых драйверов развития информационных технологий. Это направление, относительно новое для российского бизнеса, получило широкое распространение в западных странах. Связано это с тем, что в эпоху информационных технологий, особенно после бума социальных сетей, по каждому пользователю интернета стало накапливаться значительное количество информации, что в конечном счете дало развитие направлению Big Data.

Термин «Большие Данные» вызывает множество споров, многие полагают, что он означает лишь объем накопленной информации, но не стоит забывать и о технической стороне, данное направление включает в себя технологии хранения, вычисления, а также сервисные услуги.

Следует отметить, что к данной сфере относится обработка именно большого объема информации, который затруднительно обрабатывать традиционными способами*.

Ниже представлена сравнительная таблица традиционной и базы Больших Данных.

Сфера Больших Данных характеризуется следующими признаками:
Volume – объем, накопленная база данных представляет собой большой объем информации, который трудоемко обрабатывать и хранить традиционными способами, для них требуются новый подход и усовершенствованные инструменты.
Velocity – скорость, данный признак указывает как на увеличивающуюся скорость накопления данных (90% информации было собрано за последние 2 года), так и на скорость обработки данных, в последнее время стали более востребованы технологии обработки данных в реальном времени.
Variety – многообразие, т.е. возможность одновременной обработки структурированной и неструктурированной разноформатной информации. Главное отличие структурированной информации – это то, что она может быть классифицирована. Примером такой информации может служить информация о клиентских транзакциях.
Неструктурированная информация включает в себя видео, аудио файлы, свободный текст, информацию, поступающую из социальных сетей. На сегодняшний день 80% информации входит в группу неструктурированной. Данная информация нуждается в комплексном анализе, чтобы сделать ее полезной для дальнейшей обработки.
Veracity – достоверность данных, все большее значение пользователи стали придавать значимость достоверности имеющихся данных. Так, у интернет-компаний есть проблема по разделению действий, проводимых роботом и человеком на сайте компании, что приводит в конечном счете к затруднению анализа данных.
Value – ценность накопленной информации. Большие Данные должны быть полезны компании и приносить определенную ценность для нее. К примеру, помогать в усовершенствовании бизнес-процессов, составлении отчетности или оптимизации расходов.

При соблюдении указанных выше 5 условий, накопленные объемы данных можно относить к числу больших.

Сферы применения Больших Данных

Сфера использования технологий Больших Данных обширна. Так, с помощью Больших Данных можно узнать о предпочтениях клиентов, об эффективности маркетинговых кампаний или провести анализ рисков. Ниже представлены результаты опроса IBM Institute, о направлениях использования Big Data в компаниях.

Как видно из диаграммы, большинство компаний используют Большие Данные в сфере клиентского сервиса, второе по популярности направление – операционная эффективность, в сфере управления рисками Большие Данные менее распространены на текущий момент.

Следует также отметить, что Big Data являются одной из самых быстрорастущих сфер информационных технологий, согласно статистике, общий объем получаемых и хранимых данных удваивается каждые 1,2 года.
За период с 2012 по 2014 год количество данных, ежемесячно передаваемых мобильными сетями, выросло на 81%. По оценкам Cisco, в 2014 году объем мобильного трафика составил 2,5 эксабайта (единица измерения количества информации, равная 10^18 стандартным байтам) в месяц, а уже в 2019 году он будет равен 24,3 эксабайтам.
Таким образом, Большие Данные – это уже устоявшаяся сфера технологий, даже несмотря на относительно молодой ее возраст, получившая распространение во многих сферах бизнеса и играющая немаловажную роль в развитии компаний.

Технологии Больших Данных
Технологии, используемые для сбора и обработки Больших Данных, можно разделить на 3 группы:
  • Программное обеспечение;
  • Оборудование;
  • Сервисные услуги.

К наиболее распространенным подходам обработки данных (ПО) относятся:
SQL – язык структурированных запросов, позволяющий работать с базами данных. С помощью SQL можно создавать и модифицировать данные, а управлением массива данных занимается соответствующая система управления базами данных.
NoSQL – термин расшифровывается как Not Only SQL (не только SQL). Включает в себя ряд подходов, направленных на реализацию базы данных, имеющих отличия от моделей, используемых в традиционных, реляционных СУБД. Их удобно использовать при постоянно меняющейся структуре данных. Например, для сбора и хранения информации в социальных сетях.
MapReduce – модель распределения вычислений. Используется для параллельных вычислений над очень большими наборами данных (петабайты* и более). В программном интерфейсе не данные передаются на обработку программе, а программа – данным. Таким образом запрос представляет собой отдельную программу. Принцип работы заключается в последовательной обработке данных двумя методами Map и Reduce. Map выбирает предварительные данные, Reduce агрегирует их.
Hadoop – используется для реализации поисковых и контекстных механизмов высоконагруженных сайтов – Facebook, eBay, Amazon и др. Отличительной особенностью является то, что система защищена от выхода из строя любого из узлов кластера, так как каждый блок имеет, как минимум, одну копию данных на другом узле.
SAP HANA – высокопроизводительная NewSQL платформа для хранения и обработки данных. Обеспечивает высокую скорость обработки запросов. Еще одним отличительным признаком является то, что SAP HANA упрощает системный ландшафт, уменьшая затраты на поддержку аналитических систем.

К технологическому оборудованию относят:

  • серверы;
  • инфраструктурное оборудование.
Серверы включают в себя хранилища данных.
К инфраструктурному оборудованию относят средства ускорения платформ, источники бесперебойного питания, комплекты серверных консолей и др.

Сервисные услуги.
Сервисные услуги включают в себя услуги по построению архитектуры системы базы данных, обустройству и оптимизации инфраструктуры и обеспечению безопасности хранения данных.

Программное обеспечение, оборудование, а также сервисные услуги вместе образуют комплексные платформы для хранения и анализа данных. Такие компании, как Microsoft, HP, EMC предлагают услуги по разработке, развертыванию решений Больших Данных и управления ими.

Применение в отраслях
Большие Данные получили широкое распространение во многих отраслях бизнеса. Их используют в здравоохранении, телекоммуникациях, торговле, логистике, в финансовых компаниях, а также в государственном управлении.
Ниже представлено несколько примеров применения Больших Данных в некоторых из отраслей.

Розничная торговля
В базах данных розничных магазинов может быть накоплено множество информации о клиентах, системе управления запасами, поставками товарной продукции. Данная информация может быть полезна во всех сферах деятельности магазинов.

Так, с помощью накопленной информации можно управлять поставками товара, его хранением и продажей. На основании накопленной информации можно прогнозировать спрос и поставки товара. Также система обработки и анализа данных может решить и другие проблемы ритейлера, например, оптимизировать затраты или подготовить отчетность.

Финансовые услуги
Большие Данные дают возможность проанализировать кредитоспособность заемщика, также они полезны для кредитного скоринга* и андеррайтинга**. Внедрение технологий Больших Данных позволит сократить время рассмотрения кредитных заявок. С помощью Больших Данных можно проанализировать операции конкретного клиента и предложить подходящие именно ему банковские услуги.

Телеком
В телекоммуникационной отрасли широкое распространение Большие Данных получили у сотовых операторов.
Операторы сотовой связи наравне с финансовыми организациями имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации.
Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента.

Помимо использования Big Data в маркетинговых целях, технологии применяются для предотвращения мошеннических финансовых операций.

Горнодобывающая и нефтяная промышленности
Большие Данные используются как при добыче полезных ископаемых, так и при их переработке и сбыте. Предприятия могут на основании поступившей информации делать выводы об эффективности разработки месторождения, отслеживать график капитального ремонта и состояния оборудования, прогнозировать спрос на продукцию и цены.

По данным опроса Tech Pro Research, наибольшее распространение Большие Данные получили в телекоммуникационной отрасли, а также в инжиниринге, ИТ, в финансовых и государственных предприятиях. По результатам данного опроса, менее популярны Большие Данные в образовании и здравоохранении. Результаты опроса представлены ниже:

Примеры использования Big Data в компаниях
На сегодняшний день Big Data активно внедряются в зарубежных компаниях. Такие компании, как Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC, AT&T, Coca Cola, Starbucks и Netflix уже используют ресурсы Больших Данных.

Сферы применения обработанной информации разнообразны и варьируются в зависимости от отрасли и задач, которые необходимо выполнить.
Далее будут представлены примеры применения технологий Больших Данных на практике.

HSBC использует технологии Больших Данных для противодействия мошеннических операций с пластиковыми картами. С помощью Big Data компания увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических инцидентов – в 10 раз. Экономический эффект от внедрения данных технологий превысил 10 млн долл. США.

Антифрод* VISA позволяет в автоматическом режиме вычислить операции мошеннического характера, система на данный момент помогает предотвратить мошеннические платежи на сумму 2 млрд долл. США ежегодно.

Суперкомпьютер Watson компании IBM анализирует в реальном времени поток данных по денежным транзакциям. По данным IBM, Watson на 15% увеличил количество выявленных мошеннических операций, на 50% сократил ложные срабатывания системы и на 60% увеличил сумму денежных средств, защищенных от транзакций такого характера.

Procter & Gamble с помощью Больших Данных проектируют новые продукты и составляют глобальные маркетинговые кампании. P&G создал специализированные офисы Business Spheres, где можно просматривать информацию в реальном времени.
Таким образом, у менеджмента компании появилась возможность мгновенно проверять гипотезы и проводить эксперименты. P&G считают, что Большие Данные помогают в прогнозировании деятельности компании.

Ритейлер офисных принадлежностей OfficeMax с помощью технологий Больших Данных анализируют поведение клиентов. Анализ Big Data позволил увеличить B2B выручку на 13%, уменьшить затраты на 400 000 долларов США в год.

По мнению Caterpillar , ее дистрибьюторы ежегодно упускают от 9 до 18 млрд долл. США прибыли только из-за того, что не внедряют технологии обработки Больших Данных. Big Data позволили бы клиентам более эффективно управлять парком машин, за счет анализа информации, поступающей с датчиков, установленных на машинах.

На сегодняшний день уже есть возможность анализировать состояние ключевых узлов, их степени износа, управлять затратами на топливо и техническое обслуживание.

Luxottica group является производителем спортивных очков, таким марок, как Ray-Ban, Persol и Oakley. Технологии Больших Данных компания применяет для анализа поведения потенциальных клиентов и «умного» смс-маркетинга. В результате Big Data Luxottica group выделила более 100 миллионов наиболее ценных клиентов и повысила эффективность маркетинговой кампании на 10%.

С помощью Yandex Data Factory разработчики игры World of Tanks анализируют поведение игроков. Технологии Больших Данных позволили проанализировать поведение 100 тысяч игроков World of Tanks с использованием более 100 параметров (информация о покупках, играх, опыт и др.). В результате анализа был получен прогноз оттока пользователей. Данная информация позволяет уменьшить уход пользователей и работать с участниками игры адресно. Разработанная модель оказалась на 20-30% эффективнее стандартных инструментов анализа игровой индустрии.

Министерство труда Германии использует Большие Данные в работе, связанной с анализом поступающих заявок на выдачу пособий по безработице. Так, проанализировав информацию, стало понятно, что 20% пособий выплачивалось незаслуженно. С помощью Big Data министерство труда сократило расходы на 10 млрд евро.

Детская больница Торонто внедрила проект Project Artemis. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Система ежесекундно отслеживает 1260 показателей состояния каждого ребенка. Project Artemis позволяет прогнозировать нестабильное состояние ребенка и начать профилактику заболеваний у детей.

ОБЗОР МИРОВОГО РЫНКА БОЛЬШИХ ДАННЫХ

Текущее состояние мирового рынка
В 2014 г. Большие Данные, по мнению Data Collective, стали одними из приоритетных направлений инвестирования в сфере венчурной индустрии. Согласно данным информационного портала Компьютерра, связано это с тем, что разработки из данного направления начали приносить значительные результаты для их пользователей. За прошедший год количество компаний с реализованными проектами в сфере управления большими данными увеличилось на 125%, объем рынка вырос на 45% по сравнению с 2013 годом.

Большую часть выручки рынка Big Data, по мнению Wikibon, в 2014 году составили сервисные услуги, их доля была равно 40% в общем объеме выручки (см. диаграмму ниже):

Если рассматривать Big Data за 2014 год по подтипам, то рынок будет выглядеть следующим образом:

Согласно данным Wikibon, приложения и аналитика составляет 36% выручки Big Data в 2014 году принесли приложения и аналитика Больших Данных, 17% - вычислительное оборудование и 15% - технологии хранения данных. Меньше всего выручки было сгенерировано NoSQL технологиями, инфраструктурным оборудованием и обеспечением сетью компаний (корпоративные сети).

Наибольшей популярностью пользуются такие технологии Big Data, как in-memory платформы компаний SAP, HANA, Oracle и др. Результаты опроса T-Systems показали, что их выбрали 30% опрошенных компаний. Вторыми по популярности стали NoSQL платформы (18% пользователей), также компании использовали аналитические платформы компаний Splunk и Dell, их выбрало 15% компаний. Наименее полезными для решения проблем Больших Данных, по результатам опроса оказались продукты Hadoop/MapReduce.

По данным опроса Accenture, в более чем 50% компаниях, использующих технологии Больших Данных, затраты на Big Data составляют от 21% до 30%.
Согласно следующими анализу Accenture, 76% компаний, считают, что данные расходы увеличатся в 2015 году, а 24% компаний не изменят своего бюджета на технологии Больших Данных. Это говорит о том, что в данных компаниях Big Data стали уже устоявшимся направлением ИТ, ставшим неотъемлемой частью развития компании.

Результаты опроса Economist Intelligence Unit survey подтверждают положительный эффект от внедрения Big Data. 46% компаний заявляют, что с помощью технологий Больших Данных они улучшили клиентский сервис более, чем на 10%, 33% компаний оптимизировали запасы и улучшили продуктивность основных активов, 32% компаний улучшили процессы планирования.

Большие Данные в разных странах мира
На сегодняшний день технологии Больших Данных чаще всего внедряются в компаниях США, но уже сейчас и другие страны мира начали проявлять интерес. В 2014 году, по данным IDC, на страны Европы, Ближнего Востока, Азии (за исключением Японии) и Африки пришлось 45% рынка ПО, услуг и оборудования в сфере Big Data.

Также, согласно опросу CIO, компании из стран Азиатско-Тихоокеанского региона быстрыми темпами осваивают новые решения в области анализа Больших Данных, безопасного хранения и облачных технологий. Латинская Америка находится на втором месте по количеству инвестиций в развитие технологий Больших Данных, опережая страны Европы и США.
Далее будет представлено описание и прогнозы развития рынка Больших Данных нескольких стран.

Китай
Объем информации Китая составляет 909 эксабайт, что равно 10% общего объема информации в мире, к 2020 году объем информации достигнет 8060 эксабайт, увеличится и доля информации в общемировой статистике, через 5 лет она будет равна 18%. Потенциальный рост Big Data Китая имеет одну из самых быстрорастущих динамик.

Бразилия
Бразилия по итогам 2014 года накопила информации на 212 эксабайт, что составляет 3% от общемирового объема. К 2020 году объем информации вырастет до 1600 эксабайт, что составит 4% информации всего мира.

Индия
По данным EMC, объем накопленных данных Индии по итогам 2014 года составляет 326 эксабайт, что составляет 5% от общего объема информации. К 2020 году объем информации вырастет до 2800 эксабайт, что составит 6% информации всего мира.

Япония
Объем накопленных данных Японии по итогам 2014 года составляет 495 эксабайт, что составляет 8% от общего объема информации. К 2020 году объем информации вырастет до 2200 эксабайт, но уменьшится доля рынка Японии и составит 5% об общего объема информации всего мира.
Таким образом, объем рынка Японии уменьшится на более, чем 30%.

Германия
По данным EMC, объем накопленных данных в Германии по итогам 2014 года составляет 230 эксабайт, что составляет 4% от общего объема информации в мире. К 2020 году объем информации вырастет до 1100 эксабайт и составит 2%.
На рынке Германии большую долю выручки, по прогнозам Experton Group, будет генерировать сегмент сервисных услуг, доля которых в 2015 году составит 54%, а в 2019 году увеличится до 59%, доли программного обеспечения и оборудования, наоборот, уменьшатся.

В целом, объем рынка вырастет с 1, 345 млрд евро в 2015 году до 3,198 млрд евро в 2019 году, средний темп роста составит 24%.
Таким образом, на основании аналитики CIO и EMC, можно сделать вывод о том, что развивающиеся страны мира в ближайшие годы станут рынками активного развития технологий Больших Данных.

Основные тенденции рынка
По мнению IDG Enterprise, в 2015 расходы компаний на сферу Больших Данных составят в среднем 7,4 млн долл. США на компанию, крупные компании намерены потратить примерно 13,8 млн долл. США, малые и средние – 1,6 млн долл. США.
Больше всего будет инвестировано в такие области, как анализ и визуализация данных и их сбор.
Согласно текущим тенденциям и спросу на рынке, инвестиции в 2015 году будут использованы на улучшение качества данных, совершенствование планирования и прогнозирования, а также на увеличение скорости обработки данных.
Компаниями финансового сектора, по данным Bain Company’s Insights Analysis, будут произведены значительные инвестиции, так в 2015 году планируется потратить 6,4 млрд долл. США на технологии Big Data, средний темп роста инвестиций составит 22% до 2020 года. Интернет-компании планируют потратить 2,8 млрд долл. США, средний темп роста увеличения затрат на Большие Данные составит 26%.
При проведении опроса Economist Intelligence Unit survey, были выявлены приоритетные направления развития Big Data в 2014 году и в ближайшие 3 года, распределение ответов выглядит следующим образом:

По прогнозам IDC тенденции развития рынка выглядят следующим образом:

  • В следующие 5 лет затраты на облачные решения в сфере технологий Больших Данных будут расти в 3 раза быстрее, чем затраты на локальные решения. Станут востребованными гибридные платформы для хранения данных.
  • Рост приложений с использованием сложной и прогнозной аналитики, включая машинное обучение, ускорится в 2015 году, рынок таких приложений будет расти на 65% быстрее, чем приложения, не использующие прогнозную аналитику.
  • Медиа аналитика утроится в 2015 году и станет ключевым драйвером роста рынка технологий Больших Данных.
  • Ускорится тенденция внедрения решений для анализа постоянного потока информации, которая применима для интернета вещей.
  • К 2018 году 50% пользователей будут взаимодействовать с сервисами, основанными на когнитивном вычислении.
Драйверы и ограничители рынка
Эксперты IDC, выделили 3 драйвера рынка Больших Данных 2015 года:

Согласно опросу Accenture, вопросы безопасности данных являются сейчас главным барьером на пути внедрения технологий Больших Данных, более 51% респондентов подтвердили, что беспокоятся за обеспечение защиты данных и их конфиденциальности. 47% компаний сообщили, о невозможности внедрения Big Data в связи с ограниченным бюджетом, 41% компаний в качестве проблемы указали нехватку квалифицированных кадров.

Wikibon прогнозирует, что объем рынка Big Data вырастет в 2015 году до 38,4 млрд долл. США и увеличится по сравнению с предыдущим годом на 36%. В ближайшие годы будет наблюдаться спад темпов роста до 10% в 2017 году. С учетом данных прогнозов, объем рынка в 2020 году будет равен 68,7 млрд долл. США.

Распределение общемирового рынка Больших Данных по бизнес-категориям будет выглядеть следующим образом:

Как видно из диаграммы, большую часть рынка будет занимать технологии из сферы улучшения клиентского сервиса. Точечный маркетинг будет на втором месте по приоритетности у компаний вплоть до 2019 года, в 2020 году, по прогнозу Heavy Reading, он уступит место решениям по улучшению операционной эффективности.
Самый высокий темп роста также будет у сегмента «улучшение клиентского сервиса», прирост - 49% ежегодно.
Прогноз рынка по подтипам Big Data будет выглядеть следующим образом:

Преобладающую долю рынка, как видно из диаграммы, занимают профессиональные услуги, самый высокий темп рост будет у приложений с аналитикой, их доля вырастет с нынешних 12% до 18% в 2020 году и объем данного сегмента будет равен 12,3 млрд долл. США, доля вычислительного оборудования, наоборот, упадет с 20% до 14% и составит порядка 9,3 млрд долл. США в 2020 году, рынок облачных технологий будет постепенно увеличиваться и в 2020 году достигнет 6,3 млрд долл. США, доля рынка решений для хранения данных, наоборот, уменьшится с 15% в 2014 году до 13% в 2020 году и в денежном выражении будет равна 8,9 млрд долл. США.
Согласно прогнозу Bain & Company’s Insights Analysis, распределение рынка Big Data по отраслям в 2020 году будет выглядеть следующим образом:

  • Финансовая отрасль будет осуществлять затраты на Big Data в размере 6,4 млрд долл. США со средним темпом роста 22% в год;
  • Интернет-компании потратят 2,8 млрд долл. США и средний темп роста затрат составит 26% за следующие 5 лет;
  • Затраты госсектора будут соразмерны затратам интернет-компаний, но темп роста будет ниже – 22%;
  • Сектор телекоммуникаций будет расти со средним темпом роста 40% и достигнет 1,2 млрд долл. США в 2020 году;

Энергетические компании будут инвестировать в данные технологии сравнительно небольшую сумму - 800 млн долл. США, но темп роста будет одним из самых высоких – 54% ежегодно.
Таким образом, большую долю рынка Big Data в 2020 году займут компании финансовой отрасли, а самым быстрорастущим сектором будет энергетика.
Следуя прогнозам аналитиков, общий объем рынка в ближайшие годы будет увеличиваться. Рост рынка будет обеспечен за счет внедрения технологий Больших Данных в развивающихся странах мира, как видно из представленного ниже графика.

Прогнозируемый объем рынка будет зависеть от того, как развивающиеся страны воспримут технологии Больших Данных, будет ли они также популярны как в развитых странах. В 2014 году развивающиеся страны мира занимали 40% от объема накопленной информации. По прогнозу EMC, нынешняя структура рынка, с преобладанием развитых стран, изменится уже в 2017 году. Согласно аналитике EMC, в 2020 году доля развивающихся стран будет более 60%.
По мнению Cisco и EMC, развивающиеся страны мира будут достаточно активно работать с Big Data, во многом это будет связано с доступностью технологий и накоплением достаточного объема информации до уровня Big Data. На карте мира, представленной на следующей странице, будет показан прогноз увеличения объема и темп роста Больших Данных по регионам.

АНАЛИЗ РОССИЙСКОГО РЫНКА

Текущее состояние российского рынка

Согласно результатам исследования CNews Analytics и Oracle, уровень зрелости российского рынка Big Data за последний год повысился. Респонденты, представляющие 108 крупных предприятий из разных отраслей, продемонстрировали более высокую степень осведомленности об этих технологиях, а также сложившееся понимание потенциала подобных решений для своего бизнеса.
По состоянию на 2014 год, по данным IDC, в России накоплено 155 эксабайт информации, что составляет всего лишь 1,8% мировых данных. Объем информации к 2020 году достигнет 980 эксабайт и займет 2,2%. Таким образом, средний темп роста объема информации составит 36% в год.
Компания IDC оценивает рынок России в 340 млн долл. США, из них 100 млн долл. США – решения SAP, примерно 240 млн долл. США – аналогичные решения Oracle, IBM, SAS, Microsoft и др.
Темп роста российского рынка Больших Данных составляет не менее, чем 50% в год.
Прогнозируется сохранение позитивной динамики в этом секторе российского рынка ИТ, даже в условиях общей стагнации экономики. Это связано с тем, что бизнес по-прежнему предъявляет спрос на решения, позволяющие повысить эффективность работы, а также оптимизацию расходов, улучшение точности прогнозирования и минимизировать возможные риски компании.
Основными провайдерами услуг в сфере Больших Данных на российском рынке являются:
  • Oracle
  • Microsoft
  • Cloudera
  • Hortonworks
  • Teradata.
Обзор рынка по отраслям и опыт применения Больших Данных в компаниях
По данным CNews, в России лишь 10% компаний начали использовать технологии Больших Данных, когда в мире доля таких компаний составляет порядка 30%. Готовность к проектам Big Data растет во многих отраслях экономики России - свидетельствует отчет СNews Analytics и Oracle. Более трети опрошенных компаний (37%) приступили к работе с технологиями Big Data, среди которых 20% уже используют такие решения, а 17% начинают экспериментировать с ними. Вторая треть респондентов в настоящий момент рассматривают такую возможность.

В России большей популярностью технологии Больших Данных пользуются в банковской сфере и телекоме, но они также востребованы в сфере добывающей промышленности, энергетике, ритейле, в логистических компаниях и госсекторе.
Далее будут рассмотрены примеры применения Больших Данных в российских реалиях.

Телеком
Телеком-операторы имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации.
Одной из сфер применения технологии Больших Данных является управление лояльностью абонентов.
Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента. Помимо использования информации в маркетинговых целях, в телекоме технологии применяются для предотвращения мошеннических финансовых операций.
Одним из ярких примеров данной отрасли является Вымпелком. Компания применяет Большие Данные для повышения качества обслуживания на уровне каждого абонента, составления отчетности, анализа данных для развития сети, борьбы со спамом и персонализации услуг.

Банки
Значительную долю пользователей Big Data занимают специалисты из финансовой отрасли. Одним из успешных опытов был проведен в Уральском банке реконструкции и развития, где информационную базу стали использовать для анализа клиентов, банк начал предлагать специализированные кредитные предложения, вклады и другие услуги. За год использования данных технологий розничный кредитный портфель компании вырос на 55%.
В Альфа-Банке анализируют информацию из социальных сетей, обрабатывают заявки на получение кредита, анализируют поведение пользователей сайта компании.
Сбербанк также приступил к обработке массива данных с целью сегментации клиентов, предотвращения мошеннических действий, перекрестных продаж и управления рисками. В дальнейшем планируется усовершенствовать сервис и анализировать действия клиентов в режиме реального времени.
Всероссийский банк развития регионов анализирует поведение владельцев пластиковых карт. Это позволяет выявить нетипичные для конкретного клиента операции, тем самым повышается вероятность выявления воровства денежных средств с пластиковых карточек.

Розничная торговля
В России технологии Больших Данных были внедрены компаниями как онлайн, так и офлайн торговли. На сегодняшний день, по данным CNews Analytics, Big Data используют 20% ритейлеров. 75% специалистов розничной торговли считают Большие Данные необходимыми для развития конкурентоспособной стратегии продвижения компании. По статистике Hadoop после внедрения технологии Больших Данных прибыль в торговых организациях вырастает на 7-10%.
Специалисты М.Видео говорят об улучшении логистического планирования после внедрения SAP HANA, также, в результате ее внедрения, подготовка годовой отчетности сократилась с 10 дней до 3, скорость ежедневной загрузки данных сократилась с 3 часов до 30 минут.
Wikimart используют данные технологии для формирования рекомендаций посетителям сайта.
Одним из первых офлайн-магазинов внедривших анализ Больших Данных в России, была «Лента». С помощью Big Data ритейл стал изучать информацию о покупателях из кассовых чеков. Ритейлер собирает информацию для составления поведенческих моделей, что дает возможность более обоснованно принимать решения на уровне операционной и коммерческой деятельности.

Нефтегазовая отрасль
В данной отрасли сфера применения Больших Данных достаточно широка. Технологии Больших Данных могут быть применены при добычи полезных ископаемых из недр. С их помощью можно анализировать сам процесс добычи и наиболее эффективные способы его извлечения, отслеживать процесс бурения, анализ качества сырья, а также обработку и сбыт конечной продукции. В России данными технологиями стали уже пользоваться Транснефть и Роснефть.

Государственные органы
В таких странах, как Германия, Австралия, Испания, Япония, Бразилия и Пакистан технологии Больших Данных используются для решения вопросов национального масштаба. Данные технологии помогают органам государственной власти более эффективно предоставлять услуги населению, оказывать адресную социальную поддержку.
В России данные технологии стали осваивать такие государственные органы, как Пенсионный Фонд, Федеральная Налоговая Служба и Фонда обязательного медицинского страхования. Потенциал реализации проектов с использованием Big Data большой, данные технологии могли бы помочь в улучшении качества сервисов, и, как следствие, уровня жизни населения.

Логистика и транспорт
Big Data также могут быть использованы транспортными компаниями. С помощью технологий Больших Данных можно отслеживать парк автомобилей, учитывать расходы на топливо, проводить мониторинг заявок клиентов.
РЖД внедрили технологии Big Data совместно с компанией SAP. Данные технологии помогли сократить срок подготовки отчетности в 43,5 раза (с 14,5 часов до 20 минут), повысить точность распределения затрат в 40 раз. Также Big Data были внедрены в процессы планирования и тарифного регулирования. Всего компаний используется более 300 систем на базе решений SAP, задействовано 4 дата-центра, а количество пользователей составило 220 000.

Основные драйверы и ограничители рынка
Драйверами развития технологий Больших Данных на российском рынке являются:
  • Повышенный интерес со стороны пользователей к возможностям Больших Данных, как к способу увеличения конкурентоспособности компании;
  • Развитие методов обработки медиа-файлов на общемировом уровне;
  • Перенос серверов, обрабатывающих персональную информацию на территорию России, согласно принятому закону о хранении и обработке персональных данных;
  • Осуществление отраслевого плана по импортозамещению программного обеспечения. Данный план включает в себя государственную поддержку отечественных производителей ПО, а также предоставление преференций отечественной ИТ-продукции при осуществлении закупок за государственный счет.
  • В новой экономической ситуации, когда курс доллара вырос практически в 2 раза, будет наблюдаться тренд по все большему использованию услуг российских провайдеров облачных услуг, нежели зарубежных.
  • Создание технопарков, способствующих развитию рынка информационных технологий, в том числе рынка Больших Данных;
  • Государственная программа по внедрению грид-систем, основой которым служат технологии Больших Данных.

Основными барьерами для развития Big Data на российском рынке являются:

  • Обеспечение безопасности и конфиденциальности данных;
  • Нехватка квалифицированных кадров;
  • Недостаточность накопленных информационных ресурсов до уровня Big Data в большинстве российских компаний;
  • Сложности внедрения новых технологий в устоявшиеся информационные системы компаний;
  • Высокая стоимость технологий Больших Данных, что приводит к ограниченному кругу предприятий, имеющих возможность внедрить данные технологии;
  • Политическая и экономическая неопределенность, приведшая к оттоку капитала и заморозке инвестиционных проектов на территории России;
  • Рост цен на импортную продукцию и всплеск инфляции, по мнению IDC, тормозят развитие всего рынка ИТ.
Прогноз российского рынка
По состоянию на сегодняшний день, российский рынок Больших Данных не настолько популярен как в развитых странах. Большинство российских компаний проявляют интерес к нему, но воспользоваться их возможностями не решаются.
Примеры крупных компаний, которые уже извлекли выгоду от использования технологий Больших Данных, расширяют осознание возможностей данных технологий.
У аналитиков также достаточно оптимистичные прогнозы относительно российского рынка. IDC считает, что доля российского рынка за следующие 5 лет увеличится, в отличии от рынка Германии и Японии.
К 2020 году объем Big Data России вырастет с нынешних 1,8% до 2,2% от общемирового объема данных. Количество информации вырастет, по данным EMC, с нынешних 155 эксабайт до 980 эксабайт в 2020 году.
В настоящий момент в России продолжается накопление объема информации до уровня Больших Данных.
Согласно опросу CNews Analytics, 44% опрошенных компаний работают с данными не более 100 терабайт* и лишь 13% работают с объемами выше 500 терабайт.

Тем не менее российский рынок, следуя мировым тенденциям, будет увеличиваться. По состоянию на 2014 год объем рынка компания IDC оценивает в 340 млн долл. США.
Темп роста рынка за предыдущие годы составлял 50% в год, если он останется на прежнем уровне, то уже в 2018 году объем рынка достигнет 1,7 млрд долл. США. Доля российского рынка в мировом составит около 3%, увеличившись с нынешних 1,2%.

К наиболее восприимчивым отраслям к использованию Big Data в России относятся:

  • Ритейл и банки, для них прежде всего важен анализ клиентской базы, оценка эффекта маркетинговых кампаний;
  • Телеком – сегментация клиентской базы и монетизация трафика;
  • Госсектор – ведение отчетности, анализ заявок от населения и др.;
  • Нефтяные компании – мониторинг работ и планирование добычи и сбыта;
  • Энергетические компании – создание интеллектуальных электроэнергетических систем, оперативный мониторинг и прогнозирование.
В развитых странах Big Data получила широкое распространение в сферах здравоохранения, страховании, металлургии, интернет-компаниях и на производственных предприятиях, скорее всего в ближайшем будущем российские компании из данных сфер также оценят эффект внедрения Big Data и будут приспосабливать данные технологии в своих отраслях.
В России также, как и в мире, в ближайшем будущем будет наблюдаться тренд на визуализацию данных, анализ медиа файлов и развитию интернета вещей.
Несмотря на общую стагнацию экономики, в ближайшие годы аналитики прогнозируют дальнейший рост рынка Больших Данных, в первую очередь это связано с тем, что использование технологий Больших Данных дает конкурентное преимущество ее пользователям в части повышения операционной эффективности бизнеса, привлечения дополнительного потока клиентов, минимизации рисков и внедрения технологий прогнозирования данных.
Таким образом, можно заключить, что сегмент Big Data в России находится на стадии формирования, но спрос на данные технологии с каждым годом увеличивается.

Основные результаты анализа рынка

Мировой рынок
По итогам 2014 года рынок Больших Данных характеризуется следующими параметрами:
  • объем рынка составил 28,5 млрд долл. США, увеличившись на 45% по сравнению с предыдущим годом;
  • большую часть выручки рынка Big Data составили сервисные услуги, их доля была равно 40% в общем объеме выручки;
  • 36% выручки принесли приложения и аналитика Больших Данных, 17% - вычислительное оборудование и 15% - технологии хранения данных;
  • наибольшей популярностью для решения проблем Больших Данных пользуются in-memory платформы таких компаний, как SAP, HANA и Oracle.
  • на 125% увеличилось количество компаний с реализованными проектами в сфере управления Большими Данными;
Прогноз рынка на следующие годы выглядит следующим образом:
  • в 2015 году объем рынка достигнет 38,4 млрд долл. США, в 2020 году – 68,7 млрд долл. США;
  • средний темп роста будет равен 16% ежегодно;
  • средние затраты компании на технологии Больших Данных составят 13,8 млн долл. США для крупных компаний и 1,6 млн долл. США для малого и среднего бизнеса;
  • технологии будут иметь наибольшую распространенность в сферах клиентского сервиса и точечного маркетинга;
  • в 2017 году изменится общемировая структура рынка в сторону преобладания компаний-пользователей из развивающихся стран.
Российский рынок
Российский рынок Больших Данных находится на стадии формирования, результаты 2014 года выглядят следующим образом:
  • объем рынка достиг 340 млн долл. США;
  • средний темп роста рынка в предыдущие годы составил 50% ежегодно;
  • общий объем накопленной информации составил 155 эксабайт;
  • 10% российских компаний начали использовать технологии Больших Данных;
  • большей популярностью технологии Больших Данных пользовались в банковской сфере, телекоме, интернет-компаниях и ритейле.
Прогноз российского рынка на ближайшие годы выглядит следующим образом:
  • объем рынка России в 2015 году достигнет 500 млн долл. США, а в 2018 году – 1,7 млрд долл. США;
  • доля российского рынка в мировом составит около 3% в 2018 году;
  • количество накопленных данных в 2020 году составит 980 эксабайт;
  • объем данных вырастет до 2,2% от общемирового объема данных в 2020 году;
  • наибольшую популярность приобретут технологии визуализации данных, анализа медиа файлов и интернета вещей.
По результатам анализа можно сделать вывод о том, что рынок Big Data все еще находится на ранних стадиях развития, и в ближайшем будущем мы будем наблюдать его рост и расширение возможностей данных технологий.

Спасибо, что уделили время прочтению этой объемной работы, подписывайтесь на наш блог - обещаем много новых интересных публикаций!

16.07.18. Mail.ru запустила Big Data as a Service

Облачная платформа Mail.ru пополнилась сервисом для анализа больших данных Cloud Big Data , который базируется на фреймворках Apache Hadoop и Spark. Сервис будет полезен ритейлерам, финансовым организациям, которым нужно анализировать большие данные, но которые не хотят тратить много денег на собственные сервера. Mail.ru берет деньги только за фактическое время работы оборудования. Так, кластер Hadoop из 10 узлов обойдется клиенту в 39 руб. за один час работы. Напомним, в прошлом году МТС запустил такой же BigData-сервис Cloud МТС . Стоимость использования сервиса составляла от 5 тыс. руб. в месяц. Также, услуги по обработке больших данных предоставляет .

2017. МТС запустила облачную платформу для обработки Big Data


Оператор МТС запустил услугу по облачной обработке больших данных для бизнеса в рамках своей облачной платформы #CloudМТС . Компании смогут работать с данными в программных средах Hadoop и Spark. Например, этот облачный сервис поможет бизнесу таргетировать рекламу, собирать и обрабатывать открытые данные, проводить финансовую и бизнес-аналитику. Интернет-магазины смогут анализировать поведение клиентов, а затем предлагать готовые таргетированные предложения к разным событиям и праздникам. Сервис работает при помощи предустановленных инструментов расчета, однако есть возможность создать собственные алгоритмы обработки данных. Стоимость использования сервиса составляет от 5 тысяч рублей в месяц, цена изменяется в зависимости от пространства, занятого в облаке. Напомним, платформа #CloudМТС была создана в 2016 году. Сначала она предоставляла только услуги облачного хранения данных, а позже появилась и услуга облачных вычислений.

2016. Big Data прогноз на Олимпиаду в Рио


Уже скоро Big Data сервисы будут подсказывать вам, какие решения принимать для роста и обеспечения безопасности вашего бизнеса. Пока же они, в основном, тренируются на спортивных мероприятиях. Помните, недавно интеллектуальная платформа Microsoft спрогнозировала результаты Чемпионата Европы по футболу? Так вот, нифига она не угадала. На этот раз американская компания Gracenote, которая специализируется на обработке больших данных, просчитала наиболее вероятный вариант медального зачета Олимпиады в Рио. На картинке - прогноз, который был составлен за месяц до Олимпиады. Он постоянно обновляется. Текущая версия - .

2016. Интеллектуальная платформа Microsoft спрогнозировала результаты Чемпионата Европы по футболу


У Microsoft (как у любого уважающего себя ИТ-гиганта) уже есть аналитическая платформа, основанная на обработке больших данных (Big Data) и искусственном интеллекте - Microsoft Cortana Intelligence Suite . На основании различных данных из ваших бизнес-систем, она может предсказать отток клиентов, поломки оборудования, изменение доходов и т.д. А сейчас, Microsoft дает нам возможность проверить, насколько точно работает эта платформа. Проанализировав футбольную историю, статистическую информацию о командах, результативности игроков, полученных травмах, а также комментарии фанатов в социальных сетях, она представила свой прогноз на Чемпионат Европы по футболу, который стартует сегодня. Итак, согласно прогнозу: в финале Германия победит Испанию с вероятностью 66%. А в стартовом матче Франция выиграет у Румынии с вероятностью 71%.

2016. SAP и Яндекс создают Big Data сервис для удержания клиентов


2 года назад Яндекс запустил сервис , который предоставляет услуги обработки больших данных для бизнесов. Этот сервис уже помог таким компаниям как Билайн и Wargaming (Word of Tanks) избегать оттока клиентов. Он предсказывает периоды оттока на основании исторических данных и дает бизнесу возможность подготовиться и вовремя предложить какую-нибудь новую акцию. Теперь, видимо, эта технология Яндекс заинтересовала крупнейшего в мире игрока на корпоративном ИТ рынке - компанию SAP. Компании объединили усилия, чтобы разработать сервис для предсказания поведения клиентов. По мнению SAP и YDF, сервис будут использовать в ритейле, e-commerce, банках и телекоммуникациях. Говорят, сервис будет предназначен для среднего бизнеса, в том числе, и по цене.

2016. PROMT Analyser - морфологический анализатор Big Data


Компания PROMT выпустила PROMT Analyser - решение в области искусственного интеллекта для работы с большими данными в информационно-аналитических системах. Инструмент предназначен для поиска, извлечения, обобщения и структуризации информации из практически любого текстового контента на разных языках как в корпоративных системах, так и во внешних источниках. Он анализирует любые тексты или документы, выделяет в них сущности (персоналии, организации, географические названия, геополитические сущности и др.), а также определяет соотносящиеся с этим сущностями действия, дату и место совершения действия, формирует целостный образ документа. PROMT Analyser позволяет решать самые разные задачи: анализ внутренних ресурсов компании (системы документооборота), анализ внешних ресурсов (медиа, блогосфера и пр.), анализ данных, получаемых из закрытых источников, для оценки критичности ситуаций, анализ деятельности объекта с привязкой к географии, а также оптимизация поисковых систем и служб поддержки.

2016. Mail.Ru поможет компаниям анализировать их данные


Mail.Ru стремится ни в чем не отставать от своего главного конкурента - Яндекса. Год назад Яндекс сервис анализа больших данных для бизнеса. А теперь Mail.ru открыла Big Data направление для корпоративных клиентов. Прежде всего, оно будет заниматься проектами, направленными на повышение эффективности процессов маркетинга и продаж, оптимизации производства, логистики, управления рисками, планирования, управления персоналом и другие рабочие процессы различных бизнесов. Например, Mail.ru сможет создать модель прогнозирования оттока клиентов, отклика на предложения, прогноз реакции на обращение через определенный канал коммуникации. Это позволит сделать взаимодействие с потенциальным клиентом более персонифицированным. В Mail.ru заявляют, что компания занимается анализом данных фактически с момента основания и имеет собственные технологии машинного обучения.

2015. IBM станет ведущим провайдером прогноза погоды для бизнеса


Важна ли погода для бизнеса? Конечно, особенно, если ваш бизнес - это сельхоз предприятие, турфирма, кафе или магазин одежды. Погода влияет на стабильность поставок, выбор ассортимента и активность продаж. В таком случае, каждая уважающая себя система бизнес-аналитики должна учитывать прогноз погоды. Так подумали в IBM и купили крупнейшую в мире метеослужбу The Weather Company. IBM планирует скормить данные из трех миллиардов прогнозных референсных точек своему суперкомпьютеру Watson и совершить переворот в прогнозировании погоды. Кроме того, они планируют создать платформу, которая позволит сторонним бизнес-приложениям использовать информацию о погоде за некоторую плату.

2015. Видео: как использовать Big Data для привлечения талантливых сотрудников


Вы все еще сомневаетесь, что Big Data - это полезно для бизнеса? Тогда посмотрите этот ролик о том, как Билайн привлекает новых талантливых работников с помощью Big Data. В начале сентября по Москве курсировало такое Big Data Taxi в виде автомобиля Tesla. По словам представителя Билайн, кроме помощи в привлечении новых талантов, технологии Big Data позволяют компании решать самые разные задачи. Начиная от таких простых и тривиальных, как «найди всех тех, кто пользуется SIM, купленной по чужому паспорту», и заканчивая - «определи возраст абонента по совокупности показателей».

2015. Microsoft представила говорящую Big Data платформу


Технологии Big Data обещают компаниям волшебную оптимизацию бизнес процессов, например: у вас всегда будет нужное количество товара в нужном месте, в нужное время. Но те компании, которые уже попробовали Big Data говорят: на практике это не работает. Существующие Big Data системы предназначены для аналитиков, а обычному сотруднику, который должен принять решение здесь и сейчас, они не помогают. Поэтому, в Microsoft решили выпустить Big Data платформу с человеческим лицом (точнее - голосом) - Cortana Analytics Suite . Она основана на облачной платформе Azure и использует голосового помощника Cortana в качестве интерфейса. Предполагается, что с помощью визуального конструктора любой начальник департамента сможет создавать мини-приложения, обрабатывающие большие объемы данных, а любой сотрудник - сможет спрашивать у Кортаны и получать нужную информацию в нужное время, в нужном месте.

2015. Видео: Что такое Big Data и кому это нужно?


Российский стартап CleverData позиционируется как Big Data-интегратор. Они реализуют проекты для решения конкретных бизнес-задач с использованием Big Data платформ и технологий. На видео генеральный директор CleverData Денис Афанасьев интересно рассказывает о том, что такое Big Data и откуда эти большие данные появились. Оказывается, технологии обработки больших данных существуют уже не один десяток лет, но причина появления маркетингового термина Big Data в том, что (благодаря облачным вычислениям) снизилась их стоимость, и они стали доступными малым-средним компаниям. По словам Дениса, чаще всего Big Data применяется для маркетинга (сегментация клиентской базой, онлайн реклама), ит безопасности (выявление мошенничества, прогнозирование поломок), риск менеджмента (оценка кредитоспособности клиентов).

2015. SAP представил Next Big Thing - ERP-систему S/4HANA


Первая ERP система SAP называлась R/2 и работала на мейнфреймах. Потом был R/3. В 2004 году появился SAP Business Suite. На днях SAP представил (как они говорят) самый главный продукт в своей истории - новую версию S4/HANA . При ее создании разработчики думали не о том, как утереть нос извечному конкуренту Oracle, а о том, как не дать себя обставить агрессивным SaaS-провайдерам Salesforce и Workday. Поэтому S4 сможет работать как локально, так и в облаке. Главная фишка системы - скорость. Как следует из названия, в основе S4 лежит ведущая Big-Data платформа SAP HANA, которая позволяет обрабатывать очень большие данные за секунды. Вторая главная фишка - интерфейс. Забудьте о сложных таблицах и меню, в которых без бутылки не разобраться. SAP хочет, чтобы новой мощной системой можно было управлять с помощью смартфона. Для работы с SAP можно будет использовать как минимум 25 простых приложений SAP Fiori. Вот их видеопрезентация:

2014. Яндекс открыл Big Data сервис для бизнеса


Яндекс запустил проект Yandex Data Factory , который будет предоставлять услуги обработки больших данных для бизнесов. Для этого он использует технологию машинного обучения Матрикснет, которую Яндекс разработал для ранжирования сайтов в своей поисковой системе. Заявляется, что Яндекс планирует стать конкурентом таким компаниям, как SAP AG и Microsoft. На данный момент специалисты Yandex Data Factory реализовали несколько пилотных проектов с европейскими компаниями. В частности искусственный интеллект Яндекса использовался компанией, обслуживающей линии электропередач, для прогнозирования поломок, банком - для таргетирования заемщиков, автодорожным агентством для прогнозирования пробок на дорогах. Кроме того, оказывается Яндекс обрабатывает данные, полученные из знаменитого адронного коллайдера в центре CERN.

2014. Microsoft поможет Мадридскому Реалу выигрывать с помощью Big Data


От добра добра не ищут. Мадридский Реал довольно хорошо играет в последнее время и добивается высоких результатов. Однако, лавры сборной Германии, выигравшей чемпионат мира с помощью не дают покоя президенту мадридского клуба Флорентино Пересу (крайний слева на фото). Поэтому он заключил контракт с Microsoft на сумму $30 млн, в рамках которого будет создана современная ИТ инфраструктура клуба. Тренерский состав и игроки Реала получат планшеты Surface Pro 3 с предустановленными приложениями Office 365 для более тесного взаимодействия персонала. А используя аналитические инструменты Power BI for Office 365, тренеры команды смогут изучать эффективность игры футболистов, определять долгосрочные тенденции и даже предсказывать травмы.

2014. 1С-Битрикс запустил сервис Big Data


Big Data - технологии для обработки очень больших объемов данных с целью получения простых и полезных для бизнеса результатов - это один из главных новых трендов ИТ рынка. А сервис 1С-Битрикс BigData - это пожалуй, первый отечественный сервис, основанный на этой технологии. Первым применением этого искусственного интеллекта станет оптимизация (персонализация) интернет-магазинов на движке Битрикс под каждого нового посетителя. На основе анализа большого количества данных о всех прошлых посетителях, сервис сможет предсказывать поведение нового посетителя на сайте, выделять похожих на него клиентов, и делать ему персонализированные предложения на основе истории покупок других клиентов. Вероятно, скоро можно будет ожидать Big Data функции и в системе управления бизнесом Битрикс24.

2014. SAP: Сборная Германии выиграла Чемпионат Мира благодаря Big Data


Недавно, в прошлом году, яхта Oracle выиграла Кубок Америки, и тогда в Oracle сказали , что эта победа произошла во многом благодаря системе анализа больших данных (Big Data) в облаке Oracle. Теперь настало время извечного конкурента Oracle - немецкой компании SAP ответить на этот PR-ход. Оказалось, что сборная Германии выиграла Чемпионат Мира по футболу тоже благодаря Big Data. В SAP разработали систему Match Insights , которая считывает футбольный матч в 3-х мерную цифровую модель и анализирует действия каждого игрока и команды в целом. Анализировались не только матчи собственной сборной (чтобы исправить ошибки и улучшить эффективность), но и матчи конкурентов. Искусственный интеллект находил слабые места соперников и помогал команде подготовиться к матчу. А мораль этой басни такова: Представьте, что Big Data может сделать для вашего бизнеса.

2014. КРОК запустил облачное решение класса Business Intelligence


Системный интегратор Крок запустил сервис бизнес-аналитики с говорящим названием "Business Intelligence as a Service" или BIaaS. Решение рассчитано на крупные организации, заинтересованные в снижении капитальных затрат и ускорении принятия управленческих решений. Система построена на продукте EMC Greenplum и представляет собой решение уровня Big Data. С помощью этого инструмента можно анализировать и сравнивать большие объемы информации, выстраивать ключевые показатели и принимать бизнес-решения, минуя стадию капитальных затрат на приобретение софта, лицензий и возможную модернизацию инфраструктуры. Решение позволяет реализовать три возможных сценария работы с данными - аналитика для ритейла, анализ показателей работы контакт-центра, а также оценка управленческой деятельности организации на соответствие KPI.

2013. SAP делает большие бизнесы эффективными с помощью Big Data. Конкуренты плачут


В последние годы SAP проявлял себя, как наименее инновационная ИТ компания (по сравнению с конкурентами Oracle, Microsoft, IBM). Все собственные инновационные проекты SAP в основном проваливались (вспомните ), и единственное, что получалось у SAP - это покупать другие компании (SuccessFactors, SyBase, Ariba). Но на этот раз SAP, похоже, решил утереть нос конкурентам. И сделает он это за счет новой модной технологии Big Data. Что это такое?

Постоянное ускорение роста объема данных является неотъемлемым элементом современных реалий. Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация – это лишь несколько видов источников, способных генерировать гигантские массивы данных.

В настоящее время термин Big Data (Большие данные) стал довольно распространенным. Далеко не все еще осознают то, насколько быстро и глубоко технологии обработки больших массивов данных меняют самые различные аспекты жизни общества. Перемены происходят в различных сферах, порождая новые проблемы и вызовы, в том числе и в сфере информационной безопасности, где на первом плане должны находиться такие важнейшие ее аспекты, как конфиденциальность, целостность, доступность и т. д.

К сожалению, многие современные компании прибегают к технологии Big Data, не создавая для этого надлежащей инфраструктуры, которая смогла бы обеспечить надежное хранение огромных массивов данных, которые они собирают и хранят. С другой стороны, в настоящее время стремительно развивается технология блокчейн, которая призвана решить эту и многие другие проблемы.

Что такое Big Data?

По сути, определение термина лежит на поверхности: «большие данные» означают управление очень большими объемами данных, а также их анализ. Если смотреть шире, то это информация, которая не поддается обработке классическими способами по причине ее больших объемов.

Сам термин Big Data (большие данные) появился относительно недавно. Согласно данным сервиса Google Trends , активный рост популярности термина приходится на конец 2011 года:

В 2010 году уже стали появляться первые продукты и решения, непосредственно связанные с обработкой больших данных. К 2011 году большинство крупнейших IT-компаний, включая IBM, Oracle, Microsoft и Hewlett-Packard, активно используют термин Big Data в своих деловых стратегиях. Постепенно аналитики рынка информационных технологий начинают активные исследования данной концепции.

В настоящее время этот термин приобрел значительную популярность и активно используется в самых различных сферах. Однако нельзя с уверенностью сказать, что Big Data – это какое-то принципиально новое явление – напротив, большие источники данных существуют уже много лет. В маркетинге ими можно назвать базы данных по покупкам клиентов, кредитным историям, образу жизни и т. д. На протяжении многих лет аналитики использовали эти данные, чтобы помогать компаниям прогнозировать будущие потребности клиентов, оценивать риски, формировать потребительские предпочтения и т. д.

В настоящее время ситуация изменилась в двух аспектах:

— появились более сложные инструменты и методы для анализа и сопоставления различных наборов данных;
— инструменты анализа дополнились множеством новых источников данных, что обусловлено повсеместным переходом на цифровые технологии, а также новыми методами сбора и измерения данных.

Исследователи прогнозируют, что технологии Big Data активнее всего будут использоваться в производстве, здравоохранении, торговле, госуправлении и в других самых различных сферах и отраслях.

Big Data – это не какой-либо определенный массив данных, а совокупность методов их обработки. Определяющей характеристикой для больших данных является не только их объем, но также и другие категории, характеризующие трудоемкие процессы обработки и анализа данных.

В качестве исходных данных для обработки могут выступать, например:

— логи поведения интернет-пользователей;
— Интернет вещей;
— социальные медиа;
— метеорологические данные;
— оцифрованные книги крупнейших библиотек;
— GPS-сигналы из транспортных средств;
— информация о транзакциях клиентов банков;
— данные о местонахождении абонентов мобильных сетей;
— информация о покупках в крупных ритейл-сетях и т.д.

Со временем объемы данных и количество их источников непрерывно растет, а на этом фоне появляются новые и совершенствуются уже имеющиеся методы обработки информации.

Основные принципы Big Data:

— Горизонтальная масштабируемость – массивы данных могут быть огромными и это значит, что система обработки больших данных должна динамично расширяться при увеличении их объемов.
— Отказоустойчивость – даже при сбое некоторых элементов оборудования, вся система должна оставаться работоспособной.
— Локальность данных. В больших распределенных системах данные обычно распределяются по значительному числу машин. Однако по мере возможности и в целях экономии ресурсов данные часто обрабатываются на том же сервере, что и хранятся.

Для стабильной работы всех трех принципов и, соответственно, высокой эффективности хранения и обработки больших данных необходимы новые прорывные технологии, такие как, например, блокчейн.

Для чего нужны большие данные?

Сфера применения Big Data постоянно расширяется:

— Большие данные можно использовать в медицине. Так, устанавливать диагноз пациенту можно не только опираясь на данные анализа истории болезни, но также принимая во внимание опыт других врачей, сведения об экологической ситуации района проживания больного и многие другие факторы.
— Технологии Big Data могут использоваться для организации движения беспилотного транспорта.
— Обрабатывая большие массивы данных можно распознавать лица на фото- и видеоматериалах.
— Технологии Big Data могут быть использованы ритейлерами – торговые компании могут активно использовать массивы данных из социальных сетей для эффективной настройки своих рекламных кампаний, которые могут быть максимально ориентированы под тот или иной потребительский сегмент.
— Данная технология активно используется при организации предвыборных кампаний, в том числе для анализа политических предпочтений в обществе.
— Использование технологий Big Data актуально для решений класса гарантирования доходов (RA) , которые включают в себя инструменты обнаружения несоответствий и углубленного анализа данных, позволяющие своевременно выявить вероятные потери, либо искажения информации, способные привести к снижению финансовых результатов.
— Телекоммуникационные провайдеры могут агрегировать большие данные, в том числе о геолокации; в свою очередь эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа таргетированной и локальной рекламы, а также для ритейлеров и банков.
— Большие данные могут сыграть важную роль при решении открытия торговой точки в определенной локации на основе данных о наличии мощного целевого потока людей.

Таким образом наиболее очевидное практическое применение технологии Big Data лежит в сфере маркетинга. Благодаря развитию интернета и распространению всевозможных коммуникационных устройств поведенческие данные (такие как число звонков, покупательские привычки и покупки) становятся доступными в режиме реального времени.

Технологии больших данных могут также эффективно использоваться в финансах, для социологических исследований и во многих других сферах. Эксперты утверждают, что все эти возможности использования больших данных являются лишь видимой частью айсберга, поскольку в гораздо больших объемах эти технологии используются в разведке и контрразведке, в военном деле, а также во всем том, что принято называть информационными войнами.

В общих чертах последовательность работы с Big Data состоит из сбора данных, структурирования полученной информации с помощью отчетов и дашбордов, а также последующего формулирования рекомендаций к действию.

Рассмотрим вкратце возможности использования технологий Big Data в маркетинге. Как известно, для маркетолога информация – главный инструмент для прогнозирования и составления стратегии. Анализ больших данных давно и успешно применяется для определения целевой аудитории, интересов, спроса и активности потребителей. Анализ больших данных, в частности, позволяет выводить рекламу (на основе модели RTB-аукциона - Real Time Bidding) только тем потребителям, которые заинтересованы в товаре или услуге.

Применение Big Data в маркетинге позволяет бизнесменам:

— лучше узнавать своих потребителей, привлекать аналогичную аудиторию в Интернете;
— оценивать степень удовлетворенности клиентов;
— понимать, соответствует ли предлагаемый сервис ожиданиям и потребностям;
— находить и внедрять новые способы, увеличивающие доверие клиентов;
— создавать проекты, пользующиеся спросом и т. д.

Например, сервис Google.trends может указать маркетологу прогноз сезонной активности спроса на конкретный продукт, колебания и географию кликов. Если сопоставить эти сведения со статистическими данными, собираемыми соответствующим плагином на собственном сайте, то можно составить план по распределению рекламного бюджета с указанием месяца, региона и других параметров.

По мнению многих исследователей, именно в сегментации и использовании Big Data заключается успех предвыборной кампании Трампа. Команда будущего президента США смогла правильно разделить аудиторию, понять ее желания и показывать именно тот месседж, который избиратели хотят видеть и слышать. Так, по мнению Ирины Белышевой из компании Data-Centric Alliance, победа Трампа во многом стала возможной благодаря нестандартному подходу к интернет-маркетингу, в основу которого легли Big Data, психолого-поведенческий анализ и персонализированная реклама.

Политтехнологи и маркетологи Трампа использовали специально разработанную математическую модель, которая позволила глубоко проанализировать данные всех избирателей США систематизировать их, сделав сверхточный таргетинг не только по географическим признаками, но также и по намерениям, интересам избирателей, их психотипу, поведенческим характеристикам и т. д. После этого маркетологи организовали персонализированную коммуникацию с каждой из групп граждан на основе их потребностей, настроений, политических взглядов, психологических особенностей и даже цвета кожи, используя практически для каждого отдельного избирателя свой месседж.

Что касается Хиллари Клинтон, то она в своей кампании использовала «проверенные временем» методы, основанные на социологических данных и стандартном маркетинге, разделив электорат лишь на формально гомогенные группы (мужчины, женщины, афроамериканцы, латиноамериканцы, бедные, богатые и т. д.).

В результате выиграл тот, кто по достоинству оценил потенциал новых технологий и методов анализа. Примечательно, что расходы на предвыборную кампанию Хиллари Клинтон были в два раза больше, чем у ее оппонента:

Данные: Pew Research

Основные проблемы использования Big Data

Помимо высокой стоимости, одним из главных факторов, тормозящих внедрение Big Data в различные сферы, является проблема выбора обрабатываемых данных: то есть определения того, какие данные необходимо извлекать, хранить и анализировать, а какие – не принимать во внимание.

Еще одна проблема Big Data носит этический характер. Другими словами возникает закономерный вопрос: можно ли подобный сбор данных (особенно без ведома пользователя) считать нарушением границ частной жизни?

Не секрет, что информация, сохраняемая в поисковых системах Google и Яндекс, позволяет IT-гигантам постоянно дорабатывать свои сервисы, делать их удобными для пользователей и создавать новые интерактивные приложения. Для этого поисковики собирают пользовательские данные об активности пользователей в интернете, IP-адреса, данные о геолокации, интересах и онлайн-покупках, личные данные, почтовые сообщения и т. д. Все это позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в интернете. При этом обычно согласия пользователей на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается. То есть по умолчанию в Big Data собирается все, что затем будет храниться на серверах данных сайтов.

Из этого вытекает следующая важная проблема, касающаяся обеспечения безопасности хранения и использования данных. Например, безопасна ли та или иная аналитическая платформа, которой потребители в автоматическом режиме передают свои данные? Кроме того, многие представители бизнеса отмечают дефицит высококвалифицированных аналитиков и маркетологов, способных эффективно оперировать большими объемами данных и решать с их помощью конкретные бизнес-задачи.

Несмотря на все сложности с внедрением Big Data, бизнес намерен увеличивать вложения в это направление. По данным исследования Gartner, лидерами инвестирующих в Big Data отраслей являются медиа, ритейл, телеком, банковский сектор и сервисные компании.

Перспективы взаимодействия технологий блокчейн и Big Data

Интеграция с Big Data несет в себе синергетический эффект и открывает бизнесу широкий спектр новых возможностей, в том числе позволяя:

— получать доступ к детализированной информации о потребительских предпочтениях, на основе которых можно выстраивать подробные аналитические профили для конкретных поставщиков, товаров и компонентов продукта;
— интегрировать подробные данные о транзакциях и статистике потребления определенных групп товаров различными категориями пользователей;
— получать подробные аналитические данные о цепях поставок и потребления, контролировать потери продукции при транспортировке (например, потери веса вследствие усыхания и испарения некоторых видов товаров);
— противодействовать фальсификациям продукции, повысить эффективность борьбы с отмыванием денег и мошенничеством и т. д.

Доступ к подробным данным об использовании и потреблении товаров в значительной мере раскроет потенциал технологии Big Data для оптимизации ключевых бизнес-процессов, снизит регуляторные риски, раскроет новые возможности монетизации и создания продукции, которая будет максимально соответствовать актуальным потребительским предпочтениям.

Как известно, к технологии блокчейн уже проявляют значительный интерес представители крупнейших финансовых институтов, включая , и т. д. По мнению Оливера Буссманна, IT-менеджера швейцарского финансового холдинга UBS, технология блокчейн способна «сократить время обработки транзакций от нескольких дней до нескольких минут».

Потенциал анализа из блокчейна при помощи технологии Big Data огромен. Технология распределенного реестра обеспечивает целостность информации, а также надежное и прозрачное хранение всей истории транзакций. Big Data, в свою очередь, предоставляет новые инструменты для эффективного анализа, прогнозирования, экономического моделирования и, соответственно, открывает новые возможности для принятия более взвешенных управленческих решений.

Тандем блокчейна и Big Data можно успешно использовать в здравоохранении. Как известно, несовершенные и неполные данные о здоровье пациента в разы увеличивают риск постановки неверного диагноза и неправильно назначенного лечения. Критически важные данные о здоровье клиентов медучреждений должны быть максимально защищенными, обладать свойствами неизменности, быть проверяемыми и не должны быть подвержены каким-либо манипуляциям.

Информация в блокчейне соответствует всем перечисленным требованиям и может служить в роли качественных и надежных исходных данных для глубокого анализа при помощи новых технологий Big Data. Помимо этого, при помощи блокчейна медицинские учреждения смогли бы обмениваться достоверными данными со страховыми компаниями, органами правосудия, работодателями, научными учреждениями и другими организациями, нуждающимися в медицинской информации.

Big Data и информационная безопасность

В широком понимании, информационная безопасность представляет собой защищенность информации и поддерживающей инфраструктуры от случайных или преднамеренных негативных воздействий естественного или искусственного характера.

В области информационной безопасности Big Data сталкивается со следующими вызовами:

— проблемы защиты данных и обеспечения их целостности;
— риск постороннего вмешательства и утечки конфиденциальной информации;
— ненадлежащее хранение конфиденциальной информации;
— риск потери информации, например, вследствие чьих-либо злонамеренных действий;
— риск нецелевого использования персональных данных третьими лицами и т. д.

Одна из главных проблем больших данных, которую призван решить блокчейн, лежит в сфере информационной безопасности. Обеспечивая соблюдение всех основных ее принципов, технология распределенного реестра может гарантировать целостность и достоверность данных, а благодаря отсутствию единой точки отказа, блокчейн делает стабильной работу информационных систем. Технология распределенного реестра может помочь решить проблему доверия к данным, а также предоставить возможность универсального обмена ими.

Информация – ценный актив, а это значит, что на первом плане должен стоять вопрос обеспечения основных аспектов информационной безопасности. Для того, чтобы выстоять в конкурентной борьбе, компании должны идти в ногу со временем, а это значит, что им нельзя игнорировать те потенциальные возможности и преимущества, которые заключают в себе технология блокчейн и инструменты Big Data.

Термин «Биг-Дата», возможно, сегодня уже узнаваем, но вокруг него все еще довольно много путаницы относительно того, что же он означает на самом деле. По правде говоря, концепция постоянно развивается и пересматривается, поскольку она остается движущей силой многих продолжающихся волн цифрового преобразования, включая искусственный интеллект, науку о данных и Интернет вещей. Но что же представляет собой технология Big-Data и как она меняет наш мир? Давайте попробуем разобраться объяснить суть технологии Биг-Даты и что она означает простыми словами.

Удивительный рост Биг-Даты

Все началось со «взрыва» в объеме данных, которые мы создали с самого начала цифровой эпохи. Это во многом связано с развитием компьютеров, Интернета и технологий, способных «выхватывать» данные из окружающего нас мира. Данные сами по себе не являются новым изобретением. Еще до эпохи компьютеров и баз данных мы использовали бумажные записи транзакций, клиентские записи и архивные файлы, которые и являются данными. Компьютеры, в особенности электронные таблицы и базы данных, позволили нам легко и просто хранить и упорядочивать данные в больших масштабах. Внезапно информация стала доступной при помощи одного щелчка мыши.

Тем не менее, мы прошли долгий путь от первоначальных таблиц и баз данных. Сегодня через каждые два дня мы создаем столько данных, сколько мы получили с самого начала вплоть до 2000 года. Правильно, через каждые два дня. И объем данных, которые мы создаем, продолжает стремительно расти; к 2020 году объем доступной цифровой информации возрастет примерно с 5 зеттабайтов до 20 зеттабайтов.

В настоящее время почти каждое действие, которое мы предпринимаем, оставляет свой след. Мы генерируем данные всякий раз, когда выходим в Интернет, когда переносим наши смартфоны, оборудованные поисковым модулем, когда разговариваем с нашими знакомыми через социальные сети или чаты и т.д. К тому же, количество данных, сгенерированных машинным способом, также быстро растет. Данные генерируются и распространяются, когда наши «умные» домашние устройства обмениваются данными друг с другом или со своими домашними серверами. Промышленное оборудование на заводах и фабриках все чаще оснащается датчиками, которые аккумулируют и передают данные.

Термин «Big-Data» относится к сбору всех этих данных и нашей способности использовать их в своих интересах в широком спектре областей, включая бизнес.

Как работает технология Big-Data?

Биг Дата работает по принципу: чем больше вы знаете о том или ином предмете или явлении, тем более достоверно вы сможете достичь нового понимания и предсказать, что произойдет в будущем. В ходе сравнения большего количества точек данных возникают взаимосвязи, которые ранее были скрыты, и эти взаимосвязи позволяют нам учиться и принимать более взвешенные решения. Чаще всего это делается с помощью процесса, который включает в себя построение моделей на основе данных, которые мы можем собрать, и дальнейший запуск имитации, в ходе которой каждый раз настраиваются значения точек данных и отслеживается то, как они влияют на наши результаты. Этот процесс автоматизирован — современные технологии аналитики будут запускать миллионы этих симуляций, настраивая все возможные переменные до тех пор, пока не найдут модель — или идею — которые помогут решить проблему, над которой они работают.

Бил Гейтс висит над бумажным содержимым одного компакт диска

До недавнего времени данные были ограничены электронными таблицами или базами данных — и все было очень упорядочено и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для работы и игнорировалось. Однако прогресс в области хранения и аналитики означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная базами данных, и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков.

Чтобы понять все эти беспорядочные данные, проекты, имеющие в основе Биг Дату, зачастую используют ультрасовременную аналитику с привлечением искусственного интеллекта и компьютерного обучения. Обучая вычислительные машины определять, что же представляют собой конкретные данные — например, посредством распознавания образов или обработки естественного языка – мы можем научить их определять модели гораздо быстрее и достовернее, чем мы сами.

Как используется Биг-Дата?

Этот постоянно увеличивающийся поток информации о данных датчиков, текстовых, голосовых, фото- и видеоданных означает, что теперь мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Это привносит революционные изменения в мир бизнеса едва ли не в каждой отрасли. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать приобретение, и когда. Биг Дата также помогает компаниям выполнять свою деятельность намного эффективнее.

Даже вне сферы бизнеса проекты, связанные с Big-Data, уже помогают изменить наш мир различными путями:

  • Улучшая здравоохранение — медицина, управляемая данными, способна анализировать огромное количество медицинской информации и изображений для моделей, которые могут помочь обнаружить заболевание на ранней стадии и разработать новые лекарства.
  • Прогнозируя и реагируя на природные и техногенные катастрофы. Данные датчиков можно проанализировать, чтобы предсказать, где могут произойти землетрясения, а модели поведения человека дают подсказки, которые помогают организациям оказывать помощь выжившим. Технология Биг Даты также используется для отслеживания и защиты потока беженцев из зон военных действий по всему миру.
  • Предотвращая преступность. Полицейские силы все чаще используют стратегии, основанные на данных, которые включают их собственную разведывательную информацию и информацию из открытого доступа для более эффективного использования ресурсов и принятия сдерживающих мер там, где это необходимо.

Лучшие книги о технологии Big-Data

  • Все лгут. Поисковики, Big Data и Интернет знают о вас всё .
  • BIG DATA. Вся технология в одной книге .
  • Индустрия счастья. Как Big Data и новые технологии помогают добавить эмоцию в товары и услуги .
  • Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики .

Проблемы с Big-Data

Биг Дата дает нам беспрецедентные идеи и возможности, но также поднимает проблемы и вопросы, которые необходимо решить:

  • Конфиденциальность данных – Big-Data, которую мы сегодня генерируем, содержит много информации о нашей личной жизни, на конфиденциальность которой мы имеем полное право. Все чаще и чаще нас просят найти баланс между количеством персональных данных, которые мы раскрываем, и удобством, которое предлагают приложения и услуги, основанные на использовании Биг Даты.
  • Защита данных — даже если мы решаем, что нас устраивает то, что у кого-то есть наши данные для определенной цели, можем ли мы доверять ему сохранность и безопасность наших данных?
  • Дискриминация данных — когда вся информация будет известна, станет ли приемлемой дискриминация людей на основе данных из их личной жизни? Мы уже используем оценки кредитоспособности, чтобы решить, кто может брать деньги, и страхование тоже в значительной степени зависит от данных. Нам стоит ожидать, что нас будут анализировать и оценивать более подробно, однако следует позаботиться о том, чтобы это не усложняло жизнь тех людей, которые располагают меньшими ресурсами и ограниченным доступом к информации.

Выполнение этих задач является важной составляющей Биг Даты, и их необходимо решать организациям, которые хотят использовать такие данные. Неспособность осуществить это может сделать бизнес уязвимым, причем не только с точки зрения его репутации, но также с юридической и финансовой стороны.

Глядя в будущее

Данные меняют наш мир и нашу жизнь небывалыми темпами. Если Big-Data способна на все это сегодня — просто представьте, на что она будет способна завтра. Объем доступных нам данных только увеличится, а технология аналитики станет еще более продвинутой.

Для бизнеса способность применять Биг Дату будет становиться все более решающей в ​​ближайшие годы. Только те компании, которые рассматривают данные как стратегический актив, выживут и будут процветать. Те же, кто игнорирует эту революцию, рискуют остаться позади.



Big data, или большие данные, - понятие, используемое в информационных технологиях и сфере маркетинга. Термин «большие данные» применяется для определения анализа и управления значительными массивами. Таким образом, big data - это та информация, которая за счет своих больших объемов не может быть обработана традиционными способами.

Современную жизнь невозможно представить без цифровых технологий. Мировые хранилища данных пополняются непрерывно, и поэтому также непрерывно приходится изменять как условия хранения информации, так и искать новые способы увеличения объема ее носителей. Исходя из экспертного мнения, увеличение big data и увеличение скорости роста - это нынешние реалии. Как уже говорилось, информация появляется безостановочно. Огромные ее объемы генерируются информационными сайтами, различными сервисами обмена файлами и социальными сетями, однако это лишь малая часть от всего производимого объема.

IDC Digital Universe после проведения исследования заявили, что в течение 5 лет объем данных в целом на всей Земле достигнет сорока зеттабайтов. Это значит, что на каждого человека на планете придется 5200 Гб информации.

Лучшая статья месяца

Заканчивается первое полугодие 2018 года — пора подводить промежуточные итоги. Даже если коммерческие показатели компании выросли по сравнению с прошлым периодом, убедитесь, нет ли скрытых сложностей в работе компании, которые могут принести неприятности.

Чтобы диагностировать проблемы, заполните чек-листы из нашей статьи и узнайте, на какую сторону бизнеса обратить внимание.

Общеизвестно, что люди не являются главным производителем информации. Основной источник, который приносит информационные данные, - это роботы, которые непрерывно взаимодействуют. В их число входят операционная система компьютеров, планшетов и мобильных телефонов, интеллектуальные системы, средства для мониторинга, системы наблюдения и прочее. В совокупности они задают стремительную скорость увеличения количества данных, а значит, потребность в создании как реальных, так и виртуальных серверов увеличивается. В совокупности это ведет к расширению и внедрению новых data-центров.

Чаще всего большие данные определяются как информация, которая объемом превышает жесткий диск ПК, а также не может быть обработана традиционными методами, которые используются при обработке и анализе информации с меньшим объемом.

Если обобщить, то технология обработки big data сводится в конечном итоге к 3 основным направлениям, которые, в свою очередь, решают 3 типа задач:

  1. Хранение и управление огромными объемами данных - их размеры доходят до сотен терабайтов и петабайтов, - которые реляционные базы данных не позволяют эффективно использовать.
  2. Организация неструктурированной информации - тексты, изображения, видео и другие типы данных.
  3. Анализ big data (big data analytics) - здесь рассматриваются и способы работы с неструктурированной информацией, и создание отчетов аналитических данных, и введение прогностических моделей.

Рынок проектов big data тесно взаимосвязан с рынком ВА - бизнес-аналитики, объем которого за 2012 год составил около 100 млрд долларов, и включающим в себя сетевые технологии, программное обеспечение, технические услуги и серверы.

Автоматизация деятельности компании, в частности решения класса гарантирования доходов (RA), также неразрывно связана с использованием технологий big data. На сегодняшний день системы в этой сфере содержат инструменты, которые используются для обнаружения несоответствий и для углубленного анализа данных, а также позволяют выявить возможные потери либо неточности в информации, которые могут привести к снижению результатов сектора.

Российские компании подтверждают, что спрос на технологии больших данных big data есть, отдельно отмечают то, что основные факторы, влияющие на развитие big data в России, - это увеличение объема данных, быстрое принятие управленческих решений и повышение их качества.

Какую роль играет big data в маркетинге

Не секрет, что информация - это одна из главных составляющих удачного прогнозирования и разработки маркетинговой стратегии, если уметь ей пользоваться.

Анализ больших данных является незаменимым при определении целевой аудитории, ее интересов и активности. Иными словами, умелое применение big data позволяет точно предсказывать развитие компании.

Используя, например, известную модель RTB-аукциона, с помощью анализа больших данных легко сделать так, что реклама будет выводиться только для тех потенциальных покупателей, которые заинтересованы в приобретении услуги или товара.

Применение big data в маркетинге:

  1. Позволяет узнать потенциальных покупателей и привлечь соответствующую аудиторию в интернете.
  2. Способствует оценке степени удовлетворенности.
  3. Помогает соотносить предлагаемый сервис с потребностями покупателя.
  4. Облегчает поиск и внедрение новых методов увеличения лояльности клиента.
  5. Упрощает создание проектов, которые впоследствии будут пользоваться спросом.

Частный пример - сервис Google.trends. С его помощью маркетолог сможет выявить прогноз на сезон касательно того или иного продукта, географию кликов и колебания. Таким образом, сравнив полученную информацию со статистикой собственного сайта, достаточно легко составить рекламный бюджет с указанием региона и месяца.

  • Распределение рекламного бюджета: на что стоит потратиться
  • l&g t;

    Как и где хранить большие данные big data

    Файловая система - именно здесь big data и организуются, и хранятся. Вся информация находится на большом количестве жестких дисков на ПК.

    «Карта» - map - отслеживает, где непосредственно хранится каждая часть информации.

    Для того чтобы застраховаться от непредвиденных обстоятельств, каждую из частей информации принято сохранять по несколько раз - рекомендуется делать это трижды .

    Например, после сбора индивидуальных транзакций в розничной сети вся информация о каждой отдельной транзакции будет храниться на нескольких серверах и жестких дисках, а «карта» будет индексировать местоположение файла по каждой конкретной сделке.

    Для того чтобы организовать хранение данных в больших объемах, можно использовать стандартное техническое оснащение и программное обеспечение, находящееся в открытом доступе (к примеру, Hadoop).

    Большие данные и бизнес-аналитика: разность понятий

    На сегодняшний день бизнес-анализ представляет собой описательный процесс результатов, которые были достигнуты за отдельный временной период. Действующая же скорость на обработку big data делает анализ предсказательным. На его рекомендации можно опираться в будущем. Технологии big data дают возможность анализа большего количества типов данных сравнительно со средствами и инструментами, используемыми в бизнес-аналитике. Это позволяет не только сосредоточиться на хранилищах, где данные структурированы, а использовать значительно более широкие ресурсы.

    Бизнес-аналитика и big data во многом схожи, однако имеются следующие отличия:

    • Big data используются для обработки объема информации, значительно большего, по сравнению с бизнес-аналитикой, что определяет само понятие big data.
    • При помощи big data можно обрабатывать быстро получаемые и меняющиеся данные, что обуславливает интерактивность, т. е. в большинстве случаев скорость загрузки веб-страницы меньше, чем скорость формирования результатов.
    • Big data могут использоваться при обработке не имеющих структуры данных, работу с которыми следует начинать, только обеспечив их хранение и сбор. Кроме того, необходимо применять алгоритмы, способные выявить основные закономерности в созданных массивах.

    Процесс бизнес-аналитики мало схож с работой big data. Как правило, бизнес-аналитике свойственно получать результат путем сложения конкретных значений: в качестве примера можно назвать годовой объем по продажам, рассчитанный как сумма всех оплаченных счетов. В процессе работы с big data расчет происходит путем поэтапного построения модели:

    • выдвижение гипотезы;
    • построение статической, визуальной и семантической модели;
    • проверка верности гипотезы на основании указанных моделей;
    • выдвижение следующей гипотезы.

    Для проведения полного цикла исследования необходимо интерпретировать визуальные значения (интерактивные запросы на основе знаний). Также можно разработать адаптивный алгоритм машинного обучения.

    Мнение эксперта

    Нельзя слепо полагаться только на мнения аналитиков

    Вячеслав Назаров,

    генеральный директор российского представительства компании Archos, Москва

    Около года назад, опираясь на мнение экспертов, мы выпустили на рынок абсолютно новый планшет, игровую консоль. Компактность и достаточная техническая мощность нашли свое признание в кругу поклонников компьютерных игр. Следует отметить, что эта группа, несмотря на свою «узкость», имела достаточно высокую покупательную способность. Сначала новинка собрала много положительных отзывов в СМИ и получила одобрительную оценку от наших партнеров. Тем не менее, вскоре выяснилось, что продажи планшета достаточно низки. Решение так и не нашло своей массовой популярности.

    Ошибка . Наша недоработка состояла в том, что интересы целевой аудитории не были изучены до конца. Пользователям, предпочитающим играть на планшете, не требуется суперграфика, поскольку они играют в основном в простые игры. Серьезные же геймеры уже привыкли к игре на компьютере на более совершенных платформах. Массированная реклама нашего продукта отсутствовала, маркетинговая кампания также была слабой, и в конечном итоге, планшет не нашел своего покупателя ни в одной из указанных групп.

    Последствия . Производство продукта пришлось сократить почти на 40 % по сравнению с первоначально запланированными объемами. Конечно, больших убытков не было, равно как и планируемой прибыли. Однако это заставило нас откорректировать некоторые стратегические задачи. Самое ценное, что было нами безвозвратно потеряно - это наше время.

    Советы . Мыслить нужно перспективно. Продуктовые линейки необходимо просчитывать вперед на два-три шага. Что это значит? При запуске некоторого модельного ряда сегодня желательно понимать его судьбу завтра и иметь хотя бы приблизительную картину того, что будет с ним через год-полтора. Конечно, полная детализация маловероятна, но базовый план все же должен быть составлен.

    И еще не стоит целиком и полностью доверяться аналитикам. Оценки экспертов надо соизмерять с собственными статистическими данными, а также с оперативной обстановкой на рынке. Если ваш продукт доработан не до конца, не следует его выпускать на рынок, поскольку для покупателя первое впечатление - самое важное, и потом переубедить его будет задачей нелегкой.

    Очень важный совет на случай неудачи - быстрота принятия решения. Категорически нельзя просто наблюдать и выжидать. Решить проблему по горячим следам всегда гораздо проще и дешевле, чем устранять запущенную.

    Какие проблемы создает система big data

    Существуют три основные группы проблем систем big data, которые в иностранной литературе объединены в 3V - Volume, Velocity и Variety, то есть:

  1. Объем.
  2. Скорость обработки.
  3. Неструктурированность.

Вопрос о хранении больших объемов информации сопряжен с необходимостью организации определенных условий, то есть с созданием пространства и возможностей. Что касается скорости, то она связана не столько с замедлениями и торможениями при использовании устаревших методов обработки, сколько с интерактивностью: результат тем продуктивнее, чем быстрее идет процесс обработки информации.

  1. Проблема неструктурированности исходит из раздельности источников, их формата и качества. Для успешного объединения и обработки big data требуется и работа по их подготовке, и аналитические инструменты или системы.
  2. Большое влияние оказывает и предел «величины» данных. Определить величину достаточно сложно, а исходя из этого - проблематично просчитать, какие потребуются финансовые вложения и какие будут необходимы технологии. Тем не менее, для определенных величин, например, терабайт, на сегодняшний день успешно применяются новые методы обработки, которые постоянно совершенствуются.
  3. Отсутствие общепринятых принципов работы с big data - еще одна проблема, которая осложняется вышеупомянутой неоднородностью потоков. Для решения этой проблемы создаются новые методы анализа big data. Исходя из утверждений представителей университетов Нью-Йорка, Вашингтона и Калифорнии, не за горами создание отдельной дисциплины и даже науки big data. Это и является главной причиной того, что в компаниях не спешат вводить проекты, связанные с большими данными. Еще один фактор - высокая стоимость.
  4. Трудности также вызывают подбор данных для анализа и алгоритм действий. На сегодняшний день отсутствует какое-либо понимание того, какие данные несут ценную информацию и требуют аналитики big data, а какие можно не принимать в расчет. В этой ситуации становится ясно и еще одно - на рынке недостаточно профессионалов отрасли, которые справятся с глубинным анализом, сделают отчет о решении задачи и, соответственно, тем самым принесут прибыль.
  5. Есть и моральная сторона вопроса: отличается ли сбор данных без ведома пользователя от грубого вторжения в частную жизнь? Стоит отметить, что сбор данных улучшает качество жизни: например, непрерывный сбор данных в системах Google и Яндекс помогает компаниям улучшать свои сервисы в зависимости от потребностей потребителей. Системы этих сервисов отмечают каждый клик пользователя, его местоположение и посещаемые сайты, все сообщения и покупки - и все это дает возможность демонстрации рекламы, исходя из поведения пользователя. Пользователь не давал своего согласия на сбор данных: такой выбор предоставлен не был. Из этого следует следующая проблема: насколько безопасно хранится информация? К примеру, сведения о потенциальных покупателях, история их покупок и переходов на различные сайты может помочь решить многие бизнес-задачи, но является ли платформа, которой пользуются покупатели, безопасной - это очень спорный вопрос. Многие апеллируют к тому, что на сегодняшний день ни одно хранилище данных - даже сервера военных служб - не защищено в достаточной степени от атак хакеров.
  • Коммерческая тайна: защита и меры наказания за разглашение

Поэтапное использование big data

Этап 1. Технологическое внедрение компании в стратегический проект.

В задачи технических специалистов входит предварительная проработка концепции развития: анализ путей развития направлений, которым это больше всего необходимо.

Для определения состава и задач проводится разговор с заказчиками, в результате чего анализируются требуемые ресурсы. Параллельно организация принимает решение об отдаче всех задач полностью на аутсорсинг или о создании гибридной команды, состоящей из специалистов этой и любых других организаций.

По статистике большое количество компаний пользуются именно такой схемой: наличие команды экспертов внутри, контролирующих качество выполнения работ и формирования движения, и снаружи, реализующей непосредственную проверку гипотез о развитии какого-либо направления.

Этап 2. Поиск инженера-исследователя данных.

Руководитель собирает штат рабочих коллегиально. Он же отвечает за развитие проекта. Сотрудники HR-службы играют непосредственную роль в создании внутренней команды.

В первую очередь такой команде необходим инженер-аналитик данных, он же data scientist , который будет заниматься задачей формирования гипотез и анализа массива информации. Обозначенные им корреляции будут в будущем использоваться для основания новой продукции и сервисов.

Особенно на начальных этапах важна задача HR-отдела . Его сотрудники решают, кто именно будет выполнять работу, направленную на развитие проекта, где его взять и каким образом придать мотивации. Инженера-аналитика данных найти не так просто, поэтому это «штучный продукт».

В каждой серьезной компании обязан находиться специалист такого профиля, в противном случае теряется фокус проекта. Инженер-аналитик в совокупности: разработчик, аналитик и бизнес-аналитик. Помимо этого, он должен обладать коммуникабельностью для показа результатов своей деятельности и багажом знаний и умений для детального разъяснения своих мыслей.

  • 24 мысли, с которых начинаются большие перемены в жизни

Примеры поиска

1. В Москве была организована такси-компания «Big Data». По ходу маршрута пассажиры отвечали на задачи из области профессиональной аналитики. В том случае, когда пассажир отвечал на большинство вопросов верно, компания предлагала ему место на работе. Основным недостатком такой техники подбора персонала является нежелание большинства участвовать в такого рода проектах. На собеседование согласилось лишь несколько человек.

2. Проведение специального конкурса по бизнес-аналитике с каким-то призом. Таким способом воспользовался крупный российский банк. В результате в конкурсе хакатона участвовало более чем 1000 людей. Добившимся наивысших успехов в конкурсе предлагалось место на работе. К сожалению, большинство победителей не изъявили желание получать должность, так как их мотивацией был только приз. Но все-таки несколько человек согласились на работу в команде.

3. Поиск в среде специалистов данных, разбирающихся в аналитике бизнеса и способных навести порядок, построив правильный алгоритм действий. К необходимым навыкам специалиста-аналитика относят: программирование, знание Python, R, Statistica, Rapidminer и другие не менее важные для бизнес-аналитика знания.

Этап 3. Создание команды для развития.

Необходима слаженная команда. При рассмотрении продвинутой аналитики, например, инновационного развития компании, потребуются менеджер для создания и развития бизнес-аналитики.

Инженер-исследователь занимается построением и проверкой гипотез для успешного развития взятого вектора.

Руководителю необходимо организовывать развитие взятого направления бизнеса, создавать новые продукты и согласовывать их с заказчиками. В его обязанности, помимо этого, входит расчет бизнес-кейсов.

Менеджер по развитию обязан тесно взаимодействовать со всеми. Инженер-аналитик и менеджер по бизнес-развитию выясняют потребности и возможности анализа big data посредством встреч с сотрудниками, отвечающими за разнообразные участки проекта. Проанализировав ситуацию, менеджер создает кейсы, благодаря которым компания будет принимать решения о дальнейшем развитии направления, сервиса или продукции.

  • Менеджер по развитию: требования и должностная инструкция

3 принципа работы с b ig d ata

Можно выделить основные методы работы с big data:

  1. Горизонтальная масштабируемость. В силу того, что данных должно быть огромное множество, любая система, обрабатывающая большое количество информации, будет расширяемой. Например, если объем данных вырос в несколько раз - соответственно во столько же раз увеличился и объем «железа» в кластере.
  2. Отказоустойчивость. Исходя из принципа горизонтальной масштабируемости, можно сделать вывод, что в кластере есть большое количество машин. Например, Hadoop-кластер от Yahoo насчитывает их больше 42000. Все методы работы с big data должны учитывать возможные неисправности и искать способы справиться с неполадками без последствий.
  3. Локальность данных. Данные, хранящиеся в больших системах, распределены в достаточно большом количестве машин. Поэтому в ситуации, когда данные хранятся на сервере №1, а обрабатываются на сервере №2, нельзя исключать возможность того, что их передача будет стоить дороже, чем обработка. Именно поэтому при проектировании большое внимание уделяется тому, чтобы данные хранились и проходили обработку на одном компьютере.

Все методы работы с большими данными, так или иначе, придерживаются этих трех принципов.

Как использовать систему big data

Эффективные решения в области работы с большими данными для самых разных направлений деятельности осуществляются благодаря множеству существующих на данный момент комбинаций программного и аппаратного обеспечения.

Важное достоинство big data - возможность применять новые инструменты с теми, которые уже используются в этой сфере. Это играет особенно важную роль в ситуации с кросс-дисциплинарными проектами. В качестве примера можно привести мультиканальные продажи и поддержку потребителей.

Для работы с big data важна определенная последовательность:

  • сначала происходит сбор данных;
  • затем информация структурируется. С этой целью используются дашборды (Dashboards) - инструменты для структурирования;
  • на следующем этапе создаются инсайты и контексты, на основании которых формируются рекомендации для принятия решений. В силу высоких затрат на сбор данных, основная задача - это определить цель использования полученных сведений.

Пример. Рекламные агентства могут использовать агрегированную у телекоммуникационных компаний информацию о местоположении. Такой подход обеспечит таргетированную рекламу. Эта же информация применима и в других сферах, связанных с оказанием и продажей услуг и товаров.

Полученная таким образом информация может оказаться ключевой в принятии решения об открытии магазина в конкретной местности.

Если рассмотреть случай использования outdoor-щитов в Лондоне, не стоит сомневаться, что на сегодняшний день такой опыт возможен только в случае, если возле каждого щита расположить специальный измерительные прибор. В то же время мобильные операторы всегда знают основную информацию о своих абонентах: их расположение, семейное положение и так далее.

Еще одна потенциальная область применения big data - сбор информации о количестве посетителей различных мероприятий.

Пример. Организаторы футбольных матчей не способны знать точное число пришедших на матч заранее. Тем не менее, они получили бы такие сведения, воспользуйся они информацией от операторов мобильной связи: где находятся потенциальные посетители за определенный период времени - месяц, неделю, день - до матча. Получается, у организаторов появилась бы возможность спланировать локацию мероприятия в зависимости от предпочтений целевой аудитории.

Big data дает также несравнимые преимущества для банковского сектора, который может воспользоваться обработанными данными для того, чтобы выявить недобросовестных картодержателей.

Пример. При заявлении держателя карты о ее утере или краже банк имеет возможность отследить местоположение карты, по которой производится расчет, и мобильного телефона держателя, чтобы удостовериться в правдивости информации. Таким образом, представитель банка имеет возможность увидеть, что платежная карта и мобильный телефон держателя находятся в одной зоне. А значит - карту использует владелец.

Благодаря преимуществам подобного рода использование информации дает компаниям много новых возможностей, а рынок big data продолжает развиваться.

Основная трудность внедрения big data состоит в сложности расчета кейса. Осложняется этот процесс наличием большого количества неизвестных.

Достаточно сложно делать какие-либо прогнозы на будущее, в то время как данные о прошлом не всегда находятся в зоне доступа. В этой ситуации самое главное - планирование своих первоначальных действий :

  1. Определение конкретного вопроса, в решении которого будет применена технология обработки big data, поможет определиться с концепцией и задаст вектор дальнейших действий. Сделав акцент на сборе информации именно по указанному вопросу, стоит также воспользоваться всеми доступными инструментами и методами для получения более ясной картины. Более того, такой подход значительно облегчит процесс принятия решения в будущем.
  2. Вероятность того, что проект big data будет реализован командой без определенных навыков и опыта - крайне мала. Знания, которые необходимо использовать в таком сложном исследовании, обычно приобретаются долгим трудом, поэтому предыдущий опыт так важен в этой сфере. Сложно переоценить влияние культуры использования информации, полученной путем подобных исследований. Они предоставляют различные возможности, в том числе и злоупотребления полученными материалами. Чтобы использовать информацию во благо, стоит придерживаться элементарных правил корректной обработки данных.
  3. Инсайты - основная ценность технологий. Рынок все еще испытывает острую нехватку сильных специалистов - имеющих понимание законов ведения бизнеса, важности информации и области ее применения. Нельзя не учитывать тот факт, что анализ данных - ключевой способ достижения поставленных целей и развития бизнеса, нужно стремиться к выработке конкретной модели поведения и восприятия. В таком случае большие данные принесут пользу и сыграют положительную роль в решении вопросов ведения дел.

Успешные кейсы внедрения big data

Некоторые из перечисленных ниже кейсов были более удачными в сборе данных, другие - в аналитике big data и путях применения данных, полученных в ходе исследования.

  1. «Тинькофф Кредитные Системы » воспользовался платформой EMC2 Greenplum для массивно-параллельных вычислений. В связи с непрерывным увеличением потока пользователей карт в банке возникла необходимость сделать обработку данных быстрее. Было принято решение о применении big data и работе с неструктурированной информацией, а также корпоративными сведениями, которые были получены из разрозненных источников. От внимания их специалистов не ушло и то, что на сайте в Российском ФНС внедряется аналитический слой федерального хранилища данных. Впоследствии на его основе планируется организовать пространство, предоставляющее доступ к данным налоговой системы для последующей обработки и получения статистических данных.
  2. Отдельно стоит рассмотреть российский стартап Synqera, занимающийся анализом big data online и разработавший платформу Simplate. Суть заключается в том, что производится обработка большого массива данных, анализируются данные о потребителях, их покупках, возрасте, настроении и душевном состоянии. Сеть магазинов косметики установила на кассах датчики, способные распознавать эмоции покупателя. После определения настроения, анализируется информация о покупателе, времени покупки. После этого покупателю целенаправленно поступает информация о скидках и акциях. Это решение увеличило лояльность потребителя и смогла повысить доход продавца.
  3. Отдельно стоит рассказать о кейсе по применению технологий big data в компании Dunkin`Donuts, которые, по аналогии с предыдущим примером, использовали проведение анализа online для увеличения прибыли. Итак, в торговых точках дисплеи отображали спецпредложения, содержимое которых менялось ежеминутно. Основанием замен в тексте служили как время суток, так и товар в наличии. Из кассовых чеков компания получила информацию, какие позиции пользовались наибольшим спросом. Такой способ позволил увеличить доход и оборот складских запасов.

Таким образом, обработка big data положительно сказывается на решении бизнес-задач. Важным фактором, конечно, является выбор стратегии и использование новейших разработок в области big data.

Информация о компании

Archos. Сфера деятельности: производство и продажа электронной техники. Территория: офисы продаж открыты в девяти странах (Испания, Китай, Россия, США, Франция и др.). Численность персонала филиала: 5 (в российском представительстве).