Velocity у властивостях великих даних характеризує. Енциклопедія маркетингу. Як це робиться

Головна / Додатковий функціонал

Big Data- англ. "великі дані". Термін з'явився як альтернатива СУБД і став одним із основних трендів IT-інфраструктури, коли більшість гігантів індустрії – IBM, Microsoft, HP, Oracle та інші почали використовувати це поняття у своїх стратегіях. Під Big Data розуміють величезний (сотні терабайт) масив даних, який не можна обробити традиційними методами; іноді – інструменти та методи обробки цих даних.

Приклади джерел Big Data: події RFID, повідомлення в соцмережах, метеорологічна статистика, інформація про місцезнаходження абонентів мобільних мереж стільникового зв'язкута дані з пристроїв аудіо-/відеореєстрації. Тому «великі дані» широко використовуються на виробництві, охороні здоров'я, держуправлінні, інтернет-бізнесі – зокрема, під час аналізу цільової аудиторії.

Характеристика

Ознаки big data визначаються як "три V": Volume - обсяг (дійсно великі); variety - різнорідність, безліч; velocity - швидкість (необхідність дуже швидкої обробки).

Великі дані найчастіше неструктуровані, і їх обробки потрібні особливі алгоритми. До методів аналізу великих даних відносяться:

  • («видобуток даних») – комплекс підходів виявлення прихованих корисних знань, які можуть бути отримані стандартними способами;
  • Crowdsourcing (crowd - «натовп», sourcing - використання як джерело) - вирішення значущих завдань спільними зусиллями добровольців, які не перебувають в обов'язковому трудовому договорі та відносинах, що координують діяльність за допомогою інструментів IT;
  • Data Fusion & Integration («змішування та впровадження даних») – набір методів для з'єднання безлічі джерел у рамках проведення глибокого аналізу;
  • Machine Learning («машинне навчання») – підрозділ досліджень штучного інтелекту, який вивчає методи використання аналізу статистики та отримання прогнозів на основі базових моделей;
  • розпізнавання образів (наприклад, розпізнавання облич у видошукачі фотоапарата або відеокамери);
  • просторовий аналіз – використання топології, геометрії та географії для побудови даних;
  • візуалізація даних – виведення аналітичної інформації у вигляді ілюстрацій та діаграм за допомогою інтерактивних інструментів та анімації для відстеження результатів та побудови фундаменту подальшого моніторингу.

Зберігання та аналіз інформації здійснюється на великій кількості серверів високої продуктивності. Ключовою технологією є Hadoop з відкритим вихідним кодом.

Так як кількість інформації з часом тільки збільшуватиметься, то складність полягає не в тому, щоб отримати дані, а в тому як їх обробити з максимальною користю. В цілому, процес роботи з Big Data включає: збір інформації, її структурування, створення інсайтів і контекстів, розробка рекомендацій до дії. Ще до першого етапу важливо чітко визначити мету роботи: навіщо саме потрібні дані, наприклад – визначення цільової аудиторії товару. Інакше є ризик отримати масу відомостей без розуміння у тому, як саме їх можна використовувати.

Передмова

"Big data" - модний нині термін, що фігурує майже на всіх професійних конференціях, присвячених аналізу даних, прогностичній аналітиці, інтелектуальному аналізу даних ( data mining), CRM. Термін використовується у сферах, де актуальна робота з якісно великими обсягами даних, де постійно відбувається збільшення швидкості потоку даних до організаційного процесу: економіки, банківської діяльності, виробництва, маркетингу, телекомунікації, веб-аналітики, медицини та ін.

Разом із стрімким накопиченням інформації швидкими темпами розвиваються й технології аналізу даних. Якщо ще кілька років тому було можливо, скажімо, лише сегментувати клієнтів на групи зі схожими уподобаннями, то тепер можна будувати моделі для кожного клієнта в режимі реального часу, аналізуючи, наприклад, його переміщення по мережі Інтернет для пошуку конкретного товару. Інтереси споживача можуть бути проаналізовані, і відповідно до побудованої моделі виведена відповідна реклама або конкретні пропозиції. Модель також може налаштовуватись і перебудовуватись у режимі реального часу, що було немислимо ще кілька років тому.

У сфері телекомунікації, наприклад, розвинені технології визначення фізичного розташування стільникових телефонів та його власників, і, здається, незабаром стане реальністю ідея, описана у науково-фантастичному фільмі «Особлива думка», 2002 року, де відображення рекламної інформації у торгових центрах враховувала інтереси конкретних осіб, які проходять повз.

У той же час існують ситуації, коли захоплення новими технологіями може призвести і до розчарування. Наприклад, іноді розріджені дані ( Sparse data), що дають важливе розуміння дійсності, є набагато ціннішими, ніж Великі дані(Big Data), що описують гори, часто не істотної інформації.

Мета цієї статті - прояснити та обміркувати нові можливості Big Data та проілюструвати, як аналітична платформа STATISTICAкомпанії StatSoft може допомогти в ефективному використанні Big Data для оптимізації процесів та вирішення завдань.

Наскільки великі Big Data?

Звичайно, правильна відповідь на це питання має звучати - «це залежить…»

У сучасних обговореннях поняття Big Data описують дані обсягу в порядках терабайт.

На практиці (якщо йдеться про гігабайти або терабайти), такі дані легко зберігати та керувати ними за допомогою «традиційних» баз даних та стандартного обладнання (сервера баз даних).

Програмне забезпечення STATISTICAвикористовує багатопоточну технологію для алгоритмів доступу до даних (читання), перетворення та побудови прогностичних (і скорингових) моделей, тому такі вибірки даних можуть бути легко проаналізовані і не вимагають спеціалізованих інструментів.

У деяких поточних проектах StatSoft обробляються вибірки близько 9-12 мільйонів рядків. Помножимо їх на 1000 параметрів (змінних), зібраних та організованих у сховищі даних для побудови ризикових чи прогностичних моделей. Такий файл матиме об'єм “тільки” близько 100 гігабайт. Це, звичайно, не маленьке сховище даних, але його розміри не перевищують можливості технології стандартних баз даних.

Лінійка продуктів STATISTICAдля пакетного аналізу та побудови скорингових моделей ( STATISTICA Enterprise), рішення, що працюють у режимі реального часу ( STATISTICA Live Score), та аналітичні інструменти для створення та управління моделями ( STATISTICA Data Miner, Decisioning) легко масштабуються на кілька серверів із багатоядерними процесорами.

На практиці це означає, що достатня швидкість роботи аналітичних моделей (наприклад, прогнози щодо кредитного ризику, ймовірності шахрайства, надійності вузлів обладнання тощо), що дозволяє приймати оперативні рішення, майже завжди може бути досягнута за допомогою стандартних інструментів. STATISTICA.

Від великих обсягів даних до Big Data

Як правило, обговорення Big Data зосереджено навколо сховищ даних (і проведення аналізу, заснованих на таких сховищах), об'ємом набагато більшим, ніж просто кілька терабайт.

Зокрема, деякі сховища даних можуть зрости до тисячі терабайт, тобто до петабайт (1000 терабайт = 1 петабайт).

За межами петабайт, накопичення даних може бути виміряно в ексабайтах, наприклад, у виробничому секторі по всьому світу в 2010 році, за оцінками, накопичено в цілому 2 ексабайти нової інформації (Manyika et al., 2011).

Існують галузі, де дані збираються та накопичуються дуже інтенсивно.

Наприклад, у виробничій сфері, такій як електростанції, безперервний потік даних іноді генерується для десятків тисяч параметрів кожну хвилину або навіть кожну секунду.

Крім того, за останні кілька років впроваджуються так звані “smart grid” технології, що дозволяють комунальним службам вимірювати споживання електроенергії окремими сім'ями кожну хвилину чи кожну секунду.

Для таких програм, у яких дані повинні зберігатися роками, накопичені дані класифікуються як Extremely Big Data.

Зростає і кількість додатків Big Data серед комерційних та державних секторів, де обсяг даних у сховищах може становити сотні терабайт чи петабайт.

Сучасні технології дозволяють «відслідковувати» людей та їхню поведінку різними способами. Наприклад, коли ми користуємося інтернетом, робимо покупки в Інтернет-магазинах або великих мережах магазинів, таких як Walmart (згідно з Вікіпедією, сховище даних Walmart оцінюється більш ніж у 2 петабайт), або переміщуємося з включеними мобільними телефонами- ми залишаємо слід наших дій, що призводить до накопичення нової інформації.

Різні способи зв'язку від простих телефонних дзвінків до завантаження інформації через сайти соціальних мереж, таких як Facebook (згідно з даними Вікіпедії, обмін інформацією щомісяця становить 30 млрд. одиниць), або обмін відео на таких сайтах, як YouTube (Youtube стверджує, що він завантажує 24 години відео кожну хвилину; див. Wikipedia), щодня генерують величезне кількість нових даних.

Аналогічним чином, сучасні медичні технології генерують великі обсяги даних, що стосуються надання медичної допомоги(Зображення, відео, моніторинг у реальному часі).

Отже, класифікацію обсягів даних можна так:

Великі набори даних: від 1000 мегабайт (1 гігабайт) до сотень гігабайт

Величезні набори даних: від 1000 гігабайт (1терабайт) до кількох терабайт

Big Data: від кількох терабайт до сотень терабайт

Extremely Big Data: від 1000 до 10000 терабайт = від 1 до 10 петабайт

Завдання, пов'язані з Big Data

Існують три типи завдань, пов'язаних з Big Data:

1. Зберігання та управління

Обсяг даних у сотні терабайт чи петабайт не дозволяє легко зберігати та керувати ними за допомогою традиційних реляційних баз даних.

2. Неструктурована інформація

Більшість даних Big Data є неструктурованими. Тобто. як можна організувати текст, відео, зображення тощо?

3. Аналіз Big Data

Як аналізувати неструктуровану інформацію? Як на основі Big Data складати прості звіти, будувати та впроваджувати поглиблені прогностичні моделі?

Зберігання та керування Big Data

Big Data зазвичай зберігаються та організуються у розподілених файлових системах.

Загалом інформація зберігається на декількох (іноді тисячах) жорстких дисках, на стандартних комп'ютерах.

Так звана "карта" (map) відстежує, де (на якому комп'ютері та/або диску) зберігається конкретна частина інформації.

Для забезпечення стійкості до відмов і надійності, кожну частину інформації зазвичай зберігають кілька разів, наприклад - тричі.

Так, наприклад, припустимо, що ви зібрали індивідуальні транзакції у великій роздрібній мережі магазинів. Детальна інформація про кожну транзакцію зберігатиметься на різних серверах і жорстких дисках, а «карта» (map) індексує, де зберігаються відомості про відповідну угоду.

За допомогою стандартного обладнання та відкритих програмних засобівдля керування цією розподіленою файловою системою (наприклад, Hadoop), порівняно легко можна реалізувати надійні сховища даних у масштабі петабайт.

Неструктурована інформація

Більшість зібраної інформації у розподіленій файловій системі складається з неструктурованих даних, таких як текст, зображення, фотографії чи відео.

Це має свої переваги та недоліки.

Перевага полягає в тому, що можливість зберігання великих даних дозволяє зберігати всі дані, не турбуючись про те, яка частина даних актуальна для подальшого аналізу і прийняття рішення.

Недоліком є ​​те, що у таких випадках для вилучення корисної інформаціїПотрібна подальша обробка цих великих масивів даних.

Хоча деякі з цих операцій можуть бути простими (наприклад, прості підрахунки тощо), інші вимагають більш складних алгоритмів, які мають бути спеціально розроблені для ефективної роботи на розподіленій файловій системі.

Один топ-менеджер одного разу розповів StatSoft, що він «витратив цілий стан на IT та зберігання даних, але досі не почав отримувати грошей», тому що не думав про те, як краще використовувати ці дані для покращення основної діяльності.

Отже, в той час як обсяг даних може зростати в геометричній прогресії, можливості отримувати інформацію та діяти на основі цієї інформації, обмежені та будуть асимптотично досягати межі.

Важливо, щоб методи та процедури для побудови, оновлення моделей, а також для автоматизації процесу прийняття рішень були розроблені поряд із системами зберігання даних, щоб гарантувати, що такі системи є корисними та вигідними для підприємства.

Аналіз Big Data

Це справді велика проблема, пов'язана з аналізом неструктурованих даних Big Data: як аналізувати їх з користю. Про даному питаннінаписано набагато менше, ніж про зберігання даних та технології управління Big Data.

Є низка питань, які слід розглянути.

Map-Reduce

При аналізі сотні терабайт або петабайт даних, неможливо витягти дані в будь-яке інше місце для аналізу (наприклад, в STATISTICA Enterprise Analysis Server).

Процес перенесення даних каналами на окремий сервер або сервера (для паралельної обробки) займе занадто багато часу і вимагає занадто великого трафіку.

Натомість, аналітичні обчислення мають бути виконані фізично близько до місця, де зберігаються дані.

Алгоритм Map-Reduce є модель для розподілених обчислень. Принцип його роботи полягає в наступному: відбувається розподіл вхідних даних на робочі вузли (individual nodes) розподіленої файлової системидля попередньої обробки (map-крок) і потім згортка (об'єднання) вже попередньо оброблених даних (reduce-крок).

Таким чином, скажімо, для обчислення підсумкової суми алгоритм буде паралельно обчислювати проміжні суми в кожному з вузлів розподіленої файлової системи, а потім підсумовувати ці проміжні значення.

В Інтернеті є величезна кількість інформації про те, яким чином можна виконувати різні обчислення за допомогою моделі map-reduce, у тому числі і для прогностичної аналітики.

Прості статистики, Business Intelligence (BI)

Для складання простих звітів BI існує безліч продуктів з відкритим кодом, що дозволяють обчислювати суми, середні, пропорції і т.п. за допомогою map-reduce.

Таким чином, отримати точні підрахунки та інші прості статистики для складання звітів дуже легко.

Прогнозне моделювання, поглиблені статистики

На перший погляд може здатися, що побудова прогностичних моделей у розподіленій файловій системі складніша, проте це зовсім не так. Розглянемо попередні етапи аналізу даних.

Підготовка данних. Нещодавно StatSoft провів серію великих та успішних проектів за участю дуже великих наборів даних, що описують похвилинні показники процесу роботи електростанції. Мета проведеного аналізу полягала у підвищенні ефективності діяльності електростанції та зниженні кількості викидів (Electric Power Research Institute, 2009).

Важливо, що, незважаючи на те, що набори даних можуть бути дуже великими, інформація, яка міститься в них, має значно меншу розмірність.

Наприклад, у той час як дані накопичуються щомиті або щохвилини, багато параметрів (температура газів і печей, потоки, положення заслінок і т.д.) залишаються стабільними на великих інтервалах часу. Інакше висловлюючись, дані, записуються кожну секунду, є переважно повтореннями однієї й тієї інформації.

Таким чином, необхідно проводити “розумне” агрегування даних, отримуючи для моделювання та оптимізації дані, що містять лише необхідну інформацію про динамічні зміни, що впливають на ефективність роботи електростанції та кількість викидів.

Класифікація текстів та попередня обробка даних. Проілюструємо ще раз, як великі набори даних можуть містити набагато менше корисної інформації.

Наприклад, StatSoft брав участь у проектах, пов'язаних з аналізом текстів (text mining) з твітів, що відображають, наскільки пасажири задоволені авіакомпаніями та їх послугами.

Незважаючи на те, що щогодини та щодня було вилучено велику кількість відповідних твітів, настрої, виражені в них, були досить простими та одноманітними. Більшість повідомлень – скарги та короткі повідомлення з однієї пропозиції про “поганий досвід”. Крім того, кількість і “сила” цих настроїв щодо стабільні у часі та у конкретних питаннях (наприклад, втрачений багаж, погане харчування, скасування рейсів).

Таким чином, скорочення фактичних твітів до швидкого (оцінки) настрою, використовуючи методи text mining (наприклад, реалізовані в STATISTICA Text Miner), призводить до набагато меншого обсягу даних, які потім можуть бути легко зіставлені з існуючими структурованими даними (фактичні продажі квитків, або інформація про пасажирів, що часто літають). Аналіз дозволяє розбити клієнтів на групи та вивчити їх характерні скарги.

Існує безліч інструментів для проведення такого агрегування даних (наприклад, швидких настроїв) у розподіленій файловій системі, що дозволяє легко здійснювати даний аналітичний процес.

Побудова моделей

Часто завдання полягає в тому, щоб швидко побудувати точні моделі даних, що зберігаються в розподіленій файловій системі.

Існують реалізації map-reduce для різних алгоритмів data mining/прогностичної аналітики, які підходять для масштабної паралельної обробки даних у розподіленій файловій системі (що може бути підтримано за допомогою платформи STATISTICA StatSoft).

Однак, саме через те, що ви обробили дуже велику кількість даних, чи ви впевнені, що підсумкова модель є дійсно більш точною?

Насправді, найімовірніше, зручніше будувати моделі для невеликих сегментів даних у розподіленій файловій системі.

Як говориться в нещодавньому звіті Forrester: "Два плюс два дорівнює 3,9 - це зазвичай досить добре" (Hopkins & Evelson, 2011).

Статистична та математична точність полягає в тому, що модель лінійної регресії, що включає, наприклад, 10 предикторів, заснованих на правильно зробленій імовірнісній вибірцізі 100 000 спостережень буде так само точна, як модель, побудована на 100 мільйонах спостережень.

(дослівно - великі дані)? Звернемося спочатку до оксфордського словника:

Дані— величини, знаки або символи, якими оперує комп'ютер і які можуть зберігатися та передаватися у формі електричних сигналів, записуватись на магнітні, оптичні або механічні носії.

Термін Big Dataвикористовується для опису великого та зростаючого експоненційно з часом набору даних. Для обробки такої кількості даних не обійтись без машинного навчання.

Переваги Big Data:

  1. Збір даних із різних джерел.
  2. Поліпшення бізнес-процесів через аналітику реального часу.
  3. Зберігання величезного обсягу даних.
  4. Інсайти. Big Data більш прониклива до прихованої інформаціїза допомогою структурованих та напівструктурованих даних.
  5. Великі дані допомагають зменшувати ризик та приймати розумні рішення завдяки відповідній ризик-аналітиці

Приклади Big Data

Нью-Йоркська фондова біржащодня генерує 1 терабайтданих про торги за минулу сесію

Соціальні медіа: статистика показує, що в бази даних Facebook щодня завантажується. 500 терабайтнових даних, генеруються в основному через завантаження фото та відео на сервери соціальної мережі, обміну повідомленнями, коментарями під постами і так далі.

Реактивний двигунгенерує 10 терабайтданих кожні 30 хвилин під час польоту. Оскільки щодня відбуваються тисячі перельотів, обсяг даних досягає петабайти.

Класифікація Big Data

Форми великих даних:

  • Структурована
  • Неструктурована
  • Напівструктурована

Структурована форма

Дані, які можуть зберігатися, бути доступними та обробленими у формі з фіксованим форматом, називаються структурованими. За тривалий час комп'ютерні науки досягли великих успіхів у вдосконаленні техніки для роботи з цим типом даних (де формат відомий заздалегідь) і навчилися отримувати користь. Проте вже сьогодні спостерігаються проблеми, пов'язані із зростанням обсягів до розмірів, що вимірюються в діапазоні кількох зеттабайтів.

1 зеттабайт відповідає мільярду терабайт

Дивлячись на ці числа, неважко переконатися в правдивості терміну Big Data і труднощі, пов'язані з обробкою та зберіганням таких даних.

Дані, що зберігаються в реляційній базі — структуровані та мають вигляд, наприклад, таблиці співробітників компанії

Неструктурована форма

Дані невідомої структури класифікуються як неструктуровані. На додаток до великих розмірів, така форма характеризується рядом складнощів для обробки та вилучення корисної інформації. Типовий приклад неструктурованих даних - гетерогенне джерело, що містить комбінацію простих текстових файлів, картинок та відео. Сьогодні організації мають доступ до великого обсягу сирих або неструктурованих даних, але не знають, як отримати з них користь.

Напівструктурована форма

Ця категорія містить обидві описані вище, тому напівструктуровані дані мають деяку форму, але насправді не визначаються за допомогою таблиць в реляційних базах. Приклад цієї категорії – персональні дані, представлені у XML файлі.

Prashant RaoMale35 Seema R.Female41 Satish ManeMale29 Subrato RoyMale26 Jeremiah J.Male35

Характеристики Big Data

Зростання Big Data з часом:

Синім кольором представлені структуровані дані (Enterprise data), які зберігаються у реляційних базах. Іншими кольорами – неструктуровані дані з різних джерел (IP-телефонія, девайси та сенсори, соціальні мережі та веб-додатки).

Відповідно до Gartner, великі дані розрізняються за обсягом, швидкістю генерації, різноманітністю та мінливістю. Розглянемо ці показники докладніше.

  1. Об `єм. Сам собою термін Big Data пов'язані з великим розміром. Розмір даних — найважливіший показник щодо можливої ​​видобутої цінності. Щодня 6 мільйонів людей використовують цифрові медіа, що, за попередніми оцінками, генерує 2.5 квінтильйона байт даних. Тому обсяг – перша для розгляду характеристика.
  2. Різноманітність- Наступний аспект. Він посилається на гетерогенні джерела та природу даних, які можуть бути як структурованими, так і неструктурованими. Раніше електронні таблиціта бази даних були єдиними джерелами інформації, що розглядаються у більшості додатків. Сьогодні ж дані у формі електронних листів, фото, відео, PDF файлів, Аудіо теж розглядаються в аналітичних додатках. Така різноманітність неструктурованих даних призводить до проблем у зберіганні, видобутку та аналізі: 27% компаній не впевнені, що працюють із відповідними даними.
  3. Швидкість генерації. Те, наскільки швидко дані накопичуються та обробляються задоволення вимог, визначає потенціал. Швидкість визначає швидкість припливу інформації з джерел - бізнес процесів, логів додатків, сайтів соціальних мереж та медіа, сенсорів, мобільних пристроїв. Потік даних величезний та безперервний у часі.
  4. Мінливістьописує мінливість даних у деякі моменти часу, що ускладнює обробку та управління. Так, наприклад, більша частина даних неструктурована за своєю природою.

Big Data аналітика: у чому користь великих даних

Просування товарів та послуг: доступ до даних з пошукових систем та сайтів, таких як Facebook та Twitter, дозволяє підприємствам точніше розробляти маркетингові стратегії.

Поліпшення сервісу для покупців: традиційні системи зворотнього зв'язкуз покупцями замінюються на нові, у яких Big Data та обробка природної мови застосовується для читання та оцінки відкликання покупця.

Розрахунок ризику, пов'язаного з випуском нового продукту чи послуги.

Операційна ефективність: великі дані структурують, щоб швидше отримувати потрібну інформацію та оперативно видавати точний результат. Таке об'єднання технологій Big Data і сховищ допомагає організаціям оптимізувати роботу з інформацією, що рідко використовується.

Великі дані – це широкий термін для позначення нетрадиційних стратегій та технологій, необхідних для збирання, впорядкування та обробки інформації з великих наборів даних. Хоча проблема роботи з даними, що перевищують обчислювальну потужністьабо можливості зберігання одного комп'ютера, не є новою, в останні роки масштаби та цінність цього типу обчислень значно розширилися.

У цій статті ви знайдете основні поняття, з якими можна зіткнутися, досліджуючи великі дані. Також тут розглядаються деякі з процесів та технологій, які використовуються у цій галузі на даний час.

Що таке величезні дані?

Точне визначення «великих даних» важко сформулювати, тому що проекти, вендори, спеціалісти-практики та бізнес-фахівці використовують його зовсім по-різному. Маючи це на увазі, великі дані можна визначити як:

  • Великі набори даних.
  • Категорію обчислювальних стратегій та технологій, що використовуються для обробки великих наборів даних.

У цьому контексті "великий набір даних" означає набір даних, який надто великий, щоб оброблятися або зберігатися за допомогою традиційних інструментів або на одному комп'ютері. Це означає, що загальний масштаб великих наборів даних постійно змінюється і може значно змінюватися час від часу.

Системи великих даних

Основні вимоги до роботи з великими даними такі ж, як і до інших наборів даних. Однак масові масштаби, швидкість обробки та характеристики даних, що зустрічаються на кожному етапі процесу, становлять серйозні нові проблеми при розробці коштів. Метою більшості систем великих даних є розуміння та зв'язок з великими обсягами різнорідних даних, що було б неможливим при використанні звичайних методів.

У 2001 році Даг Лейні (Doug Laney) з Gartner представив "три V великих даних", щоб описати деякі характеристики, які відрізняють обробку великих даних від процесу обробки даних інших типів:

  1. Volume (обсяг даних).
  2. Velocity (швидкість накопичення та обробки даних).
  3. Variety (різноманітність типів оброблюваних даних).

Обсяг даних

Винятковий масштаб інформації, що обробляється, допомагає визначити системи великих даних. Ці набори даних можуть бути на порядки більшими, ніж традиційні набори, що потребує більшої уваги на кожному етапі обробки та зберігання.

Оскільки вимоги перевищують можливості одного комп'ютера, часто виникає проблема об'єднання, розподілу та координації ресурсів із груп комп'ютерів. Кластерне управління і алгоритми, здатні розбивати завдання більш дрібні частини, стають у цій галузі дедалі важливішими.

Швидкість накопичення та обробки

Друга характеристика, яка суттєво відрізняє великі дані з інших систем даних, — це швидкість, з якою інформація переміщається системою. Дані часто надходять у систему з кількох джерел і мають оброблятися як реального часу, щоб оновити поточний стан системи.

Цей акцент на миттєвому зворотному зв'язку змусив багатьох фахівців-практиків відмовитися від пакетно-орієнтованого підходу та віддати перевагу потоковій системі реального часу. Дані постійно додаються, обробляються та аналізуються, щоб встигати за припливом нової інформації та отримувати цінні дані на ранній стадії, коли це найбільш актуально. Для цього необхідні надійні системи з високодоступними компонентами для захисту від збоїв конвеєру даних.

Різноманітність типів оброблюваних даних

У великих даних існує безліч унікальних проблем, пов'язаних із широким спектром оброблюваних джерел та їхньою відносною якістю.

Дані можуть надходити з внутрішніх систем, таких як логи додатків та серверів, з каналів соціальних мереж та інших зовнішніх API-інтерфейсів, з датчиків фізичних пристроївта з інших джерел. Метою систем великих даних є обробка потенційно корисних даних незалежно від походження шляхом об'єднання усієї інформації в єдину систему.

Формати та типи носіїв також можуть значно відрізнятися. Медіафайли (зображення, відео та аудіо) поєднуються з текстовими файлами, структурованими логами і т. д. Більш традиційні системи обробки даних розраховують, що дані потрапляють у конвеєр вже поміченими, відформатованими та організованими, але системи великих даних зазвичай приймають та зберігають дані, намагаючись зберегти їх вихідний стан. В ідеалі будь-які перетворення чи зміни необроблених даних відбуватимуться у пам'яті під час обробки.

Інші характеристики

Згодом фахівці та організації запропонували розширити початкові «три V», хоча ці нововведення зазвичай описують проблеми, а не характеристики великих даних.

  • Veracity (достовірність даних): різноманітність джерел та складність обробки можуть призвести до проблем при оцінці якості даних (і, отже, якості отриманого аналізу).
  • Variability (змінність даних): зміна даних призводить до широких змін якості. Для ідентифікації, обробки або фільтрації даних низької якості можуть знадобитися додаткові ресурси, які зможуть підвищити якість даних.
  • Value (цінність даних): кінцеве завдання великих даних – це цінність. Іноді системи та процеси дуже складні, що ускладнює використання даних та вилучення фактичних значень.

Життєвий цикл великих даних

Отже, як насправді обробляють великі дані? Існує кілька різних підходів до реалізації, але у стратегіях та програмному забезпеченні є спільні риси.

  • Внесення даних до системи
  • Збереження даних у сховищі
  • Обчислення та аналіз даних
  • Візуалізація результатів

Перш ніж докладно розглянути ці чотири категорії робочих процесів, поговоримо про кластерні обчислення, важливу стратегію, яка використовується багатьма засобами для обробки великих даних. Налаштування обчислювального кластера є основою технології, використовуваної кожному етапі життєвого циклу.

Кластерні обчислення

Через якість великих даних окремі комп'ютери не підходять для обробки даних. Для цього більше підходять кластери, тому що вони можуть справлятися із зберіганням та обчислювальними потребами великих даних.

Програмне забезпечення для кластеризації великих даних поєднує ресурси багатьох невеликих машин, прагнучи забезпечити ряд переваг:

  • Об'єднання ресурсів: для обробки великих наборів даних потрібно багато ресурсів процесора і пам'яті, а також багато доступного простору для зберігання даних.
  • Висока доступність: кластери можуть забезпечувати різні рівні відмовостійкості та доступності, завдяки чому апаратні або програмні збої не вплинуть на доступ до даних та їх обробку. Це особливо важливо для аналітики у реальному часі.
  • Масштабованість: кластери підтримують швидке горизонтальне масштабування (додавання нових машин до кластера).

Для роботи в кластері необхідні засоби для управління членством у кластері, координації розподілу ресурсів та планування роботи з окремими нодами. Членство в кластерах та розподіл ресурсів можна обробляти за допомогою програм типу Hadoop YARN (Yet Another Resource Negotiator) або Apache Mesos.

Збірний обчислювальний кластер часто виступає як основа, з якою для обробки даних взаємодіє інше програмне забезпечення. Машини, що у обчислювальному кластері, також зазвичай пов'язані з управлінням розподіленої системою зберігання.

Отримання даних

Прийом даних – це процес додавання необроблених даних у систему. Складність цієї операції багато в чому залежить від формату та якості джерел даних та від того, наскільки дані відповідають вимогам для обробки.

Додати великі дані до системи можна за допомогою спеціальних інструментів. Такі технології, як Apache Sqoop, можуть приймати існуючі дані з реляційних баз даних і додавати їх до системи великих даних. Також можна використовувати Apache Flume та Apache Chukwa – проекти, призначені для агрегування та імпорту логів додатків та серверів. Брокери повідомлень, такі як Apache Kafka, можуть використовуватися як інтерфейс між різними генераторами даних і системою великих даних. Фреймворки типу Gobblin можуть об'єднати та оптимізувати виведення всіх інструментів наприкінці конвеєра.

Під час прийому даних зазвичай проводиться аналіз, сортування та маркування. Цей процес іноді називають ETL (extract, transform, load), що означає вилучення, перетворення та завантаження. Хоча цей термін зазвичай стосується застарілих процесів зберігання даних, іноді він застосовується і до систем великих даних. серед типових операцій – зміна вхідних даних для форматування, категоризація та маркування, фільтрація чи перевірка даних на відповідність вимогам.

В ідеалі, дані, що надійшли, проходять мінімальне форматування.

Зберігання даних

Після прийому дані переходять до компонентів, що керують сховищем.

Зазвичай зберігання необроблених даних використовуються розподілені файлові системи. Такі рішення, як HDFS від Apache Hadoop, дозволяють записувати великі обсяги даних на кілька нод у кластері. Ця система забезпечує обчислювальним ресурсам доступ до даних, може завантажити дані в ОЗП кластера для операцій із пам'яттю та обробляти збої компонентів. Замість HDFS можна використовувати інші розподілені файлові системи, включаючи Ceph і GlusterFS.

Дані також можна імпортувати до інших розподілених систем для більш структурованого доступу. Розподілені бази даних, особливо бази даних NoSQL, добре підходять цієї ролі, оскільки можуть обробляти неоднорідні дані. Існує безліч різних типіврозподілених баз даних, вибір залежить від того, як ви хочете організовувати та подавати дані.

Обчислення та аналіз даних

Як тільки дані будуть доступні, система може розпочати обробку. Обчислювальний рівень, мабуть, є найвільнішою частиною системи, оскільки вимоги та підходи тут можуть відрізнятися залежно від типу інформації. Дані часто обробляються повторно: за допомогою одного інструменту або за допомогою ряду інструментів для обробки різних типів даних.

Пакетна обробка – це один із методів обчислення у великих наборах даних. Цей процес включає розбивку даних на дрібніші частини, планування обробки кожної частини на окремій машині, перестановку даних на основі проміжних результатів, а потім обчислення та збирання остаточного результату. Цю стратегію використовує MapReduce від Apache Hadoop. Пакетна обробка найбільш корисна при роботі з дуже великими наборами даних, для яких потрібно багато обчислень.

Інші робочі навантаження потребують обробки у режимі реального часу. При цьому інформація повинна оброблятися та готуватися негайно, і система має своєчасно реагувати у міру надходження нової інформації. Одним із способів реалізації обробки в реальному часі є обробка безперервного потоку даних, що складаються з окремих елементів. Ще одна Загальна характеристикапроцесорів реального часу – це обчислення даних у пам'яті кластера, що дозволяє уникнути запису на диск.

Apache Storm, Apache Flink та Apache Spark пропонують різні способиреалізації обробки у реальному часі. Ці гнучкі технології дозволяють підібрати найкращий підхід кожної окремої проблеми. Загалом обробка в режимі реального часу найкраще підходить для аналізу невеликих фрагментів даних, які змінюються або швидко додаються до системи.

Усі ці програми є фреймворками. Однак є багато інших способів обчислення чи аналізу даних у системі великих даних. Ці інструменти часто підключаються до вищезгаданих фреймворків і надають додаткові інтерфейси для взаємодії з нижчими рівнями. Наприклад, Apache Hive надає інтерфейс сховища даних для Hadoop, Apache Pig надає інтерфейс запитів, а взаємодії з даними SQL забезпечуються за допомогою Apache Drill, Apache Impala, Apache Spark SQL та Presto. У машинному навчанні застосовуються Apache SystemML, Apache Mahout та MLlib від Apache Spark. Для прямого аналітичного програмування, яке широко підтримується екосистемою даних, використовують R та Python.

Візуалізація результатів

Часто розпізнавання тенденцій чи змін у даних із часом важливіше отриманих значень. Візуалізація даних – один з найбільш корисних способіввиявлення тенденцій та організації великої кількості точок даних.

Обробка в реальному часі використовується для візуалізації метрик програми та сервера. Дані часто змінюються, і великі розльоти у показниках зазвичай вказують на значний вплив на стан систем чи організацій. Проекти типу Prometheus можна використовуватиме обробки потоків даних і часових рядів і візуалізації цієї інформації.

Одним із популярних способів візуалізації даних є стек Elastic, раніше відомий як стек ELK. Logstash використовується для збору даних, Elasticsearch для індексування даних, а Kibana – для візуалізації. Стек Elastic може працювати з великими даними, візуалізувати результати обчислень чи взаємодіяти з необробленими метриками. Аналогічний стек можна отримати, поєднавши Apache Solr для індексування форк Kibana під назвою Banana для візуалізації. Такий стек називається Silk.

Іншою технологією візуалізації для інтерактивної роботи в галузі даних є документи. Такі проекти дозволяють здійснювати інтерактивне дослідження та візуалізацію даних у форматі, зручному для спільного використаннята подання даних. Популярними прикладами цього інтерфейсу є Jupyter Notebook і Apache Zeppelin.

Глосарій великих даних

  • Великі дані – широкий термін позначення наборів даних, які можуть бути коректно оброблені звичайними комп'ютерамиабо інструментами через їх обсяг, швидкість надходження та різноманітність. Цей термін також зазвичай застосовується до технологій та стратегій для роботи з такими даними.
  • Пакетна обробка – це обчислювальна стратегія, що включає обробку даних у великих наборах. Зазвичай, цей метод ідеально підходить для роботи з нетерміновими даними.
  • Кластеризовані обчислення – це практика об'єднання ресурсів кількох машин та управління їх спільними можливостями до виконання завдань. При цьому необхідний рівень керування кластером, який обробляє зв'язок між окремими нодами.
  • Озеро даних – велике сховище зібраних даних у відносно сирому стані. Цей термін часто використовується для позначення неструктурованих великих даних, що часто змінюються.
  • Видобуток даних – це широкий термін позначення різних практик пошуку шаблонів у великих наборах даних. Це спроба організувати масу даних більш зрозумілий і зв'язковий набір інформації.
  • Сховище даних (data warehouse) - це велике, впорядковане сховище для аналізу та звітності. На відміну від озера даних сховище складається з відформатованих та добре впорядкованих даних, інтегрованих з іншими джерелами. Сховища даних часто згадуються щодо великих даних, але часто є компонентами звичайних системобробки даних
  • ETL (extract, transform, та load) – вилучення, перетворення та завантаження даних. Такий процес отримання та підготовки необроблених даних до використання. Він пов'язаний із сховищами даних, але характеристики цього процесу також виявляються у конвеєрах систем великих даних.
  • Hadoop – це проект Apache з відкритим кодом для великих даних. Він складається з розподіленої файлової системи під назвою HDFS та планувальника кластерів та ресурсів, який називається YARN. Можливості пакетної обробкинадаються механізмом обчислення MapReduce. Разом з MapReduce у сучасних розгортаннях Hadoop можна запускати інші обчислювальні та аналітичні системи.
  • Обчислення пам'яті – це стратегія, яка передбачає повне переміщення робочих наборів даних у пам'ять кластера. Проміжні обчислення не записуються на диск, натомість вони зберігаються у пам'яті. Це дає системам величезну перевагу у швидкості, порівняно з системами, пов'язаними з I/O.
  • Машинне навчання – це дослідження і практика проектування систем, які можуть навчатися, налаштовуватися і покращуватися на основі даних, що передаються їм. Зазвичай під цим мають на увазі реалізацію прогнозуючих та статистичних алгоритмів.
  • Map reduce (не плутати з MapReduce від Hadoop) – це метод планування роботи обчислювального кластера. Процес включає поділ завдання між нодами і отримання проміжних результатів, перетасовування і наступний висновок єдиного значення для кожного набору.
  • NoSQL – це широкий термін, що означає бази даних, розроблені поза традиційною реляційною моделлю. Бази даних NoSQL добре підходять для великих даних завдяки їх гнучкості та розподіленій архітектурі.
  • Потокова обробка – це практика обчислення окремих елементів даних за її переміщенні системою. Це дозволяє аналізувати дані в режимі реального часу та підходить для обробки термінових операцій із використанням високошвидкісних метрик.
Tags: ,

У свій час я почув термін "Big Data" від Германа Грефа (глава Ощадбанку). Мовляв, вони зараз активно працюють над впровадженням, бо це допоможе їм скоротити час роботи з кожним клієнтом.

Вдруге я зіткнувся з цим поняттям в інтернет-магазині клієнта, над яким ми працювали і збільшували асортимент із кількох тисяч до кількох десятків тисяч товарних позицій.

Третій раз, коли побачив, що Yandex потребує аналітика big data. Тоді я вирішив глибше розібратися в цій темі і заразом написати статтю, яка розповість, що це за термін такий, який розбурхує уми ТОП-менеджерів та інтернет-простір.

Що це таке

Зазвичай будь-яку свою статтю я починаю з пояснення, що це за термін такий. Ця стаття не стане винятком.

Однак, це викликано насамперед не бажанням показати, який я розумний, а тим, що тема по-справжньому складна і потребує ретельного пояснення.

Наприклад, Ви можете почитати що таке big data у Вікіпедії, нічого не зрозуміти, а потім повернутися в цю статтю, щоб таки розібратися у визначенні та застосовності для бізнесу. Отже, почнемо з опису, а потім до прикладів для бізнесу.

Big data – це великі дані. Дивно, правда? Реально, з англійської це перекладається як “великі дані”. Але це визначення, можна сказати, для чайників.

Технологія big data- це підхід/метод обробки більшої кількості даних для отримання нової інформації, які важко обробити звичайними способами.

Дані можуть бути як обробленими (структурованими), так і розрізненими (тобто неструктурованими).

Сам термін виник недавно. У 2008 році в науковому журналі цей підхід передбачався як щось необхідне для роботи з великим обсягом інформації, яка збільшується в геометричній прогресії.

Наприклад, щорічно інформація в інтернеті, яку потрібно зберігати, та й само собою обробляти, збільшується на 40%. Ще раз: +40% щороку з'являється в Інтернеті нової інформації.

Якщо роздруковані документи зрозумілі та способи обробки їх теж зрозумілі (перенести до електронний вид, пошити в одну папку, пронумерувати), те що робити з інформацією, яка представлена ​​в інших "носіях" та інших об'ємах:

  • Інтернет-документи;
  • Блоги та соціальні мережі;
  • Аудіо/відео джерела;
  • Вимірювальні пристрої.

Є характеристики, які дозволяють віднести інформацію та дані саме до big data. Тобто, не всі дані можуть бути придатними для аналітики. У цих характеристиках таки закладено ключове поняття біг дата. Усі вони уміщаються у три V.

  1. Об `єм(Від англ. volume). Дані вимірюються у величині фізичного обсягу "документа", що підлягає аналізу;
  2. Швидкість(Від англ. Velocity). Дані не стоять у своєму розвитку, а постійно приростають, саме тому і потрібна їхня швидка обробка для отримання результатів;
  3. Різноманітність(Від англ. variety). Дані можуть бути одноформатними. Тобто можуть бути розрізненими, структурованими або структурованими частково.

Однак, періодично VVV додають і четверту V (veracity - достовірність/правдоподібність даних) і навіть п'яту V (у деяких варіантах це – viability - життєздатність, в інших же це – value - цінність).

Десь я бачив навіть 7V, які характеризують дані, що стосуються біг дата. Але на мій погляд це із серії (де періодично додаються P, хоча для розуміння достатньо початкових 4-х).

НАС ВЖЕ БІЛЬШЕ 29 000 чол.
ВКЛЮЧАЙТЕСЯ

Кому це потрібно

Постає логічне питання, як можна використовувати інформацію (якщо біг дата це сотні і тисячі терабайт)?

Навіть не так. Ось є інформація. То навіщо придумали тоді біг дата? Яке застосування у big data у маркетингу та в бізнесі?

  1. Звичайні бази даних не можуть зберігати та обробляти (я зараз говорю навіть не про аналітику, а просто зберігання та обробку) величезної кількості інформації.
    Біг дата ж вирішує це головне завдання. Успішно зберігає та керує інформацією з великим обсягом;
  2. Структурує відомості, що надходять з різних джерел (відео, зображень, аудіо та текстових документів), в один єдиний, зрозумілий і зручний вид;
  3. Формування аналітики та створення точних прогнозів на підставі структурованої та обробленої інформації.

Це складно. Якщо говорити просто, то будь-який маркетолог, який розуміє, що якщо вивчити великий обсяг інформації (про Вас, Вашу компанію, Ваших конкурентів, Вашу галузь), то можна отримати дуже пристойні результати:

  • Повне розуміння Вашої компанії та Вашого бізнесу з боку цифр;
  • Вивчити своїх конкурентів. А це, своєю чергою, дасть змогу вирватися вперед за рахунок переважання над ними;
  • Дізнатись нову інформаціюпро своїх клієнтів.

І саме тому, що технологія big data дає наступні результати, все з нею і гасають. Намагаються прикрутити цю справу у свою компанію, щоб отримати збільшення продажу та зменшення витрат. А якщо конкретно, то:

  1. Збільшення крос продажів та додаткових продажів за рахунок кращого знання переваг клієнтів;
  2. Пошук популярних товарів та причин чому їх купують (і навпаки);
  3. Удосконалення продукту чи послуги;
  4. Поліпшення рівня обслуговування;
  5. Підвищення лояльності та клієнтоорієнтованості;
  6. Попередження шахрайства (більше актуально для банківської сфери);
  7. Зниження зайвих витрат.

Найпоширеніший приклад, який наводиться у всіх джерелах - це, звичайно ж, компанія Apple, яка збирає дані про своїх користувачів (телефон, годинник, комп'ютер).

Саме через наявність екосистеми корпорація стільки знає про своїх користувачів та надалі використовує це для отримання прибутку.

Ці та інші приклади використання Ви можете прочитати в будь-якій іншій статті, крім цієї.

Сучасний приклад

Я ж розповім Вам про інший проект. Точніше про людину, яка будує майбутнє, використовуючи big data рішення.

Це Ілон Маск та його компанія Tesla. Його головна мрія – зробити автомобілі автономними, тобто Ви сідаєте за кермо, вмикаєте автопілот від Москви до Владивостока і… засинаєте, тому що Вам зовсім не потрібно керувати автомобілем, адже він все зробить сам.

Здавалося б, фантастика? Але немає! Просто Ілон вчинив набагато мудріше, ніж Google, які керують автомобілями за допомогою десятків супутників. І пішов іншим шляхом:

  1. У кожен автомобіль, що продається, ставиться комп'ютер, який збирають всю інформацію.
    Все – це означає взагалі всю. Про водія, стиль його водіння, дороги навколо, рух інших автомобілів. Обсяг таких даних сягає 20-30 ГБ на годину;
  2. Далі ця інформація по супутниковому зв'язку передається до центрального комп'ютера, який займається обробкою цих даних;
  3. На основі даних big data, які обробляє даний комп'ютер, будується модель безпілотного автомобіля

До речі, якщо у Google справи йдуть досить погано і їхні автомобілі весь час потрапляють в аварії, то у Маска, за рахунок того, що йде робота з big data, справи набагато кращі, адже тестові моделі показують дуже непогані результати.

Але... Це все з економіки. Що ми всі про прибуток, та про прибуток? Багато чого, що може вирішити біг дата, зовсім не пов'язане із заробітком та грошима.

Статистика Google, якраз заснована на big data, показує цікаву річ.

Перед тим, як медики оголошують про початок епідемії захворювання у якомусь регіоні, у цьому регіоні суттєво зростає кількість пошукових запитів щодо лікування даного захворювання.

Таким чином, правильне вивчення даних та їх аналіз може сформувати прогнози та передбачити початок епідемії (і, відповідно, її запобігання) набагато швидше, ніж висновок офіційних органівта їх дії.

Застосування у Росії

Однак Росія, як завжди, трохи пригальмовує. Так, саме визначення big data в Росії з'явилося не більше ніж 5 років тому (я зараз саме про звичайні компанії).

І це не дивлячись на те, що це один із найбільш швидко зростаючих ринків у світі (наркотики та зброя нервово курять осторонь), адже щороку ринок програмного забезпечення для збирання та аналізу big data приростає на 32%.

Щоб охарактеризувати ринок big data в Росії, мені згадується один старий жарт. Біг дата це як секс до 18 років. Всі про це говорять, навколо цього багато галасу і мало реальних дій, і всім соромно зізнатися, що самі вони цим не займаються. І справді, навколо цього багато галасу, але мало реальних дій.

Хоча відома дослідницька компанія Gartner вже в 2015 році оголосила, що біг дата вже не зростаючий тренд (як, до речі, і штучний інтелект), а цілком самостійні інструменти для аналізу та розвитку передових технологій.

Найбільш активні ніші, де застосовується big data в Росії, це банки/страхування (недарма я почав статтю з глави Ощадбанку), телекомунікаційна сфера, рітейл, нерухомість і державний сектор.

Для прикладу розповім детальніше про пару секторів економіки, які використовують алгоритми big data.

1. Банки

Почнемо з банків і тієї інформації, яку вони збирають про нас і наші дії. Наприклад, я взяв ТОП-5 російських банків, які активно інвестують у big data:

  1. Ощадбанк;
  2. Газпромбанк;
  3. ВТБ 24;
  4. Альфа Банк;
  5. Тінькофф банк.

Особливо приємно бачити серед російських лідерів Альфа Банк. Як мінімум, приємно усвідомлювати, що банк, офіційним партнером якого ти є, розуміє необхідність впровадження нових маркетингових інструментів у свою компанію.

Але приклади використання та вдалого впровадження big data я хочу показати на банку, який мені подобається за нестандартний погляд та вчинки його засновника.

Я говорю про Тінькофф банк. Їхнім головним завданням стояла розробка системи для аналізу великих даних у режимі реального часу через розрослу клієнтську базу.

Результати: час внутрішніх процесів скоротився мінімум у 10 разів, а для деяких – більш ніж у 100 разів.

Ну і невелике відволікання. Знаєте, чому я заговорив про нестандартні витівки та вчинки Олега Тінькова? Просто на мій погляд саме вони допомогли йому перетворитися з бізнесмена середньої руки, яких тисячі в Росії, на одного з найвідоміших і найвідоміших підприємців. На підтвердження подивіться це незвичайне та цікаве відео:

2. Нерухомість

У нерухомості все набагато складніше. І це саме той приклад, який я хочу вам навести для розуміння біг дати в межах звичайного бізнесу. Початкові дані:

  1. Великий обсяг текстової документації;
  2. Відкриті джерела (приватні супутники, що передають дані про зміни землі);
  3. Величезний обсяг неконтрольованої інформації в Інтернеті;
  4. Постійні зміни у джерелах та даних.

І на основі цього потрібно підготувати та оцінити вартість земельної ділянки, наприклад, під уральським селом. У професіонала на це піде тиждень.

У Російського товаристваоцінювачів & РОСЕКО, власне які і впровадили собі аналіз big data за допомогою програмного забезпечення, піде на це не більше 30 хвилин неквапливої ​​роботи. Порівняйте тиждень і 30 хвилин. Колосальна різниця.

Інструменти створення

Звичайно ж, величезні обсяги інформації не можуть зберігатися і оброблятися на простих жорстких дисках.

А програмне забезпечення, яке структурує та аналізує дані – це взагалі інтелектуальна власність і щоразу авторська розробка. Однак, є інструменти, на основі яких створюється вся ця краса:

  • Hadoop & MapReduce;
  • NoSQL бази даних;
  • Інструменти класу Data Discovery.

Якщо чесно, я не зможу Вам чітко пояснити, чим вони відрізняються один від одного, оскільки знайомству та роботі з цими речами навчають у фізико-математичних інститутах.

Навіщо тоді я про це говорив, якщо не зможу пояснити? Пам'ятаєте, у всіх кіно грабіжники заходять у будь-який банк і бачать величезну кількість всяких залізяків, підключених до дротів? Те ж саме і в біг дати. Наприклад, ось модель, яка є на даний момент одним із лідерів на ринку.

Інструмент Біг дата

Вартість в максимальній комплектації сягає 27 мільйонів рублів за стійку. Це, звісно, ​​люксова версія. Я це до того, щоб Ви заздалегідь приміряли створення big data у своєму бізнесі.

Коротко про головне

Ви можете запитати, навіщо ж Вам, малому та середньому бізнесу робота з біг дата?

На це я відповім Вам цитатою однієї людини: “Найближчим часом клієнтами будуть затребувані компанії, які краще розуміють їхню поведінку, звички та максимально відповідають їм”.

Але погляньмо правді в очі. Щоб запровадити біг дата в малому бізнесі, це треба мати не лише великі бюджети на розробку та впровадження софту, а й на утримання фахівців, хоча б таких як аналітик big data та сисадмін.

І це я зараз мовчу про те, що у вас мають бути такі дані для обробки.

Окей. Для малого бізнесу тема майже не застосовується. Але це не означає, що вам потрібно забути все, що прочитали вище. Просто вивчайте свої дані, а результати аналітики даних відомих як зарубіжних, і російських компаній.

Наприклад, роздрібна мережа Target за допомогою аналітики з big data з'ясувала, що вагітні жінки перед другим триместром вагітності (з 1-го по 12-й тиждень вагітності) активно скуповують неароматизовані засоби.

Завдяки цим даним вони надсилають їм купони зі знижками на неароматизовані кошти з обмеженим терміном дії.

А якщо Ви ну пряме зовсім невелике кафе, приміром? Так, дуже просто. Використовуйте програму лояльності. І через деякий час і завдяки накопиченій інформації, Ви зможете не тільки пропонувати клієнтам релевантні їхнім потребам страви, але й побачити найнепроданіші та наймаржинальніші страви буквально парою клацань мишки.

Звідси висновок. Впроваджувати біг дата малому бізнесу навряд чи варто, а ось використовувати результати та напрацювання інших компаній – обов'язково.

© 2022 androidas.ru - Все про Android