Bigdata must die, или имитация инноваций

Еще раз пишу про Big Dat-у. Так как строен и звонок хор голосов пропагандистов этой чудо-технологии. Что якобы это мегаполезная вещь, которая «сделает» рынок в ближайшее время и инновациям не будет числа.

Попробуем разобраться по существу. Итак, БигДата технологии представляют из себя различные программно-аппаратные комплексы, в которых основное — выведение базы данных на высокоскоростные носители, а то и вообще полностью (или частично) в память сервера. Также используется интеллектуальная  многопоточная обработка для ускорения работы селектов СУБД. Идеологически это все предназначено для взрывного роста скорости и обработки больших массивов информации.

Все это было и раньше. Теперь почему Бигдата представляет из себя не более чем маркетинговый пшик. Разумеется, есть другие точки зрения, моя отражает скорее бизнес-подход, нежели айти.

  1. Аспект первый — технологический. Крупные компании, у которых бигдата — норма жизни (например поисковики, биллинг телекома) уже давно потихоньку освоили нужную им скорость на оборудовании без всякой бигдаты. Просто за счет оптимизации кода, запросов, архитектуры таблиц и приложения в целом. Кроме этого, положить базу в память системы может любой начальный юникс, при этом скорость вырастет в разы даже на старом железе. То же и про SSD диски — они существенно быстрее при произвольном доступе и позволяют разогнать любую систему до космических скоростей. Но все это было раньше и при чем тут бигдата?
  2. Аспект второй — научный. Бигдата предполагает ковыряние в произвольных массивах данных с произвольной выборкой. Тутвопросы появятся уже у человека, близкого к науке (вспоминаем про гипотезу и её подтверждение экспериментом). В этом случае поиск заранее прорабатывается и выполняется на ограниченном объеме, который или подтверждает гипотезу или её опровергает. Для того, чтобы понять как часто в старбаксе пьют кофе клиенты банка с хобби рыболовство, мозгами нужно работать несколько дольше, чем даже самый медленный селект на тормозной базе. Подменяется понятие качества количеством.  Кроме этого, правило Парето никто не отменял — 80% данных не представляют вообще никакой практической ценности. Найдите свои 20% и сдайте большую часть бигдаты в утиль аренду.В любом случае, продуктов для разнообразного дата-майнинга и организации данных всегда было в достаточном количестве.
  3. Аспект третий — метрологический. Точность измерительного инструмента должна соответствовать точности конечного изделия. Даже если вы перелопатили в сто раз больше информации и улучшили качество результата на 0.1%  — видимо это не то, что рассчитывали получить. Точность работы оставшейся системы зависит от персонала, процессов, технологий и тп. Это гораздо сложнее и дороже, чем «завалить» пару миллионов долларов в Хану или другую «бигдату».
  4. Аспект четвертый- логистический. Тут проблема в том, что «приведенная» к текущему дню важность данных стремительно падает при их удалении в прошлое. И требования к их точности также. Второй момент — знания о прошлом вообще на порядок менее важны, чем самый завалящий прогноз на будущее. Любой желающий может с помощью средств прогнозирования построить прогноз валютных курсов. При повышении требований к его реалистичности, проблемы, с которыми сталкиваются, в сотни раз масштабнее ковыряния в данных за прошлые периоды. Да, все разрезы есть, но это никак не приблизит к цели. Бигдата не является технологией, хоть как-то влияющая на прогнозирование. Как и технологией, которые затрагивает самые основные современные тенденции SCM. А на минутку, SCM — это глобальные вопросы управления издержками компании. И Бигдата никак не решает эти проблемы. Соответственно про окупаемость всего этого чуда обычно стараются умалчивать по понятным причинам.

Итого в сухом остатке. При написании статьи ни одна бигдата не пострадала. =)  Иметь или не иметь — решайте сами. Это решение из разряда навести порядок в вещах или купить шкаф побольше. Думать про инвестиции в бигдату можно, но если есть четкое понимание, что скорость обработки данных является реальным bottle-neck, то есть узким местом всей компании.  А таких в реальной жизни совсем немного.

This entry was posted in Разное and tagged , . Bookmark the permalink.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *


*