Почему Data Scientist сексуальнее,
чем BI-аналитик
В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй - возможно более важный с практической точки зрения - чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.
Содержание |
Обращение к Сети с запросами «data science vs. business intelligence» и «data scientist vs. BI analyst» позволяет обнаружить великое множество ответов на них. Однако, не удовлетворившись ими, попробуем расширить это множество собственными ответами, построенными на основе «пирамидальной модели» DIKW, объединяющей данные, информацию, знания и глубокое познание или истину (data, information, knowledge, wisdom).
Отличия между Data science и BI
Data science и BI различаются по конечному результату, полученному характерными для них методами работы с данными. Для BI результирующим продуктом является информация, а для data science таким продуктом служат знания. Общим же является то, что как информация, так и знания извлекаются из данных с участием человека и предназначены для передачи другому человеку.
Поэтому в обоих случаях решающую роль играют специалисты. Без их интеллекта и умения в общем случае такая трансформация невозможна. В ограниченном количестве приложений информация, но, подчеркнем, отнюдь не знание, может быть получена средствами искусственного интеллекта.
Второй фактор, определяющий различия – полнота используемых данных. Любые данные, в конечном счете, являются отражением окружающего мира, но эти отражения могут различаться по полноте представления. В BI используются только структурированные цифровые данные, дающие весьма ограниченную картину окружающего мира, а в data science могут быть использованы любые данные, достаточные для отражения картины окружающего мира с любой требуемой полнотой.
Прообраз Data scientist
Эдвардс Деминг - «отец» японского экономического чуда, эксперт в области менеджмента и статистики (1900 – 1993) - одним из первых адаптировал статистические методы для оценки эффективности производства, поэтому его нередко называют первообразом data scientist.
Деминг оставил после себя большое научное наследие и еще удивительный набор афоризмов. Среди них есть и посвященные данным. Его мнение о данных раскрывают, например, следующие мысли:
- «Без данных вы всего лишь еще один человек со своим мнением» (Without data you’re just another person with an opinion)
- «Самые важные вещи не могут быть измерены» (The most important things cannot be measured)
- «Самые необходимые для управления цифры были и останутся неизвестными» (The most important figures that one needs for management are unknown or unknowable)
Эволюция BI и возникновение Data science
Те, кто занимается бизнесом, понимают под данными не биты и байты, записанные на носители, а готовые к использованию цифровые показатели, помещенные в хранилища данных. Именно так на протяжении многих лет интерпретируют данные последователи Эдвардса Деминга. С такими данными работают статистики и специалисты по количественному анализу (quantitative analysts), их еще называют quants.
Есть множество определений BI, среди них:
- BI — это не продукт и не система. Скорее всего, это некоторое архитектурное сооружение или набор взаимосвязанных средств, а также приложений, поддерживающих принятие решений и баз данных, которые обеспечивают бизнес-сообществу простой доступ к бизнес-данным.
- Область действия BI-приложений, поддерживающих принятие решений, распространяется на различные действия, связанные с прогнозированием, анализом бизнес-процессов, подготовкой балансовых отчетов.
Суть их одна — системы BI предназначены для перевода данных из формы, понятной машине, в такое представление, которое позволяет человеку извлечь из них максимум полезной информации.
В процессе эволюции BI сменилось три поколения:
- Поколение Business Intelligence 1.0 требовало участия высоко квалифицированных специалистов, использующих сложные инструменты, работающих на больших машинах в режиме клиент-сервер. Обычно генерация отчетов осуществлялась на ежемесячной базе.
- Поколение Business Intelligence 2.0 открыло возможность для работы прикладных специалистов (data explorers). Оперативность возросла до недельного или даже дневного уровня и, появились ограниченные возможности для прогнозирования.
- Поколение Business Intelligence 3.0 продолжило процесс демократизации. Теперь в роли пользователя смогли выступать разные сотрудники, от бухгалтерии до менеджеров уровня С (CEO. CFO …). Скорость подготовки отчетов приблизилась к реальному времени.
В конце девяностых, когда возникла проблема взрывного роста данных (data deluge), увеличилось разнообразие хранимых данных и заметно улучшились технологии для агрегирования, анализа и подготовки отчетов на основании разнородных источников, возникло направление, получившее название New Business Intelligence (NBI). Его создатели стремились объединить управление знаниями (Knowledge Management, KM) и BI.
В начале 2000-х будущее BI виделось так, как показано на рисунке ниже.
Но это предполагаемое развитие видоизменилось с появлением того, что называют Большими данными, для которых характерны не только гигантские объемы, но и существенно большее разнообразие. И вот тогда появилось то, что назвали Data science. Это направление стало ответом на появление Больших данных.
Под общим зонтиком объединяются разнообразные процессы, служащие для извлечения, сбора и переработки больших объемов самых разных данных. Подчеркнем, что data science – не «наука о данных», как написано в русскоязычной Википедии. Данные не являются предметом этой науки, поэтому называть data science синонимом предложенной Петером Науром науки datalogy совершенно ошибочно. В то же время о data science справедливо говорить как о науке, в том смысле что она представляет собой комплекс научных методов для извлечения знания из данных.
Поэтому на русский язык data science, возможно, стоило бы переводить как «наука работы с данными» или «научные методы работы с данными». Следовательно, задача, решаемая теми, кто занимается data science, состоит в извлечении знаний с использованием методов, объединенных под общим названием data mining, в объединении статистики и других методов анализа данных с целью понимания того, что содержат в себе данные.
С инструментальной позиции комплекс существенно шире и глубже с научной точки зрения, чем инструменты для BI. Он включает разнообразные статистические пакеты, SQL, Hadoop, языки R, Python, Perl и другие.
В качестве примечания к иллюстрации следует отметить, что информационная наука – это самостоятельная дисциплина, наука об информации, точнее наука изучающая анализ, сбор, классификацию, манипулирование, хранение, поиск, движение, распространение и защиту информации. Ее не следует путать с информатикой или математической теорией информации.
Особое место занимают поддерживающие data science технологии data engineering или иначе data wrangling и data munging. Так называют процесс подготовки сырых данных для выполнения последующей аналитики над ними, преобразование сырых данных, хранящихся в любых произвольных форматах, в требуемые для аналитических приложений.
Несмотря на новизну технологий, стоящих за data engineering, их экономическое значение уже сейчас высоко оценивается и постоянно растет. Поскольку цена хранения и обработки неуклонно снижается, а стоимость труда аналитиков, напротив, неуклонно растет — возникла острая необходимость оптимизировать труд специалистов data scientist.
Почему Data scientist сексуальнее, чем BI analyst
Широкая публика прониклась огромным интересом к едва возникшей специальности в 2012 году, особенно после того как она была названа «The Sexiest Job of the 21st Century», то есть самой привлекательной работой нынешнего века. Это цитата из статьи в Harward Business Rewiew Томаса Давенпорта, одного из наиболее признанных экспертов по части data science[1].
Возник невероятный спрос на data scientist, такой, что поневоле на память приходит дивный грузинский фильм «Голубые горы», где идиот-чиновник Важа Зазаевич требует себе «парочку хороших маркшейдеров», не понимая смысла этой профессии. Теперь же в дефиците data scientist и их труд оплачивается в полтора-два раза выше, чем старых-добрых business intelligence analyst.
Свято место пусто не бывает, обучением по профилю data scientist немедленно занялись сотни, если не тысячи университетов. Кому же не хочется стать The Sexiest? Однако опытные профессионалы выражают сомнение в возможности «выучить» студента на data scientist за несколько лет, поскольку этот вид деятельности требует целого комплекса знаний и умений.
Одних курсов по R и/или Python, изучения тех или иных инструментов совершенно недостаточно для приобретения полноценной квалификации «настоящий эксперт по данным» (perfect data scientist). Квалификационные требования к data scientist представлены в детализированная версии популярной трехзвенной диаграммы Венна.
Глядя на рисунок, не сложно понять, что никакое учебное заведение не может вложить в студента весь требуемый комплекс знаний. Получить его можно только годами целенаправленной самостоятельной работы.
Обладая всеми этими знаниями и навыками, используя множество универсальных и специализированных инструментов и разнообразные, по большей части неструктурированные источники данных, data scientist должен предоставить руководящему составу высшего звена (С-level) содержательные ответы о том, что происходит сейчас и чего можно ожидать в будущем. Он на равных участвует в выработке решений.
Недавно перечень C-level пополнился должностями Chief data officer (CDO), Chief analytics officer (CAO) и Chief data science officer (CDSO). На этом фоне задача специалиста в области BI скромнее и более традиционна. Он должен, используя прежде всего исторические структурированные данные из хранилищ данных и известные инструменты для корпоративного анализа, создать отчеты о том, что произошло к настоящему моменту. Он предоставляет информацию для лиц, принимающих решения.
Главное различие между двумя специальностями заключается в том, что data scientist должен понимать, как и что нужно делать, в то время как эксперт в BI способен предоставить объективную картину от прошлого до текущего момента.
Чтобы точнее определить различия в этих двух видах деятельности, возвратимся к модели DIKW (см. подробнее). С этой точки зрения суть деятельности data scientist состоит в превращении сырых данных в знания, с использованием разнообразных аналитических методов в сочетании с собственной компетенцией в определенной области. А эксперт в business intelligence лишь преобразует данные в доступную для лиц, принимающих решение, информацию в форме отчетов и инфографики.
Это две принципиально разные специальности, они различается по используемым технологиям, по уровню погружения в предметную область, но главное по тому как они могут передавать результаты своей работы клиенту.
Со способами передача информации все более или менее ясно, обычно используются разнообразные виды отчетов, включающие тексты, инфографику и разнообразные приемы современной интерактивной визуализации.
С передачей знания дело обстоит сложнее. По состоянию на 2017 год можно говорить о двух возможных техниках. Одна строится на выдвижении и обсуждении гипотез (Hypothesis-driven thinking). Опора на гипотезы, как и научный метод, оправдывают употребление слова наука в названии data science.
Практически все существующие научные знания исторически складывались по одной и той же схеме. Сначала выдвигаются первые гипотезы, в процессе обсуждения выясняется, что большая часть из них ошибочна, потом появляются альтернативные гипотезы и в конце концов скалываются объективные знания.
Data scientist действует по той же схеме, его функции заключаются не в работе с данными, а в выдвижении бизнес-гипотез и отборе самых достоверных. Используя имеющиеся данные, он должен прийти к обоснованному умозаключению.
Для передачи знаний заказчику data scientist может использовать и второй прием, который называют data storytelling, то есть рассказ о данных. Рассказ оказывается самым эффективным средством для передачи знаний и для перехода от знаний к действию.
В рассказе, как показано на рисунке, сочетаются основные компоненты data storytelling. Объединяя повествование с данными, можно объяснить то, как в данных отражен внешний мир, что происходит, какие идеи и суждения представляют наибольшую ценность. Чтобы та или иная идея была должным образом оценена, она должна быть помещена в полноценный контекст и соответственно прокомментирована.
Добавление визуализации к данным улучшает передачу знаний. Люди могут увидеть то, что им в словесной или табличной форме недоступно. Сочетание повествования с графикой обеспечивает вовлеченность, получается примерно такой же эффект присутствия, как в кино.
Первые шаги в популяризации публичных выступлений для передачи знаний были сделаны на конференции TED (Technology, Entertainment, Design), проводимой с конца девяностых годов XX века. На нее приезжают для того, чтобы в доступной форме рассказать о серьезном. По оценкам ученых из Стэнфорда в повествовательной форме знания лучше запоминаются. Введен специальный показатель «запоминаемость» (memorability). Содержание рассказа обычно запоминают до 63% аудитории, а приведенные статистические данные менее 5%.
Неслучайно еще в 2009 году главный экономист Google Хал Вариан сказал:
Критически важными являются способности взять данные, понять их, переработать, визуализировать и передать другим. Эти умения станут важнейшими в ближайшие десятилетия |
Подводя итог, следует сказать, что BI и data science можно представить как два полюса на общей оси технологий работы с данными. На одном полюсе из данных извлекается информация, на другом – знания. Как во многих случаях в жизни - граница между ними носит размытый характер.
Робототехника
- Роботы (робототехника)
- Робототехника (мировой рынок)
- Обзор: Российский рынок промышленной робототехники 2019
- Карта российского рынка промышленной робототехники
- Промышленные роботы в России
- Каталог систем и проектов Роботы Промышленные
- Топ-30 интеграторов промышленных роботов в России
- Карта российского рынка промышленной робототехники: 4 ключевых сегмента, 170 компаний
- Технологические тенденции развития промышленных роботов
- В промышленности, медицине, боевые (Кибервойны)
- Сервисные роботы
- Каталог систем и проектов Роботы Сервисные
- Collaborative robot, cobot (Коллаборативный робот, кобот)
- IoT - IIoT - Цифровой двойник (Digital Twin)
- Компьютерное зрение (машинное зрение)
- Компьютерное зрение: технологии, рынок, перспективы
- Как роботы заменяют людей
- Секс-роботы
- Роботы-пылесосы
- Искусственный интеллект (ИИ, Artificial intelligence, AI)
- Обзор: Искусственный интеллект 2018
- Искусственный интеллект (рынок России)
- Искусственный интеллект (мировой рынок)
- Искусственный интеллект (рынок Украины)
- В банках, медицине, радиологии, ритейле, ВПК, производственной сфере, образовании, Автопилот, транспорте, логистике, спорте, СМИ и литература, видео (DeepFake, FakeApp), музыке
- Национальная стратегия развития искусственного интеллекта
- Национальная Ассоциация участников рынка робототехники (НАУРР)
- Российская ассоциация искусственного интеллекта
- Национальный центр развития технологий и базовых элементов робототехники
- Международный Центр по робототехнике (IRC) на базе НИТУ МИСиС
- Машинное обучение, Вредоносное машинное обучение, Разметка данных (data labeling)
- RPA - Роботизированная автоматизация процессов
- Видеоаналитика (машинное зрение)
- Машинный интеллект
- Когнитивный компьютинг
- Наука о данных (Data Science)
- DataLake (Озеро данных)
- BigData
- Нейросети
- Чатботы
- Умные колонки Голосовые помощники
- Безэкипажное судовождение (БЭС)
- Автопилот (беспилотный автомобиль)
- Беспилотные грузовики
- Беспилотные грузовики в России
- В мире и России
- Летающие автомобили
- Электромобили