2017/08/28 17:21:13

Почему Data Scientist сексуальнее,
чем BI-аналитик

В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй - возможно более важный с практической точки зрения - чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.

Содержание

Отличия между Data science и BI
Прообраз Data scientist
Эволюция BI и возникновение Data science
Почему Data scientist сексуальнее, чем BI analyst
Робототехника
Примечания

Обращение к Сети с запросами «data science vs. business intelligence» и «data scientist vs. BI analyst» позволяет обнаружить великое множество ответов на них. Однако, не удовлетворившись ими, попробуем расширить это множество собственными ответами, построенными на основе «пирамидальной модели» DIKW, объединяющей данные, информацию, знания и глубокое познание или истину (data, information, knowledge, wisdom).

Отличия между Data science и BI

Data science и BI различаются по конечному результату, полученному характерными для них методами работы с данными. Для BI результирующим продуктом является информация, а для data science таким продуктом служат знания. Общим же является то, что как информация, так и знания извлекаются из данных с участием человека и предназначены для передачи другому человеку.

От BI к data science. Reporting - генерация отчетов, Modeling – моделирование, Decision Making – выработка решений, Understanding - понимание

Поэтому в обоих случаях решающую роль играют специалисты. Без их интеллекта и умения в общем случае такая трансформация невозможна. В ограниченном количестве приложений информация, но, подчеркнем, отнюдь не знание, может быть получена средствами искусственного интеллекта.

Второй фактор, определяющий различия – полнота используемых данных. Любые данные, в конечном счете, являются отражением окружающего мира, но эти отражения могут различаться по полноте представления. В BI используются только структурированные цифровые данные, дающие весьма ограниченную картину окружающего мира, а в data science могут быть использованы любые данные, достаточные для отражения картины окружающего мира с любой требуемой полнотой.

Прообраз Data scientist

Эдвардс Деминг - «отец» японского экономического чуда, эксперт в области менеджмента и статистики (1900 – 1993) - одним из первых адаптировал статистические методы для оценки эффективности производства, поэтому его нередко называют первообразом data scientist.

Самый известный афоризм Эдвардса Деминга: «В боге наша надежда, а все остальное нам принесут данные»

Деминг оставил после себя большое научное наследие и еще удивительный набор афоризмов. Среди них есть и посвященные данным. Его мнение о данных раскрывают, например, следующие мысли:

«Без данных вы всего лишь еще один человек со своим мнением» (Without data you’re just another person with an opinion)
«Самые важные вещи не могут быть измерены» (The most important things cannot be measured)
«Самые необходимые для управления цифры были и останутся неизвестными» (The most important figures that one needs for management are unknown or unknowable)

Эволюция BI и возникновение Data science

Те, кто занимается бизнесом, понимают под данными не биты и байты, записанные на носители, а готовые к использованию цифровые показатели, помещенные в хранилища данных. Именно так на протяжении многих лет интерпретируют данные последователи Эдвардса Деминга. С такими данными работают статистики и специалисты по количественному анализу (quantitative analysts), их еще называют quants.

Есть множество определений BI, среди них:

BI — это не продукт и не система. Скорее всего, это некоторое архитектурное сооружение или набор взаимосвязанных средств, а также приложений, поддерживающих принятие решений и баз данных, которые обеспечивают бизнес-сообществу простой доступ к бизнес-данным.

Область действия BI-приложений, поддерживающих принятие решений, распространяется на различные действия, связанные с прогнозированием, анализом бизнес-процессов, подготовкой балансовых отчетов.

Суть их одна — системы BI предназначены для перевода данных из формы, понятной машине, в такое представление, которое позволяет человеку извлечь из них максимум полезной информации.

В процессе эволюции BI сменилось три поколения:

Поколение Business Intelligence 1.0 требовало участия высоко квалифицированных специалистов, использующих сложные инструменты, работающих на больших машинах в режиме клиент-сервер. Обычно генерация отчетов осуществлялась на ежемесячной базе.

Поколение Business Intelligence 2.0 открыло возможность для работы прикладных специалистов (data explorers). Оперативность возросла до недельного или даже дневного уровня и, появились ограниченные возможности для прогнозирования.

Поколение Business Intelligence 3.0 продолжило процесс демократизации. Теперь в роли пользователя смогли выступать разные сотрудники, от бухгалтерии до менеджеров уровня С (CEO. CFO …). Скорость подготовки отчетов приблизилась к реальному времени.

В конце девяностых, когда возникла проблема взрывного роста данных (data deluge), увеличилось разнообразие хранимых данных и заметно улучшились технологии для агрегирования, анализа и подготовки отчетов на основании разнородных источников, возникло направление, получившее название New Business Intelligence (NBI). Его создатели стремились объединить управление знаниями (Knowledge Management, KM) и BI.

В начале 2000-х будущее BI виделось так, как показано на рисунке ниже.

Предполагаемая конвергенция КМ и BI

Но это предполагаемое развитие видоизменилось с появлением того, что называют Большими данными, для которых характерны не только гигантские объемы, но и существенно большее разнообразие. И вот тогда появилось то, что назвали Data science. Это направление стало ответом на появление Больших данных.

Под общим зонтиком объединяются разнообразные процессы, служащие для извлечения, сбора и переработки больших объемов самых разных данных. Подчеркнем, что data science – не «наука о данных», как написано в русскоязычной Википедии. Данные не являются предметом этой науки, поэтому называть data science синонимом предложенной Петером Науром науки datalogy совершенно ошибочно. В то же время о data science справедливо говорить как о науке, в том смысле что она представляет собой комплекс научных методов для извлечения знания из данных.

Поэтому на русский язык data science, возможно, стоило бы переводить как «наука работы с данными» или «научные методы работы с данными». Следовательно, задача, решаемая теми, кто занимается data science, состоит в извлечении знаний с использованием методов, объединенных под общим названием data mining, в объединении статистики и других методов анализа данных с целью понимания того, что содержат в себе данные.

С инструментальной позиции комплекс существенно шире и глубже с научной точки зрения, чем инструменты для BI. Он включает разнообразные статистические пакеты, SQL, Hadoop, языки R, Python, Perl и другие.

Состав технологий для разработки данных, используемых в data science: базы данных, статистика, визуализация, другие дисциплины, информационная наука, машинное обучение

В качестве примечания к иллюстрации следует отметить, что информационная наука – это самостоятельная дисциплина, наука об информации, точнее наука изучающая анализ, сбор, классификацию, манипулирование, хранение, поиск, движение, распространение и защиту информации. Ее не следует путать с информатикой или математической теорией информации.

Особое место занимают поддерживающие data science технологии data engineering или иначе data wrangling и data munging. Так называют процесс подготовки сырых данных для выполнения последующей аналитики над ними, преобразование сырых данных, хранящихся в любых произвольных форматах, в требуемые для аналитических приложений.

Несмотря на новизну технологий, стоящих за data engineering, их экономическое значение уже сейчас высоко оценивается и постоянно растет. Поскольку цена хранения и обработки неуклонно снижается, а стоимость труда аналитиков, напротив, неуклонно растет — возникла острая необходимость оптимизировать труд специалистов data scientist.

Почему Data scientist сексуальнее, чем BI analyst

Широкая публика прониклась огромным интересом к едва возникшей специальности в 2012 году, особенно после того как она была названа «The Sexiest Job of the 21st Century», то есть самой привлекательной работой нынешнего века. Это цитата из статьи в Harward Business Rewiew Томаса Давенпорта, одного из наиболее признанных экспертов по части data science^[1].

А я то думал, что это у меня самая привлекательная работа XXI века!

Возник невероятный спрос на data scientist, такой, что поневоле на память приходит дивный грузинский фильм «Голубые горы», где идиот-чиновник Важа Зазаевич требует себе «парочку хороших маркшейдеров», не понимая смысла этой профессии. Теперь же в дефиците data scientist и их труд оплачивается в полтора-два раза выше, чем старых-добрых business intelligence analyst.

Свято место пусто не бывает, обучением по профилю data scientist немедленно занялись сотни, если не тысячи университетов. Кому же не хочется стать The Sexiest? Однако опытные профессионалы выражают сомнение в возможности «выучить» студента на data scientist за несколько лет, поскольку этот вид деятельности требует целого комплекса знаний и умений.

Одних курсов по R и/или Python, изучения тех или иных инструментов совершенно недостаточно для приобретения полноценной квалификации «настоящий эксперт по данным» (perfect data scientist). Квалификационные требования к data scientist представлены в детализированная версии популярной трехзвенной диаграммы Венна.

Глядя на рисунок, не сложно понять, что никакое учебное заведение не может вложить в студента весь требуемый комплекс знаний. Получить его можно только годами целенаправленной самостоятельной работы.

Развернутая диаграмма Венна в приложении к квалификации data scientist

Обладая всеми этими знаниями и навыками, используя множество универсальных и специализированных инструментов и разнообразные, по большей части неструктурированные источники данных, data scientist должен предоставить руководящему составу высшего звена (С-level) содержательные ответы о том, что происходит сейчас и чего можно ожидать в будущем. Он на равных участвует в выработке решений.

Недавно перечень C-level пополнился должностями Chief data officer (CDO), Chief analytics officer (CAO) и Chief data science officer (CDSO). На этом фоне задача специалиста в области BI скромнее и более традиционна. Он должен, используя прежде всего исторические структурированные данные из хранилищ данных и известные инструменты для корпоративного анализа, создать отчеты о том, что произошло к настоящему моменту. Он предоставляет информацию для лиц, принимающих решения.

Главное различие между двумя специальностями заключается в том, что data scientist должен понимать, как и что нужно делать, в то время как эксперт в BI способен предоставить объективную картину от прошлого до текущего момента.

Чтобы точнее определить различия в этих двух видах деятельности, возвратимся к модели DIKW (см. подробнее). С этой точки зрения суть деятельности data scientist состоит в превращении сырых данных в знания, с использованием разнообразных аналитических методов в сочетании с собственной компетенцией в определенной области. А эксперт в business intelligence лишь преобразует данные в доступную для лиц, принимающих решение, информацию в форме отчетов и инфографики.

Это две принципиально разные специальности, они различается по используемым технологиям, по уровню погружения в предметную область, но главное по тому как они могут передавать результаты своей работы клиенту.

Со способами передача информации все более или менее ясно, обычно используются разнообразные виды отчетов, включающие тексты, инфографику и разнообразные приемы современной интерактивной визуализации.

С передачей знания дело обстоит сложнее. По состоянию на 2017 год можно говорить о двух возможных техниках. Одна строится на выдвижении и обсуждении гипотез (Hypothesis-driven thinking). Опора на гипотезы, как и научный метод, оправдывают употребление слова наука в названии data science.

Практически все существующие научные знания исторически складывались по одной и той же схеме. Сначала выдвигаются первые гипотезы, в процессе обсуждения выясняется, что большая часть из них ошибочна, потом появляются альтернативные гипотезы и в конце концов скалываются объективные знания.

Data scientist действует по той же схеме, его функции заключаются не в работе с данными, а в выдвижении бизнес-гипотез и отборе самых достоверных. Используя имеющиеся данные, он должен прийти к обоснованному умозаключению.

Для передачи знаний заказчику data scientist может использовать и второй прием, который называют data storytelling, то есть рассказ о данных. Рассказ оказывается самым эффективным средством для передачи знаний и для перехода от знаний к действию.

Основные компоненты data storytelling: Narraive - повествование, Explain – объяснение, Data – данные, Change – действия, Enlighten - просвещение, Engage - вовлечение

В рассказе, как показано на рисунке, сочетаются основные компоненты data storytelling. Объединяя повествование с данными, можно объяснить то, как в данных отражен внешний мир, что происходит, какие идеи и суждения представляют наибольшую ценность. Чтобы та или иная идея была должным образом оценена, она должна быть помещена в полноценный контекст и соответственно прокомментирована.

Добавление визуализации к данным улучшает передачу знаний. Люди могут увидеть то, что им в словесной или табличной форме недоступно. Сочетание повествования с графикой обеспечивает вовлеченность, получается примерно такой же эффект присутствия, как в кино.

Первые шаги в популяризации публичных выступлений для передачи знаний были сделаны на конференции TED (Technology, Entertainment, Design), проводимой с конца девяностых годов XX века. На нее приезжают для того, чтобы в доступной форме рассказать о серьезном. По оценкам ученых из Стэнфорда в повествовательной форме знания лучше запоминаются. Введен специальный показатель «запоминаемость» (memorability). Содержание рассказа обычно запоминают до 63% аудитории, а приведенные статистические данные менее 5%.

Неслучайно еще в 2009 году главный экономист Google Хал Вариан сказал:

Критически важными являются способности взять данные, понять их, переработать, визуализировать и передать другим. Эти умения станут важнейшими в ближайшие десятилетия

Подводя итог, следует сказать, что BI и data science можно представить как два полюса на общей оси технологий работы с данными. На одном полюсе из данных извлекается информация, на другом – знания. Как во многих случаях в жизни - граница между ними носит размытый характер.