Визуализация данных
Развитые средства визуализации данных стали неотъемлемой частью корпоративных BI-платформ. Некоторые вендоры, такие, например, как Tableau, именно визуализацию сделали краеугольным камнем своих аналитических систем. Тренд пронизывает рынок систем аналитики полностью: сегодня даже простейшие аналитические инструменты для конечных пользователей зачастую опираются именно на визуальное представление данных.
Каталог BI-решений и проектов доступен на TAdviser.
Содержание |
Один из экспертов в области визуализации данных Эдвард Тафт (Edward Tufte) однажды сказал: «Мир является сложным, динамичным, многомерным, а бумага статичной и плоской. Как мы можем передать все богатство визуального представления об этом мире на этой равнине?». В действительности, развитые средства визуализации сегодня являются обязательным компонентов как промышленных BI-платформ, так и небольших аналитических решений для конечных пользователей.
Визуализация данных, по мнению экспертов Forrester[1], необходима компании в тех случаях, когда:
- Невозможно увидеть паттерн, не прибегая к визуализации данных. Все потому, что традиционные отчеты, строки, колонки и таблицы не дают понимание общей картины в целом, что может привести к неверной интерпретации данных.
- Когда значительные массивы данных невозможно разместить на одном экране. Как бы ни был мелок шрифт, сотни и тысячи строк данных на одном экране будут абсолютно не информативны в сравнении с визуальных представлением этой же самой информации. В своей книге The Visual Display of Quantitative Information[2] Эдвард Тафт приводит пример отображения 21 тыс. значений данных на карте США, поместившейся на одном экране.
- Невозможно передать глубину данных посредством информации, представленной на одном экране. Например, в фармацевтике при анализе свойств тех или иных препаратов используются сотни различных психофизических параметров человека, охватить которые в линейном виде не представляется возможным. Однако медицинские эксперты присваивают каждому параметру разноцветные пиксели и помещают их в динамические модели, где любой участок при необходимости может быть увеличен и проанализирован детально.
Пример визуализации "Симфонии №5" Людвига Ван Бетховена
Многие компании на протяжении долгих лет эффективно используют такие простейшие средства визуализации данных как диаграммы и гистограммы, в дальнейшем развитие технологий визуального представления информации позволило сделать работу с ними более динамичной и обрабатывать сведения фактически в режиме реального времени. Развитая бизнес-графика включает в себя различные дэшборды и чарты, которые могут обновляться автоматически согласно заданным настройкам.
Пример визуализации: связи между темами докладов разных стран в рамках Всемирного экономического форума
Пример представления данных в виде дэшборда
Среди многообразия отдельных инструментов и систем с функциями визуализации данных Forrester Research также выделяет отдельно платформы продвинутой дата визуализации или ADV (advanced data visualization). Такие платформы обладают более развитыми средствами и обеспечивают более комплексное представление информации. Вот их главные определяющие отличия:
- Динамический контент. Это означает, что визуальное представление информации изменяется по мере апдейта данных в базе. Статическая визуализация, которую можно создать в большинстве офисных программ, такой возможности не предоставляет.
- Визуальные запросы. Это возможность запрашивать и перезапрашивать данные путем простого манипулирования частями графики или диаграмм (нажатием на кнопки, например, можно развернуть подробности) или специальных визуальных компонентов (выпадающих списков, владок и прочего).
- Мультиданные. Типичные статические средства визуализации не могут связать и отобразить между собой более чем несколько параметров данных. В продвинутых платформах визуализации, напротив, учитываются множественные данные различных типов, прочно завязанные друг с другом, так что при обновлении какой-то части информация автоматически меняется на всех других панелях.
- Анимированная визуализация. Некоторые параметры, например, время, могут иметь сотни и сотни значений, так что отслеживание общей картины для каждого параметра в отдельности может стать достаточно трудоемким заданием. В таких случаях на помощь приходит анимация, позволяющая запустить переход от параметра к параметру в автоматическом режиме.
- Персонализация. То, что интуитивно понятно и необходимо одному пользователю, может совершенно не подойти другому. Кроме того, в большинстве компаний для защиты информации и минимизации рисков предусмотрены различные уровни доступа к корпоративным данным. Платформы ADV позволяют автоматически применять персональные настройки и предпочтения.
- Использование оповещений. Мощные ADV платформы могут подавать сигнал, когда не в состоянии корректно обработать большие массивы данных. Или, например, сигнал подается в тот момент, когда найдено какое-то критическое значение, причем оповещение может подаваться в том числе с помощью электронной почты и текстовых сообщений.
Лидеры рынка платформ продвинутой визуалиации данных
Forrester Research, 2012
По данным Forrester Research, к лидерам на рынке ADV платформ относятся такие компании как Tableau, IBM, Information Builders, SAS, SAP, Tibco, и Oracle. Решения этих вендоров предоставляют значительные возможности для визуализации, хорошо сбалансированные для создания различных запросов.
Сильными игроками на этом рынке также являются Microsoft, MicroStrategy, Actuate Software, Qlik (QlikTech), SpagoBI и Panorama Software. Альтернативой мега вендорам также являются Jaspersoft и Pentaho, чьи решения можно использовать по подписке.
Как рассказал TAdviser эксперт Георгий Нанеишвили, директор по развитию партнерской сети Qlik, российские компании в качестве средств визуализации предпочитают традиционно таблицы – простые и сводные.«Красивые графики хорошо показывать на презентациях, но в реальной работе для аналитиков критически важно моментально работать с огромным объемом информации, динамически накладывая фильтры и получая отчеты в табличной форме. Никак мы не уйдем от технологии анализа данных методом пристального взгляда. Да и чувствуется острый недостаток квалифицированных инфографов», - пояснил он.
Так что позволить себе действительно эффективное решение, которое одним взглядом позволят оценить сложившуюся ситуацию и исторические тренды, провести сравнительный анализ, геоанализ – могут позволить себе не так много российских компаний, полагает он.
Причем дело не том, что подобных решений нет: наоборот, на это ориентированы все современные BI-инструменты, а особо продвинутые позволяют это делать даже рядовым пользователям. Эксперт полагает, что пока еще нет понимания и достаточной квалификации у самих пользователей.
Прогноз по тенденциям в медицинской визуализации
В декабре 2017 года генеральный директор Ambra Health Моррис Паннер (Morris Panner) представил прогноз по технологическим тенденциям, которые, по его мнению, изменят медицинскую визуализацию в 2018 году. Подробнее здесь.
Визуализация больших данных
Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций. Казалось бы, ничего нового здесь придумать уже невозможно, но на самом деле это не так. В качестве иллюстрации приводим несколько прогрессивных методов визуализации, относительно недавно получивших распространение.
- Облако тегов
Каждому элементу в облаке тега присваивается определенный весовой коэффициент, который коррелирует с размером шрифта. В случае анализа текста величина весового коэффициента напрямую зависит от частоты употребления (цитирования) определенного слова или словосочетания. Позволяет читателю в сжатые сроки получить представление о ключевых моментах сколько угодно большого текста или набора текстов.
- Кластерграмма
Метод визуализации, использующийся при кластерном анализе. Показывает как отдельные элементы множества данных соотносятся с кластерами по мере изменения их количества. Выбор оптимального количества кластеров – важная составляющая кластерного анализа.
- Исторический поток
Помогает следить за эволюцией документа, над созданием которого работает одновременно большое количество авторов. В частности, это типичная ситуация для сервисов wiki и сайта tadviser в том числе. По горизонтальной оси откладывается время, по вертикальной – вклад каждого из соавторов, т.е. объем введенного текста. Каждому уникальному автору присваивается определенный цвет на диаграмме. Приведенная диаграмма – результат анализа для слова «ислам» в Википедии. Хорошо видно, как возрастала активность авторов с течением времени.
- Пространственный поток
Эта диаграмма позволяет отслеживать пространственное распределение информации. Приведенная в качестве примера диаграмма построена с помощью сервиса New York Talk Exchange. Она визуализирует интенсивность обмена IP-трафиком между Нью-Йорком и другими городами мира. Чем ярче линия – тем больше данных передается за единицу времени. Таким легко, не составляет труда выделить регионы, наиболее близкие к Нью-Йорку в контексте информационного обмена.
Обработка операционных баз данных и многомерных хранилищ
- Транзакционные тяжелонагруженные базы данных
- Реляционные и многомерные хранилища
- Прямые обращения к API систем
- Работа с коннекторами
- Обработка плоских файлов (CSV, Excel, XML и т.п.)
Построение аналитических моделей в памяти
- Классические BI-решения
- Гибридный подход (Exalytics, HANA, Teradata и т.п.)
- In-memory системы
- •Принципиально другой подход
- •Нереляционные базы данных
- •Компрессия
- •Скорость доступа
- •Индексация и поиск
- •Средства визуализации
Типичные проблемы визуализации и расчеты «на лету»
- Попытка сформировать перегруженный элементами интерфейс
- Избыточность данных (миллионы строк в табличных и графических элементах)
- Динамический расчет показателей
- Сложные вычисления
- Условное форматирование
- Неоптимальные выражения, приводящие к полному сканированию таблиц
- Расчеты по большим объемам первичных данных
Инструментарий, комбинирующий ETL-инструменты и средства визуализации
Задачи
- SQL запросы
- Работа с хранимыми процедурами
- Работа с плоскими файлами как с таблицами базы
- Скрипты преобразования, обогащения и очистки данных
- Работа с функциями
- Формирование новых измерений и значений
- Подготовка реляционных связей между сущностями
Прогнозная и статистическая аналитика
- Обработка данных, формирование локальной прогнозной модели, реализация математических алгоритмов
- Передача данных и использование внешних инструментов
- Работа с СУБД и использование функций обработки больших массивов данных
- Многопоточная обработка
- Сравнительная аналитика
- What-If анализ и параметризация отчетов
См.также
Business Intelligence, BI (мировой рынок)
Тенденции развития мирового рынка BI
Business Intelligence (рынок России)
Большие данные (Big Data) мировой рынок
Предикативная аналитика (предиктивная, прогнозная, прогностическая) Predictive analytics