Pentaho BI

Продукт
Название базовой системы (платформы): Red Hat Decision Manager (ранее JBoss)
Разработчики: Pentaho
Дата последнего релиза: 2018/03/14
Технологии: BI,  Data Mining,  OLAP

Содержание

Pentaho Businnes Intelligence

Pentaho Businnes Intelligence — opensource-проект компании Pentaho (Сан-Франциско) для энтерпрайс-класса репортинга, анализа, дата майнинга, автоматизация делопроизводства и документооборота (стандарт BPEL) и построения интранет-портала предприятия. Первая версия появилась в 2005 г. С июля 2008 г. выпускается под лицензией GNU GPL v2. В состав продукта входит набор интегрированных компонентов, стандартных для BI:

  • Pentaho Reporting JFreeReport - дизайнер отчетов, аналог популярных open-source проектов BIRT и JasperReports. Может использовать в качестве источника данных любые СУБД, поддерживающие интерфейс JDBC.
  • Pentaho Data Integration Kettle ETL - ETL модуль для интеграции исходных систем и хранилища Pentaho
  • Pentaho Analysis Mondrian OLAP Server - OLAP сервер, позволяющий создавать отчеты для онлайн анализа данных, поддерживает язык запросов MDX
  • Pentaho Data Mining Weka (machine learning) - инструмент для автоматизации дата-майнинга
  • Pentaho Dashboards - инструмент создания дэшбордов для мониторинга за ключевыми показателями деятельности предприятия.

Pentaho BI включает в себя все необходимые компоненты современной корпоративной системы анализа данных. В их числе развитые средства подготовки и формирования аналитической отчетности, загрузки данных (ETL), создания графических информационных панелей (dashboards), добычи знаний (data mining), создания OLAP-кубов. Кроме того, на этой платформе можно организовать единое рабочее место для подготовки и анализа отчетности, включая доступ через мобильные устройства. Применение Pentaho BI особенно актуально для организаций, которые обладают разнородными информационными системами и заинтересованы в унификации технологии формирования отчетности и анализа данных.

Pentaho Data Integration (PDI)

Перед организациями стоит сложнейшая задача, связанная с управлением растущими объемами все более разнообразных данных и извлечением из них ценных знаний. Система интеграции данных Pentaho Data Integration (PDI) позволяет получать доступ к данным из комплексных и разнородных источников и комбинировать их с имеющимися реляционными данными для получения высококачественной готовой к анализу информации – и все это без единой строчки кода.


Функционально насыщенный графический интерфейс пользователя в сочетании с многопотоковой подсистемой преобразования данных обеспечивает возможности высокопроизводительного извлечения, преобразования и загрузки (ETL), способные удовлетворить все потребности в интеграции данных, включая получение и обработку «больших данных».

Pentaho Data Integration обеспечивает:

  • Интерфейс drag and drop, упрощающий и ускоряющий создание потоков обработки и анализаданных.
  • Возможности подключения практически к любым источникам данных, включая плоские файлы, реляционные СУБД, «большие данные», интерфейсы API и многое другое
  • Интеграция с транзакционными базами данных, такими как Oracle, DB2, Postgres, MySQL и другими
  • Доступ к данным корпоративных приложений, в том числе Salesforce.com, Google Analytics и другим
  • Поддержка множества дистрибутивов Hadoop и баз данных NoSQL
  • Ббиблиотека готовых компонентов для доступа к данным, их первичной обработки, комбинирования и очистки
  • Функционал оркестрирования для управления комплексными рабочими процессами, включающий планирование задач и отправку уведомлений
  • Интеграция в поток данных расширенных моделей аналитики из R, Python и Weka
  • Средства администрирования, масштабирования и обеспечения безопасности корпоративного уровня

«Большие данные»

Среда визуального проектирования для комбинирования нескольких источников «больших данных» и обработки данных в требуемом масштабе.

  • Интеграция с ведущими дистрибутивами Hadoop, хранилищами NoSQL и аналитическими БД, а также с данными файлов журналов и форматами JSON/XML
  • Возможность создания схем преобразования данных на Hadoop в визуальном интерфейсе без написания кода,которая позволяет достичь 15-кратного увеличения продуктивности по сравнению с ручным программированием и выполнять вычисления на высокопроизводительном кластере Hadoop
  • Быстрое подключение источников данных к Hadoop на основе шаблонов, осуществляемое с помощью набора функций загрузки метаданных (metadata injection)
  • Компонент Adaptive Big Data Layer, обеспечивающий прозрачную переносимость преобразований между разными дистрибутивами Hadoop
  • Практичные решения для создания в среде «больших данных» витрин данных по требованию

Бизнес-аналитика

Располагая спектром аналитических инструментов, пользователи могут создавать отчетыи интерактивные панели, а также выполнять визуализацию и анализ данных по нескольким направлениям, не привлекая ИТ-специалистов или разработчиков. При этом подразделения ИТ получают преимущество использования безопасной, масштабируемой и управляемой аналитики для всего предприятия. Решение Pentaho можно развернуть на территории организации или в облаке, а также бесшовно встроить в другие приложения. Pentaho Business Analytics обеспечивает следующие возможности:

Специальный анализ и визуализация:

  • Библиотека интерактивных средств визуализации, таких как географические карты, тепловые карты,пузырьковые диаграммы и другие представления
  • Высокомасштабируемое кэширование данных в памяти для выполнения анализа больших объемов данных «со скоростью мысли» с использованием простого интерфейса drag and drop
  • Возможность визуальной фильтрации и изменения масштаба с помощью лассо для лучшего понимания или исклю-чения резких отклонений
  • Выделение атрибутов контрастным цветом для более наглядного отображения
  • Детализация (drill down) для подробного изучения данных

Интерактивные панели

  • Предназначенный для бизнес-пользователей конструктор интерактивных панелей на базе веб-интерфейса drag and drop
  • Интеграция с порталами и возможность модификации встраиваемой визуализации (mashup) для бесшовного объединения средств бизнес-аналитики с другими веб-приложениями
  • Разнообразные средства визуализации с возможностями навигации и детализации и библиотека элементов управления в виде фильтров
  • Среда разработки интерактивных панелей, обеспечивающая возможности аналитики, адаптируемые к требованиям пользователей

Самостоятельное создание отчетов пользователями

  • Поддержка оперативных и параметризованных отчетов и возможность самостоятельного интерактивного создания отчетов по данным транзакционных систем
  • Интуитивный процесс создания интерактивных отчетов с помощью веб-интерфейса для бизнес-пользователей
  • Конструктор отчетов с поддержкой графической верстки pixel-perfect для опытных пользователей

Мобильная бизнес-аналитика

  • Мобильное приложение для конечных пользователей с возможностями исследования данных, интерактивного анализа и визуализации на устройствах iPad.
  • Оптимизированная работа с мобильных устройств с поддержкой основных жестов, таких как фильтрация касанием,переход по уровням детализации и активируемое касанием перетаскивание
  • Возможность с помощью мобильных устройств создавать новый аналитический контент, а также просматривать редактировать существующие отчеты

Прогностическая аналитика

Помимо возможностей исследования данных Pentaho предлагает алгоритмы машинного обучения и инструменты обработки данных. Это позволяет специалистам по обработке данных и аналитикам выявлять закономерности и корреляции, которые остаются незамеченными при использовании обычных средств анализа и создания отчетов. Возможности расширенной аналитики, такие как прогнозирование временных рядов, помогают организациям планировать результаты деятельности, отталкиваясь от более глубокого понимания показателей эффективности бизнеса в прошлом.

Image:АНАЛИЗ С ПОМОЩЬЮ ТЕПЛОВОЙ КАРТЫ В PENTAHO BUSINESS ANALYTICS.jpg

Встроенные средства аналитики

Платформа Pentaho, поддерживающая работу в облачной среде, создана специально для встраивания и интегрирования в имеющиеся приложения, порталы и процессы.

  • Возможность бесшовного встраивания средств визуализации, отчетов и интерактивных панелей в существующие приложения
  • Настраиваемый пользовательский веб-интерфейс и API на базе веб-сервисов обеспечивают контроль над внешним видом и функциональными возможностями аналитических средств
  • Возможности развертывания в многопользовательской среде, а также эффективная интеграция с механизмами безопасности и единого входа в систему (SSO)
  • Адаптируемый процесс обучения и консультации специалистов уровня системных архитекторов.

2018: Решения Hitachi Vantara по управлению моделями машинного обучения

Компания Hitachi Vantara, дочернее предприятие Hitachi Ltd., в марте 2018 года объявила о создании решений по управлению процессами машинного обучения, призванных помочь специалистам по обработке и анализу данных тестировать и перестраивать модели машинного обучения в сфере производства. Инновационные разработки Hitachi Vantara Labs подключаются к конвейеру данных, созданному Pentaho. Это позволяет повысить результативность бизнеса и сократить риски за счет упрощения процесса обновления моделей.

Как известно, после запуска модели машинного обучения необходимо постоянно осуществлять ее мониторинг, тестирование и переобучение в соответствии с меняющимися условиями среды, а после этого запускать повторно. Это трудоемкая ручная работа, которая выполняется достаточно редко. Кроме того, после перезапуска модели заметно снижается точность прогнозирования, что отрицательно сказывается на доходности бизнеса.

В целом возможности решений Hitachi Vantara по управлению моделями интеллектуальной обработки данных позволяют оптимизировать процессы машинного обучения по трем направлениям:

  • Быстрый запуск моделей в производственной среде
    • Возможности управления моделями машинного обучения помогают правильно их оценить и повысить точность прогнозирования до запуска модели на производстве. Для дальнейшей настройки операционные группы могут тестировать их с использованием различных методик перекрестной проверки и вневыборочной оценки. Подготовка данных с учетом специфики конкретных алгоритмов теперь выполняется автоматически.

  • Повышение точности прогнозов

    • Как правило, после запуска модели на производстве точность ее показаний снижается по мере поступления новых данных. Избежать этого помогает комплекс оценочных средств, выявляющий модели, которые дают неточные показания. Разнообразные средства визуализации и создания отчетов помогают анализировать качество работы и выявлять ошибки. При любых обновлениях или изменениях можно легко провести A/B-тестирование, сопоставив модели друг с другом.

  • Совместная работа и управление операциями в требуемом масштабе

    • Организации все чаще стремятся повысить прозрачность алгоритмов принятия решений. Возможности, которые предлагает Hitachi Vantara, способствуют взаимодействию сотрудников, обеспечивают контроль за происхождением данных, а также прозрачность источников данных и ее первичных функций. Подобный уровень прозрачности облегчает совместное использование данных и конвейеров данных командами, стандартизирует алгоритмы и дает возможность их повторного применения.

«
Машинное обучение и искусственный интеллект (ИИ) позволяют оптимизировать все аспекты ведения бизнеса — от взаимодействия с клиентами до операционной деятельности. Средства управления моделями обучения, разработанные Hitachi Vantara, обеспечивают более высокую прозрачность алгоритмов и степень автоматизации, благодаря чему разработчики компании могут сосредоточиться на внедрении инноваций, не опасаясь ухудшения качества работы моделей, — считает Джон Маджи (John Magee), вице-президент по маркетингу Hitachi Vantara.
»

Решения по управлению моделями машинного обучения доступны на Pentaho Marketplace с 6 марта 2018 года. Пока эти модули доступны в тестовом режиме. Следующие версии будут интегрированы в Pentaho Data Integration (PDI).

2013: Выпуск Pentaho 5.0

Pentaho 5.0 предоставляет компаниям, использующим большие данные, спектр аналитических инструментов для любых типов и объемов данных, любой архитектуры ИТ и любого требуемого анализа. Интерфейс упрощает работу пользователя. Pentaho 5.0 содержит свыше 250 новых и усовершенствованных функций.

Pentaho 5.0 позволяет аналитикам комбинировать все типы данных, визуализировать их, изучать для более глубокого понимания и готовить на их основе отчеты. Комбинирование больших данных `у источника` позволяет сохранить необходимую для точного и надежного анализа степень управляемости и безопасности данных. Аналитикам, работающим с визуализированными данными в распределенной среде, для своевременного и точного анализа необходимы точные, комбинируемые практически в реальном времени большие данные. Обычно создаваемая для конечного пользователя комбинация требует промежуточных стадий, что часто приводит к устареванию наборов данных. Благодаря возможностям Pentaho 5.0 в области интеграции больших данных аналитики могут уверенно комбинировать все данные почти в реальном времени и немедленно анализировать полученные результаты.

Представители Pentaho считают, что в нынешних условиях интеграция и сертификация популярных хранилищ больших данных гарантирует компаниям возможность поспевать за происходящими в экосистеме больших данных изменениями и готовность к будущему. В последнее время осуществлена интеграция Pentaho с Splunk, Amazon Redshift и Cloudera Impala, проведена сертификация MongoDB, Cassandra, DataStax, Cloudera, Intel, Hortonworks и MapR.

В Pentaho 5.0 появились такие новые возможности как перезапуск задач, откат и перераспределение нагрузки, новые сервисы REST для упрощенного встраивания средств анализа и передачи отчетов в интернет-приложения, предоставляемые в качестве сервиса.

2010: Состав продукта

Пентахо Бизнес Интелиджнс — opensource-проект компании Pentaho для энтерпрайс-класса репортинга, анализа, дата майнинга, автоматизация делопроизводства и документооборота (стандарт BPEL) и построения интранет-портала предприятия.

В состав продукта входит набор интегрированных компонентов, стандартных для BI:

  • Pentaho Reporting JFreeReport - дизайнер отчетов, аналог популярных open-source проектов BIRT и JasperReports. Может использовать в качестве источника данных любые СУБД, поддерживающие интерфейс JDBC.
  • Pentaho Data Integration Kettle ETL - ETL модуль для интеграции исходных систем и хранилища Pentaho
  • Pentaho Analysis Mondrian OLAP Server - OLAP сервер, позволяющий создавать отчеты для онлайн анализа данных, поддерживает язык запросов MDX
  • Pentaho Data Mining Weka (machine learning) - инструмент для автоматизации дата-майнинга
  • Pentaho Dashboards - инструмент создания дэшбордов для мониторинга за ключевыми показателями деятельности предприятия.

2008: Старт выпуска решения под лицензией GNU GPL v.2

Первая версия появилась в 2005 г. С июля 2008 г. выпускается под лицензией GNU GPL v2.