IBM InfoSphere BigInsights

Продукт
Название базовой системы (платформы): Apache Hadoop
Разработчики: IBM
Технологии: BI,  Big Data,  Data Mining

Содержание

IBM выпустила в конце 2011 года программное обеспечение InfoSphere BigInsights и InfoSphere Streams, которое позволяет клиентам получать быстрое представление о потоках информации в зоне интересов их бизнеса.

BigInsights в приближении

BigInsights - платформа для анализа данных, позволяющая компаниям превращать сложные наборы данных масштаба Интернета в знания. В состав этой платформы входят легко устанавливаемый дистрибутив Apache Hadoop, а также набор связанных инструментов, необходимых для разработки приложений, переноса данных и управления кластером. Благодаря своей простоте и масштабируемости Hadoop, представляющий собой Open Source-реализацию инфраструктуры MapReduce, пользуется заслуженным признанием в различных отраслях промышленности и науки. Помимо Hadoop, в состав BigInsights входят следующие Open Source-технологии (все они, за исключением Jaql, являются проектами Apache Software Foundation):

  • Pig - платформа, включающая в себя высокоуровневый язык описания программ, анализирующих большие наборы данных. В состав Pig входит компилятор, преобразующий приложения Pig в последовательности заданий MapReduce, исполняемых в среде Hadoop.
  • Hive - решение для организации хранилищ данных, разработанное на основе среды Hadoop. В нем реализованы знакомые принципы реляционных баз данных - таблицы, столбцы, разделы. Также в его состав входит набор SQL-операторов (HiveQL) для работы в неструктурированной среде Hadoop. Запросы Hive компилируются в задания MapReduce, исполняемые в среде Hadoop.
  • Jaql - язык запросов с SQL-подобным интерфейсом, разработанный IBM и предназначенный для JavaScript Object Notation (JSON). Jaql отлично поддерживает вложенность, является в высокой степени функционально-ориентированным и чрезвычайно гибким. Этот язык хорошо подходит для работы со слабо структурированными данными; также он служит интерфейсом хранилища столбцов HBase и используется для анализа текста.
  • HBase - ориентированная на столбцы не-SQL среда хранения данных, предназначенная для поддержки больших таблиц с малой степенью наполненности в Hadoop.
  • Flume - распределенная, надежная и доступная служба, предназначенная для эффективного перемещения больших объемов генерируемых данных. Flume хорошо подходит для получения журналов событий из нескольких систем и их перемещения в файловую систему Hadoop (Hadoop Distributed File System, HDFS) по мере их генерации.
  • Lucene - библиотека поисковой системы, обеспечивающая высокую производительность и полноценный текстовый поиск.
  • Avro - технология последовательного упорядочивания данных, использующая JSON для определения типов данных и протоколов. Упорядочивает данные в компактном двоичном формате.
  • ZooKeeper - централизованная служба, предназначенная для поддержки конфигурационной информации и именования; обеспечивает распределенную синхронизацию и групповое обслуживание.
  • Oozie - система планирования поточной обработки заданий, предназначенная для организации и управления выполнением заданий Apache Hadoop.

В дополнение к вышеперечисленным продуктам в дистрибутив BigInsights включены следующие технологии IBM:

  • BigSheets - браузерный интерфейс в виде электронной таблицы, предназначенный для поиска и анализа данных и использующий всю мощь Hadoop; позволяет пользователям легко собирать и анализировать данные. Содержит встроенные программы просмотра данных, умеющие работать с несколькими распространенными форматами, включая JSON, CSV (значения, разделенные запятыми) и TSV (значения, разделенные знаками табуляции).
  • Text analytics - предварительно собранная библиотека текстовых аннотаторов для распространенных бизнес- объектов. Содержит богатый язык и инструментарий для создания пользовательских аннотаторов местоположений.
  • Adaptive MapReduce - решение, разработанное IBM Research и предназначенное для ускорения выполнения небольших заданий MapReduce путем изменения способа их обработки.

Платформа InfoSphere

InfoSphere - всесторонняя платформа по интеграции информации, включающая в себя средства хранения и анализа данных, средства интеграции информации, средства управления мастер-данными, средства управления жизненным циклом, а также средства защиты и обеспечения конфиденциальности данных. InfoSphere делает процесс разработки приложений более эффективным, позволяя организациям экономить время, снижать затраты на интеграцию и повышать качество информации.

Продукт BigInsights, являясь частью платформы IBM Big Data, содержит точки интеграции с другими ее компонентами, включая системы хранения и интеграции данных, механизмы управления и сторонние инструменты для анализа данных. BigInsights возможно интегрировать с платформой InfoSphere Streams.

Новая парадигма вычислений

Потоковые вычисления - новая парадигма, потребность в которой вызвана новыми сценариями генерации данных - повсеместное использование мобильных устройств, службы по определению местоположения и широкая распространенность всевозможных датчиков. Все это породило острую потребность в масштабируемых вычислительных платформах и параллельных архитектурах, способных обрабатывать огромные объемы генерируемых потоковых данных.

Технологии BigInsights не подходят для обработки потоковых данных в реальном времени, поскольку ориентированы в основном на пакетную обработку статичных данных. При обработке статичных данных ответом на запрос " Выбрать всех пользователей, подключавшихся к сети " будет являться один результирующий набор значений. При обработке потоковых данных в реальном времени можно выполнять непрерывный запрос, например " Выбрать всех пользователей, подключавшихся к сети за последние 10 минут ". Этот запрос будет непрерывно обновлять результаты. В мире статичных данных пользователь будет искать пресловутую иголку в стоге сена, тогда как в мире потоковых данных он будет искать эту иголку по мере того, как ветер сдувает сено со стога.

На рисунке проиллюстрирована разница между вычислениями, выполняемыми над статичными данными, и вычислениями, выполняемыми над потоковыми данными.

Файл:Infosphere-35472.png

При обработке статичных данных (левая часть рисунка) выполняются запросы к статичным данным. При обработке потоковых данных (правая часть рисунка) данные непрерывно проходят через статические запросы.

Платформа IBM InfoSphere Streams поддерживает обработку потоковых данных в реальном времени, обеспечивая периодическое обновление результатов непрерывных запросов. Нужные знания могут быть извлечены из потоков данных, которые еще находятся в движении.





Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Прогноз (250)
  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (125)
  RBC Group Украина (124)
  БизнесАвтоматика НПЦ (119)
  Консультационная группа АТК (100)
  Другие (2537)

  Сапиенс солюшнс (Sapiens solutions) (9)
  Форсайт (8)
  Navicon (Навикон) (7)
  Корус Консалтинг (6)
  Доверенная среда (5)
  Другие (101)

  БизнесАвтоматика НПЦ (12)
  Форсайт (8)
  ФТО (5)
  Manzana Group (М Софт) (4)
  Optimacros (Оптимакрос) (3)
  Другие (74)

  Manzana Group (М Софт) (5)
  БизнесАвтоматика НПЦ (5)
  Simetra (ранее А+С Транспроект) (4)
  OptiTeam Consulting, Оптитим Консалтинг (ранее MCB Consulting, ЭмСиБи Консалтинг) (4)
  Форсайт (4)
  Другие (67)

  Simetra (ранее А+С Транспроект) (12)
  Форсайт (9)
  БизнесАвтоматика НПЦ (7)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (5)
  Инфомаксимум (Infomaximum) (4)
  Другие (56)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Qlik (QlikTech) (59, 464)
  Форсайт (19, 340)
  SAP SE (70, 303)
  Oracle (65, 267)
  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (4, 236)
  Другие (1116, 1644)

  SAP SE (6, 13)
  Форсайт (2, 8)
  Qlik (QlikTech) (2, 8)
  Microsoft (2, 6)
  Триафлай (1, 5)
  Другие (50, 78)

  БизнесАвтоматика НПЦ (1, 12)
  Форсайт (3, 8)
  Optimacros (Оптимакрос) (1, 6)
  Microsoft (1, 5)
  Manzana Group (М Софт) (3, 4)
  Другие (40, 50)

  Optimacros (Оптимакрос) (1, 10)
  Форсайт (2, 8)
  Analytic Workspace (ОСТ) (2, 5)
  Manzana Group (М Софт) (2, 5)
  PIX Robotics (Пикс Роботикс) (1, 5)
  Другие (38, 59)

  Simetra (ранее А+С Транспроект) (1, 11)
  Форсайт (2, 9)
  VMware (2, 7)
  БизнесАвтоматика НПЦ (1, 7)
  SL Soft (СЛ Софт) (5, 6)
  Другие (33, 60)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  QlikView - 411 (370, 41)
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 341 (321, 20)
  Deductor - 226 (226, 0)
  IBM Cognos - 162 (58, 104)
  Visary BI Платформа бизнес-аналитики - 119 (119, 0)
  Другие 1281

  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8 (8, 0)
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 8 (7, 1)
  QlikView.Next - 6 (0, 6)
  Триафлай BI-платформа - 5 (5, 0)
  Microsoft Power BI - 5 (5, 0)
  Другие 64

  Visary BI Платформа бизнес-аналитики - 12 (12, 0)
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 8 (5, 3)
  Optimacros Платформа для оптимизационного и консолидационного планирования - 6 (6, 0)
  Microsoft Power BI - 5 (5, 0)
  QlikView.Next - 4 (0, 4)
  Другие 35

  Optimacros Платформа для оптимизационного и консолидационного планирования - 10 (10, 0)
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 8 (7, 1)
  Manzana Customer Data Platform (CDP) - 5 (5, 0)
  Visary BI Платформа бизнес-аналитики - 5 (5, 0)
  Analytic Workspace BI-платформа - 5 (3, 2)
  Другие 38

  TransInfo - 11 (0, 11)
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 9 (4, 5)
  Visary BI Платформа бизнес-аналитики - 7 (7, 0)
  VMware Tanzu Greenplum - 7 (1, 6)
  Инфомаксимум: Proceset (Система класса Process mining) - 6 (6, 0)
  Другие 17

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (125)
  БизнесАвтоматика НПЦ (120)
  Инфосистемы Джет (13)
  Сбербанк (10)
  Полиматика (Polymatica) (9)
  Другие (639)

  БизнесАвтоматика НПЦ (3)
  Ростелеком (3)
  Сапиенс солюшнс (Sapiens solutions) (2)
  Сбербанк (2)
  IPavlov (Айпавлов) (2)
  Другие (48)

  БизнесАвтоматика НПЦ (12)
  OneFactor (Уанфактор) ЕдиныйФактор (3)
  Платформа больших данных (Platforma) (2)
  К-Скай (K-SkAI) (2)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (2)
  Другие (57)

  БизнесАвтоматика НПЦ (5)
  Сбер Бизнес Софт (2)
  Группа компаний ЦРТ (Центр речевых технологий) (2)
  Департамент информационных технологий Москвы (ДИТ) (2)
  Axenix (ранее Аксенчер Россия) Аксеникс (2)
  Другие (63)

  БизнесАвтоматика НПЦ (8)
  Сбер Бизнес Софт (3)
  SL Soft (СЛ Софт) (3)
  Полиматика (Polymatica) (2)
  Авантелеком (2)
  Другие (69)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (2, 236)
  БизнесАвтоматика НПЦ (2, 119)
  Полиматика (Polymatica) (4, 15)
  SL Soft (СЛ Софт) (3, 15)
  Oracle (12, 14)
  Другие (314, 181)

  БизнесАвтоматика НПЦ (1, 3)
  SL Soft (СЛ Софт) (1, 2)
  Dell EMC (1, 2)
  Полиматика (Polymatica) (1, 2)
  Группа компаний ЦРТ (Центр речевых технологий) (1, 1)
  Другие (6, 6)

  БизнесАвтоматика НПЦ (1, 12)
  Сбербанк (2, 2)
  Платформа больших данных (Platforma) (1, 2)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (1, 2)
  К-Скай (K-SkAI) (1, 2)
  Другие (14, 16)

  БизнесАвтоматика НПЦ (1, 5)
  Сбербанк (3, 3)
  Ситроникс КТ (ранее Кронштадт Технологии) (2, 2)
  Группа компаний ЦРТ (Центр речевых технологий) (1, 2)
  Полиматика (Polymatica) (1, 2)
  Другие (16, 19)

  БизнесАвтоматика НПЦ (1, 7)
  Полиматика (Polymatica) (3, 4)
  SL Soft (СЛ Софт) (3, 4)
  Rubbles (Раблз) (1, 2)
  Retail Rocket (Ритейл Рокет) (1, 2)
  Другие (15, 15)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Deductor - 226 (226, 0)
  Visary BI Платформа бизнес-аналитики - 119 (119, 0)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 37 (0, 37)
  Polymatica Analytics Аналитическая платформа - 14 (13, 1)
  IBM SPSS Decision Management - 10 (10, 0)
  Другие 98

  Visary BI Платформа бизнес-аналитики - 3 (3, 0)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 2 (0, 2)
  Polymatica Analytics Аналитическая платформа - 2 (2, 0)
  EMC Greenplum Data Computing Appliance - 2 (2, 0)
  Loginom Аналитическая платформа - 1 (1, 0)
  Другие 1

  Visary BI Платформа бизнес-аналитики - 12 (12, 0)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 5 (0, 5)
  PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2 (2, 0)
  Platforma и HFLabs: Технология безопасного метчинга данных - 2 (2, 0)
  Loginom Аналитическая платформа - 2 (2, 0)
  Другие 2

  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 5 (0, 5)
  Visary BI Платформа бизнес-аналитики - 5 (5, 0)
  CM.Expert Data Mining платформа - 2 (2, 0)
  Polymatica Analytics Аналитическая платформа - 2 (2, 0)
  ЦРТ: Speech Analytics Lab - 2 (2, 0)
  Другие 6

  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 10 (0, 10)
  Visary BI Платформа бизнес-аналитики - 7 (7, 0)
  Polymatica Analytics Аналитическая платформа - 3 (2, 1)
  Систематика: Optimining (ранее СвойРМ) - 1 (1, 0)
  Сфера. Интеллектуальный анализ процессов - 1 (1, 0)
  Другие -10