Apache Spark

Продукт
Разработчики: Apache Software Foundation (ASF)
Дата последнего релиза: 2020/05/14
Технологии: Средства разработки приложений

Содержание

Apache Spark - фреймворк для создания проектов распределённой обработки неструктурированных и слабо структурированных данных, входит в экосистему проектов Hadoop[1].

2020: Выход Apache Spark 3.0

14 мая 2020 года компания NVIDIA объявила о сотрудничестве с сообществом разработчиков ПО с открытым кодом, чтобы сообщить GPU-ускорение движку анализа и обработки больших массивов данных Apache Spark 3.0.

Со слов разработчика, с выходом Spark 3.0 специалисты по работы с данными и машинному обучению смогут применить GPU-ускорение к ETL-обработке (выборка, преобразование и загрузка), часто выполняемой с помощью операций базы данных SQL.

Apache Spark 3.0

Как отметили в NVIDIA, обучение ИИ-модели можно проводить на том же кластере Spark, не перенося процессы на отдельную инфраструктуру. Это позволяет проводить высокоскоростной анализ данных на всех этапах конвейера анализа данных, ускоряя десятки и тысячи терабайт данных - от озера данных до обучения моделей. Более того, нет необходимости изменять существующий код, используемый для приложений Spark, работающих в локальной среде и облаке.

«
«Анализ данных – это самая большая вычислительная задача, стоящая перед компаниями и исследователями. Нативное GPU-ускорение для всего конвейера Spark 3.0 — от ETL до обучения и инференса — обеспечивает производительность и масштаб, необходимые для объединения потенциала больших данных и силы ИИ»,

отметил Манувир Дас (Manuvir Das), руководитель Enterprise Computing в NVIDIA
»

Являясь стратегическим партнером NVIDIA в области ИИ, Adobe одной из первых получила доступ к Spark 3.0 на Databricks. Первая же серия тестов показала 7-кратный прирост производительности и 90% сокращение расходов, благодаря GPU-ускоренному анализу данных для разработки продуктов в Adobe Experience Cloud и поддержке возможностей, поддерживающих цифровые бизнесы.

Согласно заявлению разработчика, прирост производительности в Spark 3.0 повышает точность моделей, позволяя обучать их на более крупных наборах данных и чаще переобучать. Это дает возможность обрабатывать терабайты новых данных каждый день, что очень важно для специалистов, поддерживающих рекомендательные системы и анализирующих новые исследовательские данные. Кроме того, ускоренная обработка означает, что для получения результатов требуется меньше аппаратных ресурсов, а значит значительно сокращаются затраты.

NVIDIA и Databricks совместно оптимизируют Spark с помощью ПО RAPIDS для Databricks, обеспечивая GPU-ускорение для обработки данных и машинного обучения на Databricks в здравоохранении, финансах, рознице и многих других отраслях, подчеркнули в NVIDIA.

NVIDIA предоставляет RAPIDS для Apache Spark с открытым кодом, чтобы помочь специалистам увеличить производительность своих конвейеров. Ускоритель отменяет функции, ранее выполняемые на CPU, применяя GPU для следующих задач:

  • ускорение ETL-конвейеров в Spark за счет повышения производительности операций Spark SQL и DataFrame без необходимости в изменении кода;
  • ускорение подготовки данных и обучения моделей в той же инфраструктуре, без необходимости в отдельном кластере для машинного и глубокого обучения;
  • ускорение переноса данных между узлами в распределенном кластере Spark. Эти библиотеки используют открытый фреймворк Unified Communication X (UCX) Консорциума UCF и минимизируют латентность, перемещая данные напрямую в памяти GPU.

На май 2020 года предварительная версия Spark 3.0 уже доступна у Apache Software Foundation. В ближайшие месяцы будет открыт доступ к основной версии.

2016: Описание Apache Spark

В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с дисковым хранилищем, Apache Spark использует специализированные примитивы для рекурентной обработки в оперативной памяти, посредством чего получает преимущество в скорости работы для некоторых классов задач, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения.

Архитектура Apache Spark (2015)

По информации на апрель 2016 года проект предоставляет программные интерфейсы для языков Java, Scala, Python, R. Написан в основном на Scala. Состоит из ядра и нескольких расширений:

  • Spark SQL (позволяет выполнять SQL-запросы над данными),
  • Spark Streaming (надстройка для обработки потоковых данных),
  • Spark MLib (набор библиотек машинного обучения),
  • GraphX (предназначен для распределённой обработки графов).

Может работать в среде кластера Hadoop под управлением YARN и без компонентов ядра Hadoop, поддерживает несколько распределённых систем хранения — HDFS, OpenStack Swift, NoSQL-СУБД Cassandra, Amazon S3.

Примечания

См. также





Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Солар (ранее Ростелеком-Солар) (46)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (15)
  Форсайт (11)
  Axiom JDK (БеллСофт) ранее Bellsoft (10)
  Бипиум (Bpium) (10)
  Другие (391)

  Солар (ранее Ростелеком-Солар) (8)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (4)
  Консом групп, Konsom Group (КонсОМ СКС) (2)
  ЛАНИТ - Би Пи Эм (Lanit BPM) (2)
  IFellow (АйФэлл) (2)
  Другие (30)

  Солар (ранее Ростелеком-Солар) (10)
  Форсайт (3)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
  Cloud.ru (Облачные технологии) ранее SberCloud (2)
  КРИТ (KRIT) (2)
  Другие (13)

  Солар (ранее Ростелеком-Солар) (6)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  РЖД-Технологии (3)
  Robin (Робин) (3)
  Другие (23)

  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Солар (ранее Ростелеком-Солар) (3)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  Т1 Иннотех (ГК Иннотех) (1)
  Яндекс.Облако (Yandex Cloud) (1)
  Другие (10)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Солар (ранее Ростелеком-Солар) (2, 48)
  Microsoft (41, 47)
  Oracle (49, 26)
  Hyperledger (Open Ledger Project) (1, 23)
  IBM (33, 18)
  Другие (596, 306)

  Солар (ранее Ростелеком-Солар) (1, 8)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (1, 4)
  Microsoft (4, 3)
  Oracle (2, 3)
  SAP SE (2, 2)
  Другие (16, 19)

  Солар (ранее Ростелеком-Солар) (1, 11)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 3)
  Форсайт (1, 3)
  Сбербанк (1, 2)
  Cloud.ru (Облачные технологии) ранее SberCloud (1, 2)
  Другие (9, 9)

  Солар (ранее Ростелеком-Солар) (1, 6)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 6)
  Мобильные ТелеСистемы (МТС) (1, 4)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 4)
  Форсайт (1, 3)
  Другие (14, 24)

  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 4)
  Мобильные ТелеСистемы (МТС) (2, 3)
  Солар (ранее Ростелеком-Солар) (1, 3)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
  Т1 Консалтинг (Т1 Инновации) (1, 1)
  Другие (13, 13)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Solar appScreener (ранее Solar inCode) - 48 (48, 0)
  Hyperledger Fabric - 23 (23, 0)
  Windows Azure - 20 (20, 0)
  FIS Platform - 15 (15, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 12 (12, 0)
  Другие 313

  Solar appScreener (ранее Solar inCode) - 8 (8, 0)
  FIS Platform - 4 (4, 0)
  Siemens Xcelerator - 2 (2, 0)
  Парадокс: MES Builder - 2 (2, 0)
  Турбо X - 2 (2, 0)
  Другие 21

  Solar appScreener (ранее Solar inCode) - 11 (11, 0)
  BSS Digital2Go - 3 (3, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 3 (3, 0)
  Cloud ML Space - 2 (2, 0)
  Tarantool Data Grid - 1 (1, 0)
  Другие 7

  Solar appScreener (ранее Solar inCode) - 6 (6, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  МТС Exolve - 4 (4, 0)
  РЖД и Робин: Облачная фабрика программных роботов - 3 (3, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 3 (3, 0)
  Другие 12

  EXpress Защищенный корпоративный мессенджер - 4 (4, 0)
  Solar appScreener (ранее Solar inCode) - 3 (3, 0)
  МТС Exolve - 2 (2, 0)
  МТС: Ocean Облачная платформа - 1 (1, 0)
  Т1: Сфера Платформа производства ПО - 1 (1, 0)
  Другие 9