Cloud ML Space

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: Cloud.ru (Облачные технологии) ранее SberCloud, Сбербанк
Дата премьеры системы: 2020/12/04
Дата последнего релиза: 2022/05/04
Технологии: Средства разработки приложений

Содержание

Основные статьи:

ML Space — это облачная платформа полного цикла разработки и реализации AI-сервисов для бизнеса любого размера. Она содержит все необходимые инструменты и ресурсы для создания, обучения и развёртывания моделей машинного обучения — от быстрого подключения к источникам данных до автоматического развёртывания обученных моделей на динамически масштабируемых высокопроизводительных мощностях SberCloud.

2022

Размещение сервиса Product Analyzer

20 июня 2022 года компания Napoleon IT сообщила о разработке и размещении на маркетплейсе готовых ML-моделей AI Services платформы ML Space сервиса Product Analyzer, позволяющего распознавать товары и цены в российских продуктовых магазинах. В течение первого месяца использования сервис доступен по модели freemium всем пользователям платформы. Подробнее здесь.

Включение в Единый реестр российского ПО

Платформа машинного обучения ML Space от SberCloud вошла в Единый реестр российского ПО. Об этом стало известно 4 мая 2022 года.

ML Space — это платформа для ML-разработки полного цикла, которая позволяет ускорить, оптимизировать и упростить процесс препроцессинга данных, обучения и развертывания моделей машинного обучения. Платформа ML Space экономит рабочее время ML-разработчиков на обучение моделей машинного обучения и помогает сократить сроки вывода ML-продукта на рынок: использование платформы ML Space экономит время специалистов по Data Science на 30%, а срок разработки и time-to-market модели сокращается на 50%, в среднем с трех до полутора месяцев.

Платформа ML Space существует как в публичной облачной версии, так и в виде частного облака ML Space Private. ML Space Private содержит абсолютно все плюсы публичной версии, при этом может быть развернута на собственной инфраструктуре клиента. По оценкам SberCloud, более 70% крупных компаний не могут использовать публичную инфраструктуру по причине наличия критичных данных, которые по стандартам информационной безопасности предприятия не могут передаваться за периметр компании.

Помимо этого, ML Space Private может быть развернута в гибридном режиме, то есть часть платформы может быть установлена на серверах клиента, а другая — реализовывать вычисления в облаке SberCloud. Во всех сценариях может быть построена информационная система, отвечающая любым требованиям информационной безопасности компании.

«
По нашим оценкам, около 90% российских компаний не используют единое решение для работы с технологиями машинного обучения, а на разных этапах разработки закрывают потребности разрозненными open source утилитами. ML Space же позволяет повысить ML-процессы в таких компаниях сразу до высшего уровня зрелости. Среди наших клиентов, планирующих использовать частное облако ML Space Private, есть компании нефтегазового сектора, телекоммуникационные и производственные компании, а также государственный сектор. Мы предоставляем готовый коробочный продукт для end-to-end ML-разработки, который обеспечивает полную конфиденциальность данных с надежной защитой от утечек и легко встраивается в ИБ-ландшафт компании,
сказал генеральный директор SberCloud Евгений Колбин.
»

Запись в реестре о наличии в нем платформы ML Space произведена на основании поручения Министерства цифрового развития, связи и массовых коммуникаций РФ[1].

2021

Доступность нейросети ruDALL-E

15 декабря 2021 года Сбер сообщил о том, что Нейросеть ruDALL-E, которая генерирует изображения по описанию на русском языке, стала доступна на платформе ML Space. Подробнее здесь.

Представление сервиса конфиденциальных вычислений

Облачная платформа SberCloud ML Space, предоставляющая доступ к инструментарию oneAPI, пополнится сервисом конфиденциальных вычислений, который будет работать на базе Intel Software Guard Extensions (Intel SGX). Об этом 11 ноября 2021 года рассказали исполнительный вице-президент Сбербанка, СТО Сбера, руководитель блока «Технологии» Давид Рафаловский и главный технический директор Intel Грег Лавандер.

Сервис позволит не только хранить и передавать данные в зашифрованном виде, но и обрабатывать их в защищенном анклаве, где конфиденциальность чувствительных данных может быть сохранена от любого неавторизованного программного обеспечения.

Intel SGX обеспечивает целостность и конфиденциальность чувствительных данных в системах, где даже привилегированные процессы должны рассматриваться как ненадёжные. Ни провайдер облачных услуг, никто-либо извне не сможет попасть в защищенную область и получить доступ к обрабатываемым там данным.

В мае 2021 года SberCloud объявил о расширении возможностей облачной платформы ML Space благодаря применению кросс-архитектурной модели программирования oneAPI от Intel. Она позволяет разработчикам эффективно использовать производительность и возможности различных архитектур без переписывания кода для каждой аппаратной платформы. Модель oneAPI поддерживает известные языки программирования (например, C, C++, Fortran и Python) и общие стандарты (такие, как MPI и OpenMP), обеспечивая функциональную совместимость и близкое соответствие с существующим кодом.

Использование модулей из оптимизированного набора инструментов Intel для oneAPI в SberCloud позволяет ускорить работу AI-приложений на CPU, не тратя месяцы на изучение новых инструментов.

«
Многие популярные модели, связанные, к примеру, с прогнозированием спроса, динамическим ценообразованием, моделями рекомендаций, прекрасно обучаются на CPU вместе с инструментарием oneAPI от Intel, который мы запустили в мае 2021 года на нашей первой технологической конференции SmartDev. Благодаря oneAPI можно ускорить разработку AI-приложений в разы за счет оптимизации железа и софта. Но иногда для обучения моделей требуются очень сенситивные данные, которые необходимо безопасно обрабатывать. Поэтому мы работаем над сервисом конфиденциальных вычислений на базе технологии Intel SGX,
сказал Давид Рафаловский, исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии».
»

Сервис станет доступен в облаке SberCloud в марте 2022 года.

Возможность загружать и запускать собственные Docker-образы

1 июня 2021 года компания SberCloud (входит в экосистему Сбера) сообщила о расширении возможностей ML Space – платформы для совместной ML-разработки полного цикла, работающей на базе суперкомпьютера «Кристофари».

ML Space

По информации компании, кроме использования предустановленных в ML Space библиотек и фреймворков, пользователи облачной платформы получили возможность загружать и запускать собственные Docker-образы в специальном хранилище Docker registry, которое также доступно для совместной работы. А удаленный доступ по ssh позволяет отлаживать необходимые процессы как с персонального компьютера, так и из терминала привычного ПО (Jupyter Notebook или JupyterLab). Функциональные возможности Docker registry при работе с пользовательскими Docker-образами и возможность ssh-доступа позволяют обучать на платформе любые модели.

Еще одним обновлением платформы стал модуль DataHub. Разработчикам и дата-сайентистам стали доступны предобученные модели, дата-сеты (специально подготовленные наборы данных) и контейнеры, хранящиеся в DataHub. Пользователям ML Space больше не нужно тратить время на поиск и скачивание моделей, дата-сетов, docker-контейнеров из внешних источников, проверять их EULA (пользовательское соглашение) и отсутствие в них вирусов. Если клиенту ML Space нужны дата-сеты, модели и контейнеры для решения AI-задач, то специалисты SberCloud сами найдут и разместят их в DataHub.

Так, например, модели GPT-3 на 760 млн и 1,3 млрд доступны в DataHub с заготовленными скриптами для дообучения и развертывания на SberCloud. А языковую модель GPT-3 (13 млрд параметров), которой еще нет в открытом доступе, можно развернуть в DataHub ML Space в несколько кликов.

Также в модуле доступна подборка специальных контейнеров NVIDIA NGC (NeMo, RAPIDS и др.), адаптированных для использования в ML Space и решения задач обработки естественного языка (NLP), компьютерного зрения (CV), работы с данными (ETL), развертывания ML-моделей в облаке и многих других кейсов. Контейнер Transfer Learning Toolkit будет доступен уже в июне 2021 в обновленной версии DataHub. В бета-версии DataHub весь контент – дата-сеты, модели, контейнеры на июнь 2021 года доступен бесплатно.

С появлением обновленной функциональности ML Space при разработке продуктов с использованием машинного обучения больше не требуются дополнительные DevOps инженеры и привлеченные администраторы вычислительной инфраструктуры, что оптимизирует разработку AI-продуктов.

Пользователям ML Space доступна совместная работа на всех этапах ML-разработки, гибкий выбор инфраструктуры: CPU, GPU и возможность запуска распределенного машинного обучения до 1000+ GPU Tesla v100 суперкомпьютера «Кристофари».

ML Space уже активно используется как экосистемой Сбера, так крупными коммерческими компаниями, стартапами, а также научными организациями.

Были представлены следующие клиентские кейсы компаний:

  • Aitarget Tech - обучение модели на ML Space для автоматизированного создания и масштабирования рекламных креативов;
  • EORA - решение задачи Kaggle по сопоставлению фотографий на платформе ML Space;
  • SberDevices – распределенное обучение в ML Space для моделей-трансформеров GPT-3;
  • GetTransfer – обучение модели для предсказания match-сделки между клиентом и водителем, с использованием библиотеки LightAutoML и платформы ML Space;
  • группа компаний ЦРТ - технологии и API для решения задач речевой аналитики в сложных акустических условиях.

Доступность наборов инструментов Intel oneAPI

20 мая 2021 года Сбер объявил о расширении возможностей SberCloud ML Space — облачной платформы полного цикла разработки и реализации AI-сервисов. Она предоставляет инструменты и ресурсы для создания, обучения и развёртывания моделей машинного обучения — от быстрого подключения к источникам данных до автоматического развёртывания моделей на мощностях SberCloud.

ML Space — облачный сервис, позволяющий организовать распределённое обучение с использованием масштабируемого семейства процессоров Intel Xeon со встроенными акселераторами ИИ. Его архитектура сформирована на базе собственного суперкомпьютера SberCloud — «Кристофари», — суммарная производительность которого составляет 6,7 петафлопса. Он находится на 40-м месте в топ-500 самых высокопроизводительных систем мира.

Расширения возможностей удалось добиться благодаря применению открытой, основанной на стандартах кросс-архитектурной модели программирования oneAPI, что позволяет разработчикам эффективно использовать производительность и возможности различных архитектур без исправления кода для каждой аппаратной платформы. Это даёт свободу выбора лучшего оборудования для конкретной задачи. В то же время, oneAPI поддерживает известные языки программирования (например, C, C++, Fortran и Python) и общие стандарты (такие как MPI и OpenMP), обеспечивая функциональную совместимость и близкое соответствие с существующим кодом.

«
Облачная платформа SberCloud ML Space создавалась, с одной стороны, для того, чтобы предоставить специалистам по работе с данными лучшие инструменты решения задач в области машинного обучения, а с другой — для того, чтобы упростить и демократизировать процесс разработки и использования продуктов на базе искусственного интеллекта. Intel oneAPI Toolkits идеально вписываются в идеологию ML Space. Теперь дата-сайентисты и ML-разработчики, работающие на производительной, гибкой и эффективной с точки зрения затрат процессорной архитектуре, смогут ускорить разработку и внедрение своих ИИ-продуктов, улучшить их характеристики, — рассказал Давид Рафаловский, СТО «Сбербанк Груп», исполнительный вице-президент, руководитель блока «Технологии» Сбера.
»

ML Space объединяет инструменты для работы с большими данными — Jupyter Notebook и Jupyter Lab, — а теперь и инструменты для повышения производительности — Intel oneAPI Toolkits. Она построена по модульной архитектуре, что позволяет пользователям самостоятельно добавлять новые возможности. В течение года с момента данного анонса любой желающий может зарегистрироваться и получить тестовый доступ к платформе SberCloud ML Space, инструментарию Intel oneAPI Toolkits и серверам на базе процессоров Intel.

Intel oneAPI Toolkits помогают разработчикам создавать, анализировать и оптимизировать высокопроизводительные кросс-архитектурные приложения для различных XPU: процессоров Intel, графических процессоров и FPGA.

Эти наборы инструментов включают в себя кросс-архитектурный язык программирования oneAPI Data Parallel C ++ (DPC ++) и более 40 программных продуктов: компиляторы, библиотеки и инструменты для переноса, анализа и отладки, которые упрощают разработку приложений для обработки данных.

Один из ключевых элементов облачной платформы ML Space, модуль Environments, получит следующие наборы инструментов Intel oneAPI:

  • Intel oneAPI Base Toolkit — основной набор инструментов и библиотек для разработки высокопроизводительных, кросс-архитектурных приложений;
  • Intel oneAPI AI Analytics Toolkit предоставляет специалистам по работе с данными, разработчикам искусственного интеллекта и исследователям знакомые и удобные инструменты для ускорения обработки и анализа данных на CPU и GPU архитектуры Intel;
  • Intel oneAPI HPC Toolkit позволяет создавать и оптимизировать высокопроизводительные приложения на основе Fortran, OpenMP и MPI, которые могут масштабироваться на новейших системах и кластерах на базе процессоров Intel. В сочетании с основным (Base) набором инструментов cодержит все необходимые средства для разработки высокопроизводительных приложений для решения научных или инженерных задач на системах с общей или распределённой памятью;
  • Intel Distribution of OpenVINO Toolkit помогает оптимизировать, настраивать и запускать комплексный инференс с помощью оптимизатора моделей глубокого обучения, а также средств выполнения и разработки.

2020: Запуск платформы ML Space

Сбер 4 декабря 2020 года сообщил, что совместно со SberCloud представили ML Space: платформу для работы с искусственным интеллектом.

Об этом рассказал Давид Рафаловский, СТО Сбербанк Груп, исполнительный вице-президент, руководитель блока «Технологии».

ML Space — облачный сервис, позволяющий организовать распределённое обучение на 1000+ GPU. Эту возможность обеспечивает собственный суперкомпьютер Сбера — «Кристофари». Платформу уже используют команды самой компании, среди которых — SberDevices и Группа компаний ЦРТ. Сервис станет доступен с 12 декабря 2020 года.

«
Внедрять машинное обучение в продукты и сервисы должно быть легко и удобно. Любому разработчику, дата-сайентисту, компании или организации. По нашим оценкам, в процессе работы над ИИ-решениями только 30% времени специалистов уходит на обучение моделей. Всё остальное — на подготовку к нему и другую рутину. Мы хотим, чтобы люди могли уделить непосредственно обучению моделей 99% своего внимания. ML Space и ʺКристофариʺ на порядок ускоряют создание и вывод на рынок готовых решений, использующих машинное обучение, а также делают технологии искусственного интеллекта значительно ближе к бизнесу. Мы верим, что наша платформа заложит основу для практического широкомасштабного использования AI в России, - Давид Рафаловский, ьСТО Сбербанк Груп, исполнительный вице-президент Сбербанка, руководитель блока «Технологии».
»

ML Space состоит из интегрированных модулей-сервисов, где каждый из них решает определённые задачи. Благодаря открытой технологии Сбера LAMA платформа ML Space позволяет автоматически создавать модели машинного обучения — в специальном модуле AutoML.

В модуле Environments запускается процесс обучения нейросетей и контролируется загрузка ресурсов (CPU, GPU, RAM). Data Catalog позволяет собирать и управлять данными и моделями машинного обучения в многопользовательском режиме для распределённых команд. Модуль AutoDeploy обеспечивает автоматическое, в несколько кликов, развёртывание готовых моделей на высокопроизводительные мощности SberCloud. Благодаря этому обученные ИИ-модели можно невероятно быстро внедрять в производственные и бизнес-процессы. Кроме того, пользователям платформы будет доступен сервис для разметки данных — TagMe.





Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Солар (ранее Ростелеком-Солар) (46)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (15)
  Форсайт (11)
  Axiom JDK (БеллСофт) ранее Bellsoft (10)
  Бипиум (Bpium) (10)
  Другие (391)

  Солар (ранее Ростелеком-Солар) (8)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (4)
  Консом групп, Konsom Group (КонсОМ СКС) (2)
  ЛАНИТ - Би Пи Эм (Lanit BPM) (2)
  IFellow (АйФэлл) (2)
  Другие (30)

  Солар (ранее Ростелеком-Солар) (10)
  Форсайт (3)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
  Cloud.ru (Облачные технологии) ранее SberCloud (2)
  КРИТ (KRIT) (2)
  Другие (13)

  Солар (ранее Ростелеком-Солар) (6)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  РЖД-Технологии (3)
  Robin (Робин) (3)
  Другие (23)

  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Солар (ранее Ростелеком-Солар) (3)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  Т1 Иннотех (ГК Иннотех) (1)
  Яндекс.Облако (Yandex Cloud) (1)
  Другие (10)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Солар (ранее Ростелеком-Солар) (2, 48)
  Microsoft (41, 47)
  Oracle (49, 26)
  Hyperledger (Open Ledger Project) (1, 23)
  IBM (33, 18)
  Другие (596, 306)

  Солар (ранее Ростелеком-Солар) (1, 8)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (1, 4)
  Microsoft (4, 3)
  Oracle (2, 3)
  SAP SE (2, 2)
  Другие (16, 19)

  Солар (ранее Ростелеком-Солар) (1, 11)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 3)
  Форсайт (1, 3)
  Сбербанк (1, 2)
  Cloud.ru (Облачные технологии) ранее SberCloud (1, 2)
  Другие (9, 9)

  Солар (ранее Ростелеком-Солар) (1, 6)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 6)
  Мобильные ТелеСистемы (МТС) (1, 4)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 4)
  Форсайт (1, 3)
  Другие (14, 24)

  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 4)
  Мобильные ТелеСистемы (МТС) (2, 3)
  Солар (ранее Ростелеком-Солар) (1, 3)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
  Т1 Консалтинг (Т1 Инновации) (1, 1)
  Другие (13, 13)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Solar appScreener (ранее Solar inCode) - 48 (48, 0)
  Hyperledger Fabric - 23 (23, 0)
  Windows Azure - 20 (20, 0)
  FIS Platform - 15 (15, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 12 (12, 0)
  Другие 313

  Solar appScreener (ранее Solar inCode) - 8 (8, 0)
  FIS Platform - 4 (4, 0)
  Siemens Xcelerator - 2 (2, 0)
  Парадокс: MES Builder - 2 (2, 0)
  Турбо X - 2 (2, 0)
  Другие 21

  Solar appScreener (ранее Solar inCode) - 11 (11, 0)
  BSS Digital2Go - 3 (3, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 3 (3, 0)
  Cloud ML Space - 2 (2, 0)
  Tarantool Data Grid - 1 (1, 0)
  Другие 7

  Solar appScreener (ранее Solar inCode) - 6 (6, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  МТС Exolve - 4 (4, 0)
  РЖД и Робин: Облачная фабрика программных роботов - 3 (3, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 3 (3, 0)
  Другие 12

  EXpress Защищенный корпоративный мессенджер - 4 (4, 0)
  Solar appScreener (ранее Solar inCode) - 3 (3, 0)
  МТС Exolve - 2 (2, 0)
  МТС: Ocean Облачная платформа - 1 (1, 0)
  Т1: Сфера Платформа производства ПО - 1 (1, 0)
  Другие 9