МФТИ, AIRI и РАН: Метод обучения роботизированных систем определять оптимальный алгоритм действий

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: Московский физико-технический институт (МФТИ), Институт Искусственного Интеллекта (AIRI), Российская академия наук (РАН)
Дата премьеры системы: 2024/02/16
Технологии: Робототехника

Основная статья: Роботы (робототехника)

2024: Анонс метода обучения роботизированных систем определять оптимальный алгоритм действий

Ученые из Московского физико-технического института, Института искусственного интеллекта AIRI и Федерального исследовательского центра «Информатика и управление» РАН разработали метод управления роботизированной системой, которая выполняет свои действия, опираясь на текстовые инструкции и визуальную информацию. Работа опубликована в журнале IEEE Access. Об этом 16 февраля 2024 года сообщили представители МФТИ.

Роборука

Как сообщалось, в результате роботизированная система получила возможность ориентироваться в незнакомой обстановке и самостоятельно определять алгоритм действий, оптимальный для решения поставленной задачи. Ученые считают, что дальнейшее развитие методики позволит создавать роботов для автономного выполнения или сложных многоходовых операций без участия человека. По словам ученых, это нетривиальная задача, решить которую пока не удалось никому в мире. Все разработки в этой области пока находятся на уровне прототипа.

«
В качестве модели мы задействовали роборуку с шестью степенями свободы. Нашей целью было научить ее самостоятельно сортировать по цветам и собирать их в заданную область. Свои действия роборука должна была на основе текстовой инструкции и данные с видеокамер.

объяснил суть научной работы Алексей Староверов, один из авторов исследования, аспирант Центра когнитивного моделирования МФТИ
»

По его словам, принцип работы алгоритма обучения манипулятора напоминает модель GPT. Только в отличие от «интеллектуального чата», где пользователь, задав команду, получает сгенерированный текст, вместо выдает последовательность действий. При этом, как отметил ученый, для электронно-вычислительного устройства, которое управляет манипулятором, важно после каждого действия получать обратную связь с видеокамер, чтобы на основе полученной информации планировать свое следующее действие.

«
Новизна работы в том, что для обучения робота мы использовали готовые языковые модели — алгоритмы, которые помогают переводить естественную речь в код, понятный системе управления. Она представляют собой нейронные сети, которые предобучены на больших объемах текстовых данных. В нашем случае была применена мультимодальная модель RozumForme. В отличие от других, она, может генерировать ответ и на текстовые запросы, и на те, которые сделаны в виде изображений.

рассказал Алексей Ковалев, соавтор работы младший научный сотрудник ФИЦ «Информатика и управление» РАН
»

Он пояснил, что в ходе работы была проведена тонкая настройка языковой модели. Ученые дообучили нейронную сеть, чтобы она могла «понимать» цвета кубиков, расстояния до них и другие параметры окружающей действительности. Настройка производилась в виртуальной среде, а потом дообученная языковая модель применялась для управления манипулятором в реальном окружении. Пошаговая адаптация позволила отрегулировать языковую модель, чтобы она, получая обратную связь с видеокамер, могла на основе усвоенных алгоритмов самостоятельно планировать дальнейшие действия и решать поставленные перед ней задачи.

«
Робототехника изначально подразумевает мультимодальный подход к обработке информации. То есть машинному интеллекту необходимо учитывать и синхронизировать, например, кадры с видеокамер, с данными от лидаров (приборов для определения расстояний). Это обычно называется комплексированием информации. Такие задачи решаются разными методами. Однако, применение для этих целей языковых моделей продемонстрировало перспективность метода.

прокомментировал значение исследования Александр Панов, руководитель группы, ведущий научный сотрудник Института искусственного интеллекта AIRI и ФИЦ «Информатика и управление»
»

Как рассказали ученые, дальнейшей целью работы будет задача научить модель запоминать более длинные последовательности действий. Это в перспективе поможет роботам выполнять, которые требуют нестандартного для робототехнической системы подхода и оценки ситуации. Например, мыть посуду, различая предметы и действуя осторожно, или наводить порядок в квартире, различая разные комнаты и предметы и разделяя их по назначению.



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Promobot (Промобот) (31)
  Яндекс (Yandex) (14)
  Cognitive Pilot (Когнитив Роботикс) (14)
  Nvidia (Нвидиа) (11)
  Сбербанк (10)
  Другие (502)

  ABB Group (7)
  Promobot (Промобот) (4)
  Ростелеком (3)
  АББ Россия (ABB) (3)
  NLogic (2)
  Другие (59)

  Mains Lab (Мэйнс Лаборатория) (2)
  Яндекс (Yandex) (2)
  Московский центр инновационных технологий в здравоохранении (2)
  НТР, НТР Томск (NTR Lab) (1)
  АББ Россия (ABB) (1)
  Другие (45)

  Департамент информационных технологий Москвы (ДИТ) (3)
  Fora Robotics (Фора Роботикс) (2)
  Яндекс (Yandex) (2)
  Инфосистемы Джет (2)
  Яндекс.Облако (Yandex Cloud) (2)
  Другие (46)

  Яндекс (Yandex) (2)
  Геоскан (Geoscan) (2)
  Наносемантика (Nanosemantics Lab) (2)
  Сбер Бизнес Софт (2)
  Синимекс (Cinimex) (2)
  Другие (47)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Promobot (Промобот) (9, 32)
  ABB Group (8, 23)
  Cognitive Pilot (Когнитив Роботикс) (3, 21)
  Cognitive Technologies (Когнитивные технологии) (1, 21)
  Яндекс (Yandex) (2, 11)
  Другие (573, 143)

  ABB Group (2, 11)
  Promobot (Промобот) (2, 4)
  Ronavi Robotics, Ронави Роботикс (ранее Ронави логистические системы) (1, 2)
  Cognitive Technologies (Когнитивные технологии) (1, 2)
  Cognitive Pilot (Когнитив Роботикс) (1, 2)
  Другие (10, 11)

  Бирюч-НТ Инновационный Центр (2, 1)
  Эфко ГК (2, 1)
  Транспорт будущего (2, 1)
  Rozum Robotics (Розум Роботикс) (1, 1)
  VizorLabs (Визорлабс) (1, 1)
  Другие (13, 13)

  Fora Robotics (Фора Роботикс) (1, 2)
  Роботех (Robotech) (1, 1)
  Яндекс.Маркет (1, 1)
  3D Bioprinting Solutions (3Д Биопринтинг Солюшенс) (1, 1)
  Dobot (Shenzhen Yuejiang Technology) (1, 1)
  Другие (5, 5)

  Яндекс (Yandex) (1, 2)
  Pudu Robotics (Pudu Technology) (1, 2)
  Intuitive Surgical (1, 1)
  Геоскан (Geoscan) (1, 1)
  КиберСклад (1, 1)
  Другие (0, 0)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Promobot - 28 (26, 2)
  Cognitive Agro Pilot Система автоматического вождения - 21 (21, 0)
  ABB IRB Промышленные роботы - 19 (19, 0)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 15 (0, 15)
  Da Vinci (робот-хирург) - 11 (11, 0)
  Другие 103

  ABB IRB Промышленные роботы - 8 (8, 0)
  Promobot - 5 (4, 1)
  YuMi (Мобильный коллаборативный робот) - 4 (4, 0)
  Cognitive Agro Pilot Система автоматического вождения - 2 (2, 0)
  Ronavi Robotics: H-серия Роботы для обслуживания складов - 2 (2, 0)
  Другие 8

  Gaskar Group Hive Автономные дронопорты - 1 (1, 0)
  NTR Robotics (БПЛА для закрытых пространств) - 1 (1, 0)
  Astabot Робот-палетный перевозчик - 1 (1, 0)
  Робот-врач Promobot - 1 (1, 0)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 1 (0, 1)
  Другие 7

  For-1 Антропоморфный робот - 2 (2, 0)
  МИСиС и 3D Bioprinting Solutions: 3D-биопринтер в виде роборуки для применения в операционной in situ - 1 (1, 0)
  Aripix A1 Робот-манипулятор - 1 (1, 0)
  Robotech: RP-серия Роботы-паллетайзеры - 1 (1, 0)
  Яндекс: Складские роботы - 1 (1, 0)
  Другие 1

  Яндекс.Ровер - 2 (2, 0)
  Pudu CC1 Робот-уборщик - 2 (2, 0)
  Da Vinci (робот-хирург) - 1 (1, 0)
  Геоскан БАС (Беспилотные авиационные системы самолетного типа) - 1 (1, 0)
  Другие 0