AI Talent Hub: LLAMATOR Фреймворк для тестирования чат-ботов на уязвимости

Продукт
Разработчики: ИТМО (научно-образовательная корпорация), Napoleon IT (Наполеон Айти)
Дата премьеры системы: 2025/02/04
Технологии: TMS - Test Management System,  Речевые технологии

Основные статьи:

2025: Представление фреймворка для тестирования чат-ботов на уязвимости

Студенты ИТМО разработали фреймворк для тестирования чат-ботов на уязвимости с точностью 89%.

Фреймворк LLAMATOR, разработанный в рамках лаборатории AI Security Lab, предупреждает выдачу противоречивой информации, чувствительных данных иПрофессиональные дисплеи для медучреждений: как цифровые технологии улучшают качество обслуживания пациентов и работу медперсонала 2.3 т недопустимого контента системами на основе больших языковых моделей, в частности коммерческими чат-ботами. Это позволяет минимизировать юридические и репутационные риски компаний, которые используют чат-боты для взаимодействия с клиентами и сотрудниками. Об этом Napoleon IT (Наполеон Айти) сообщил 4 февраля 2025 года.

В отличие от других решений на рынке, LLAMATOR не просто проверяет систему на устойчивость к внешним атакам единичными запросами, а ведет с ней полноценные автоматизированные диалоги, подбирая и улучшая атакующую стратегию на основе ответов системы. Фреймворк умеет тестировать модели как на английском, так и на русском языке и поддерживает широкий спектр тестов — от простых промпт-инъекций до глубокой проверки на галлюцинации и некорректные генерации.

«
Одна из главных сложностей заключалась в создании модели, способной

реалистично имитировать человеческое взаимодействие. Мы провели множество экспериментов с подбором атакующей модели и ее системного промпта — нам удалось добиться 89%-ой точности выявления уязвимостей с помощью подхода LLM-as-a-Judge, — отметил Тимур Низамов, один из разработчиков решения LLAMATOR.

»

Фреймворк поставляется по freemium-модели: его исходный код открыт, но команда разработчиков может провести комплексный аудит безопасности чат-ботов и AI-систем по запросу компании. LLAMATOR интегрируется с различными платформами, включая Web, REST API, Telegram, WhatsApp и другие.

В ближайшее время планируется масштабировать решение для тестирования мультиагентных AI-систем и систематической коммерческой эксплуатации. Уже на февраль 2025 года ведутся переговоры о технологическом и методологическом сотрудничестве с потенциальными клиентами и крупными AI-вендорами.



Подрядчики-лидеры по количеству проектов

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (19)
  Naumen (Наумен консалтинг) (15)
  Другие (214)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (5)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Авантелеком (3)
  Другие (38)

  Voice Systems Robotics (VSR, VS Robotics) (2)
  Napoleon IT (Наполеон Айти) (1)
  SteadyControl (1)
  Группа компаний ЦРТ (Центр речевых технологий) (1)
  Наносемантика (Nanosemantics Lab) (1)
  Другие (3)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (18, 48)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl (1, 24)
  SteadyControl HoReCa (1, 24)
  Другие (407, 235)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Другие (18, 30)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Сбербанк (3, 5)
  SteadyControl HoReCa (1, 5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 5)
  SteadyControl (1, 5)
  Другие (28, 45)

  Voice Systems Robotics (VSR, VS Robotics) (1, 2)
  Сбербанк (1, 1)
  SteadyControl (1, 1)
  Наносемантика (Nanosemantics Lab) (1, 1)
  СалютДевайсы (ранее SberDevices) (1, 1)
  Другие (5, 5)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2022 год
2023 год
2024 год
Текущий год

  МТС Exolve Голосовой робот - 29 (5, 24)
  SteadyControl Система контроля и управления персоналом - 24 (24, 0)
  BSS Digital2Speech - 21 (21, 0)
  Voice2Med Система распознавания речи в медицине - 14 (14, 0)
  EXpress Защищенный корпоративный мессенджер - 13 (13, 0)
  Другие 170

  МТС Exolve Голосовой робот - 12 (1, 11)
  BSS Digital2Speech - 6 (6, 0)
  Naumen Erudite - 3 (3, 0)
  VS Robotics: VS Робот-оператор - 3 (3, 0)
  SteadyControl Система контроля и управления персоналом - 3 (3, 0)
  Другие -1

  МТС Exolve Голосовой робот - 9 (0, 9)
  SteadyControl Система контроля и управления персоналом - 7 (7, 0)
  BSS Digital2Speech - 6 (6, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  SmartLogger II - 4 (4, 0)
  Другие 12

  SteadyControl Система контроля и управления персоналом - 5 (5, 0)
  EXpress Защищенный корпоративный мессенджер - 5 (5, 0)
  BSS Digital2Speech - 4 (4, 0)
  BSS: Виртуальный голосовой ассистент - 3 (3, 0)
  YandexGPT - 3 (3, 0)
  Другие 34

  VS Robotics: VS Робот-оператор - 2 (2, 0)
  ЦРТ: Voice2X Платформа голосового ввода для крупного бизнеса - 1 (1, 0)
  Сбер: GigaChat - 1 (1, 0)
  Napoleon IT отзывы - 1 (1, 0)
  SteadyControl Система контроля и управления персоналом - 1 (1, 0)
  Другие 2

Подрядчики-лидеры по количеству проектов

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Тест АйТи (Test IT) (6)
  Performance Lab (Перфоманс Лаб) (1)
  Positive Technologies (Позитив Текнолоджиз) (1)
  Системный софт (Сиссофт, SysSoft) (1)
  1С-ИжТиСи (1)
  Другие (2)

  Тест АйТи (Test IT) (3)
  Performance Lab (Перфоманс Лаб) (1)
  Другие (0)

  Тест АйТи (Test IT) (1)
  Другие (1)

  Positive Technologies (Позитив Текнолоджиз) (1)
  1С-ИжТиСи (1)
  Другие (1)

Данные не найдены

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Тест АйТи (Test IT) (2, 6)
  Positive Technologies (Позитив Текнолоджиз) (5, 1)
  Performance Lab (Перфоманс Лаб) (2, 1)
  Мобильные ТелеСистемы (МТС) (2, 1)
  1С-ИжТиСи (1, 1)
  Другие (47, 2)

  Тест АйТи (Test IT) (1, 3)
  Performance Lab (Перфоманс Лаб) (1, 1)
  Другие (0, 0)

  Omega (Омега-Софт), ранее Omega-R (1, 1)
  Тест АйТи (Test IT) (1, 1)
  Другие (0, 0)

  1С-ИжТиСи (1, 1)
  Мобильные ТелеСистемы (МТС) (1, 1)
  Positive Technologies (Позитив Текнолоджиз) (1, 1)
  Другие (0, 0)

Данные не найдены

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Test IT TMS (Test Management System) - 6 (6, 0)
  1С:Автоматическое тестирование конфигураций - 1 (1, 0)
  Gurock Software TestRail - 1 (1, 0)
  OmegaTester - 1 (1, 0)
  PT BlackBox - 1 (1, 0)
  Другие 2

  Test IT TMS (Test Management System) - 3 (3, 0)
  Другие 0

  Test IT TMS (Test Management System) - 1 (1, 0)
  Другие 0

  МТС: Ocean Облачная платформа - 1 (1, 0)
  PT BlackBox - 1 (1, 0)
  Другие 0
Данные не найдены