AIRI: Метод повышения надежности генерации запросов для работы с данными

Продукт
Разработчики: Институт Искусственного Интеллекта (AIRI)
Дата премьеры системы: 2025/07/02
Технологии: Речевые технологии

Основные статьи:

2025: Представление метода повышения надежности генерации запросов для работы с данными

В России разработан метод повышения надежности генерации запросов для работы с данными. Об этом Институт Искусственного Интеллекта (AIRI) сообщил 2 июля 2025 года.

В ходе испытаний методика позволила выявлять до 90% ошибок при генерации SQL-запросов, значительно снижая риски некорректных результатов.Международный конгресс по anti-age и эстетической медицине — ENTERESTET 2026

Ученые из Института AIRI усовершенствовали работу языковых моделей для генерации SQL-запросов, создав систему, которая помогает точнее создавать запросы к базам данных c помощью больших языковых моделей, а также оценивать собственную уверенность в корректности результата.

Разработка напрямую связана с фундаментальной задачей машинного обучения — генерализацией, то есть способностью модели корректно работать с новыми, ранее не встречавшимися данными. Современные языковые модели, такие как ChatGPT или GigaChat, достигают высокой генерализации за счет внушительного объема данных и параметров, на которых они обучаются. Например, модели размером 175 миллиардов параметров обучаются на примерно 15 ТБ текста. Однако даже они сталкиваются с ограничениями генерализации, особенно в специализированных сферах, где критична точность.

В ходе исследования ученые тестировали модель на задаче генерации SQL-запросов для сотрудников больницы к их внутренней базе данных. Это необходимо врачам, чтобы, в числе прочего, оперативно отслеживать занятость отделений, контролировать процесс сдачи анализов, без необходимости ручного анализа внутренних баз данных.

Основная сложность заключалась в специфике формулировок запросов: многие из них касались диагнозов и заболеваний. Крупные языковые модели, несмотря на свою универсальность, часто теряют точность в узкоспециализированных темах, что приводит к ошибкам в генерации SQL. Специалисты обучили модель таким образом, что она выдавала 60–70% правильных генераций. Это означает, что примерно 30% генераций запросов содержали ошибки.

Чтобы нетехнические специалисты могли доверять такой модели, были разработаны 2 техники – внешний классификатор и оценка калиброванности. Внешний классификатор работает как автоматический фильтр, принимая решение о выдаче запроса пользователю на основе оценки уверенности модели. Для оценки уверенности моделей в своих решениях исследователи применили энтропийные методы, анализирующие распределение вероятностей выходных данных. Они не требуют значительных вычислительных ресурсов, что делает их удобными для интеграции в реальные системы. В задаче генерации SQL-запросов энтропийная оценка позволяет определять, насколько можно доверять сгенерированному запросу, снижая риск ошибок в критически важных процессах, таких как анализ медицинских данных или управление бизнес-аналитикой. Калиброванность оценки уверенности показывает, насколько уверенность модели соответствует ее реальному качеству при данном показателе уверенности. Благодаря методам калибровки и внешнему классификатору 90% ошибок из 30% некорректных генераций языковой модели были успешно выявлены.

В исследовании были протестированы несколько архитектур языковых моделей, включая архитектуры типа кодировщик-декодировщик, где входной текст сначала кодируется в промежуточное состояние, а затем декодируется в итоговый ответ. Именно такая архитектура показала лучшую калиброванность исходных энтропийных оценок уверенности.

«
Мы сделали вывод, что ИИ-модели часто ошибаются в SQL генерации, но делают это уверенно, а вот когда вопрос не имеет ответа – колеблются. Поэтому внешний классификатор в качестве фильтра надежнее определяет именно такие 'неотвечаемые' вопросы. Используя это знание о модели и разработанную методику, мы смогли выявлять 90% ошибок, что напрямую повышает итоговую достоверность системы, — сказала Елена Тутубалина, руководитель научной группы «Прикладное NLP» Института AIRI, старший научный сотрудник ИСП РАН.
»

«
Комбинация методов калибровки и использование внешних классификаторов радикально повышает надежность языковых ИИ для генерации кода под конкретные задачи. Это критически важно для областей, где цена ошибки высока, а использование ИИ-инструментов должно оставаться полностью подконтрольным специалисту, — отметил Олег Сомов, научный сотрудник группы «Прикладное NLP» Института AIRI.
»



СМ. ТАКЖЕ (1)


Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (48)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (40)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (29)
  SteadyControl (19)
  Naumen (Наумен консалтинг) (16)
  Другие (258)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Другие (28)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (5)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4)
  Проф ИТ (Prof IT) Ростов-на-Дону (3)
  Другие (39)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (8)
  Сбербанк (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
  ОБИТ (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Другие (30)

  Сбер Бизнес Софт (1)
  Сбербанк (1)
  ТелеМедХаб (1)
  Группа компаний ЦРТ (Центр речевых технологий) (1)
  Другие (0)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (18, 50)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (6, 41)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (13, 32)
  Сбербанк (24, 24)
  SteadyControl HoReCa (1, 24)
  Другие (501, 298)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  SteadyControl (1, 7)
  SteadyControl HoReCa (1, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 6)
  Другие (18, 29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Сбербанк (3, 5)
  SteadyControl (1, 5)
  SteadyControl HoReCa (1, 5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 5)
  Другие (29, 47)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 8)
  СалютДевайсы (ранее SberDevices) (2, 8)
  Сбербанк (2, 8)
  Яндекс (Yandex) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4, 4)
  Другие (25, 31)

  Сбербанк (2, 2)
  СалютДевайсы (ранее SberDevices) (2, 2)
  Группа компаний ЦРТ (Центр речевых технологий) (1, 1)
  ТелеМедХаб (1, 1)
  Другие (0, 0)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2023 год
2024 год
2025 год
Текущий год

  МТС Exolve Голосовой робот - 30 (6, 24)
  SteadyControl Система контроля и управления персоналом - 24 (24, 0)
  BSS Digital2Speech - 21 (21, 0)
  Сбер: GigaChat (ГигаЧат) - 20 (17, 3)
  EXpress Защищенный корпоративный мессенджер - 16 (16, 0)
  Другие 214

  МТС Exolve Голосовой робот - 9 (0, 9)
  SteadyControl Система контроля и управления персоналом - 7 (7, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  BSS Digital2Speech - 5 (5, 0)
  SmartLogger II - 4 (4, 0)
  Другие 11

  SteadyControl Система контроля и управления персоналом - 5 (5, 0)
  EXpress Защищенный корпоративный мессенджер - 5 (5, 0)
  BSS Digital2Speech - 4 (4, 0)
  Robovoice Пользовательская no-code платформа для разработки ИИ-ботов - 3 (3, 0)
  Napoleon IT отзывы - 3 (3, 0)
  Другие 36

  Сбер: GigaChat (ГигаЧат) - 8 (7, 1)
  МТС Exolve Виртуальная АТС - 6 (6, 0)
  YandexGPT - 4 (4, 0)
  VS Robotics: VS Робот-оператор - 3 (3, 0)
  EXpress Защищенный корпоративный мессенджер - 3 (3, 0)
  Другие 24

  Сбер: GigaChat (ГигаЧат) - 2 (1, 1)
  Другие -1