AIRI: Метод повышения надежности генерации запросов для работы с данными

Продукт

Разработчики:	Институт Искусственного Интеллекта (AIRI)
Дата премьеры системы:	2025/07/02
Технологии:	Речевые технологии

СМ. ТАКЖЕ (1)

Основные статьи:

2025: Представление метода повышения надежности генерации запросов для работы с данными

В России разработан метод повышения надежности генерации запросов для работы с данными. Об этом Институт Искусственного Интеллекта (AIRI) сообщил 2 июля 2025 года.

В ходе испытаний методика позволила выявлять до 90% ошибок при генерации SQL-запросов, значительно снижая риски некорректных результатов.Международный конгресс по anti-age и эстетической медицине — ENTERESTET 2026

Ученые из Института AIRI усовершенствовали работу языковых моделей для генерации SQL-запросов, создав систему, которая помогает точнее создавать запросы к базам данных c помощью больших языковых моделей, а также оценивать собственную уверенность в корректности результата.

Разработка напрямую связана с фундаментальной задачей машинного обучения — генерализацией, то есть способностью модели корректно работать с новыми, ранее не встречавшимися данными. Современные языковые модели, такие как ChatGPT или GigaChat, достигают высокой генерализации за счет внушительного объема данных и параметров, на которых они обучаются. Например, модели размером 175 миллиардов параметров обучаются на примерно 15 ТБ текста. Однако даже они сталкиваются с ограничениями генерализации, особенно в специализированных сферах, где критична точность.

В ходе исследования ученые тестировали модель на задаче генерации SQL-запросов для сотрудников больницы к их внутренней базе данных. Это необходимо врачам, чтобы, в числе прочего, оперативно отслеживать занятость отделений, контролировать процесс сдачи анализов, без необходимости ручного анализа внутренних баз данных.

Основная сложность заключалась в специфике формулировок запросов: многие из них касались диагнозов и заболеваний. Крупные языковые модели, несмотря на свою универсальность, часто теряют точность в узкоспециализированных темах, что приводит к ошибкам в генерации SQL. Специалисты обучили модель таким образом, что она выдавала 60–70% правильных генераций. Это означает, что примерно 30% генераций запросов содержали ошибки.

Чтобы нетехнические специалисты могли доверять такой модели, были разработаны 2 техники – внешний классификатор и оценка калиброванности. Внешний классификатор работает как автоматический фильтр, принимая решение о выдаче запроса пользователю на основе оценки уверенности модели. Для оценки уверенности моделей в своих решениях исследователи применили энтропийные методы, анализирующие распределение вероятностей выходных данных. Они не требуют значительных вычислительных ресурсов, что делает их удобными для интеграции в реальные системы. В задаче генерации SQL-запросов энтропийная оценка позволяет определять, насколько можно доверять сгенерированному запросу, снижая риск ошибок в критически важных процессах, таких как анализ медицинских данных или управление бизнес-аналитикой. Калиброванность оценки уверенности показывает, насколько уверенность модели соответствует ее реальному качеству при данном показателе уверенности. Благодаря методам калибровки и внешнему классификатору 90% ошибок из 30% некорректных генераций языковой модели были успешно выявлены.

В исследовании были протестированы несколько архитектур языковых моделей, включая архитектуры типа кодировщик-декодировщик, где входной текст сначала кодируется в промежуточное состояние, а затем декодируется в итоговый ответ. Именно такая архитектура показала лучшую калиброванность исходных энтропийных оценок уверенности.

Мы сделали вывод, что ИИ-модели часто ошибаются в SQL генерации, но делают это уверенно, а вот когда вопрос не имеет ответа – колеблются. Поэтому внешний классификатор в качестве фильтра надежнее определяет именно такие 'неотвечаемые' вопросы. Используя это знание о модели и разработанную методику, мы смогли выявлять 90% ошибок, что напрямую повышает итоговую достоверность системы, — сказала Елена Тутубалина, руководитель научной группы «Прикладное NLP» Института AIRI, старший научный сотрудник ИСП РАН.

Комбинация методов калибровки и использование внешних классификаторов радикально повышает надежность языковых ИИ для генерации кода под конкретные задачи. Это критически важно для областей, где цена ошибки высока, а использование ИИ-инструментов должно оставаться полностью подконтрольным специалисту, — отметил Олег Сомов, научный сотрудник группы «Прикладное NLP» Института AIRI.

Источник — «https://zdrav.expert/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82:AIRI:_%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BF%D0%BE%D0%B2%D1%8B%D1%88%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BD%D0%B0%D0%B4%D0%B5%D0%B6%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D0%B3%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8_%D0%B7%D0%B0%D0%BF%D1%80%D0%BE%D1%81%D0%BE%D0%B2_%D0%B4%D0%BB%D1%8F_%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%8B_%D1%81_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%BC%D0%B8»