| Разработчики: | Институт Искусственного Интеллекта (AIRI) |
| Дата премьеры системы: | 2025/07/02 |
| Технологии: | Речевые технологии |
Основные статьи:
- Распознавание речи (технологии, рынок)
- Речевые технологии: на пути от распознавания к пониманию
- LLM (Большие языковые модели)
2025: Представление метода повышения надежности генерации запросов для работы с данными
В России разработан метод повышения надежности генерации запросов для работы с данными. Об этом Институт Искусственного Интеллекта (AIRI) сообщил 2 июля 2025 года.
В ходе испытаний методика позволила выявлять до 90% ошибок при генерации SQL-запросов, значительно снижая риски некорректных результатов.Международный конгресс по anti-age и эстетической медицине — ENTERESTET 2026
Ученые из Института AIRI усовершенствовали работу языковых моделей для генерации SQL-запросов, создав систему, которая помогает точнее создавать запросы к базам данных c помощью больших языковых моделей, а также оценивать собственную уверенность в корректности результата.
Разработка напрямую связана с фундаментальной задачей машинного обучения — генерализацией, то есть способностью модели корректно работать с новыми, ранее не встречавшимися данными. Современные языковые модели, такие как ChatGPT или GigaChat, достигают высокой генерализации за счет внушительного объема данных и параметров, на которых они обучаются. Например, модели размером 175 миллиардов параметров обучаются на примерно 15 ТБ текста. Однако даже они сталкиваются с ограничениями генерализации, особенно в специализированных сферах, где критична точность.
В ходе исследования ученые тестировали модель на задаче генерации SQL-запросов для сотрудников больницы к их внутренней базе данных. Это необходимо врачам, чтобы, в числе прочего, оперативно отслеживать занятость отделений, контролировать процесс сдачи анализов, без необходимости ручного анализа внутренних баз данных.
Основная сложность заключалась в специфике формулировок запросов: многие из них касались диагнозов и заболеваний. Крупные языковые модели, несмотря на свою универсальность, часто теряют точность в узкоспециализированных темах, что приводит к ошибкам в генерации SQL. Специалисты обучили модель таким образом, что она выдавала 60–70% правильных генераций. Это означает, что примерно 30% генераций запросов содержали ошибки.
Чтобы нетехнические специалисты могли доверять такой модели, были разработаны 2 техники – внешний классификатор и оценка калиброванности. Внешний классификатор работает как автоматический фильтр, принимая решение о выдаче запроса пользователю на основе оценки уверенности модели. Для оценки уверенности моделей в своих решениях исследователи применили энтропийные методы, анализирующие распределение вероятностей выходных данных. Они не требуют значительных вычислительных ресурсов, что делает их удобными для интеграции в реальные системы. В задаче генерации SQL-запросов энтропийная оценка позволяет определять, насколько можно доверять сгенерированному запросу, снижая риск ошибок в критически важных процессах, таких как анализ медицинских данных или управление бизнес-аналитикой. Калиброванность оценки уверенности показывает, насколько уверенность модели соответствует ее реальному качеству при данном показателе уверенности. Благодаря методам калибровки и внешнему классификатору 90% ошибок из 30% некорректных генераций языковой модели были успешно выявлены.
В исследовании были протестированы несколько архитектур языковых моделей, включая архитектуры типа кодировщик-декодировщик, где входной текст сначала кодируется в промежуточное состояние, а затем декодируется в итоговый ответ. Именно такая архитектура показала лучшую калиброванность исходных энтропийных оценок уверенности.
| | Мы сделали вывод, что ИИ-модели часто ошибаются в SQL генерации, но делают это уверенно, а вот когда вопрос не имеет ответа – колеблются. Поэтому внешний классификатор в качестве фильтра надежнее определяет именно такие 'неотвечаемые' вопросы. Используя это знание о модели и разработанную методику, мы смогли выявлять 90% ошибок, что напрямую повышает итоговую достоверность системы, — сказала Елена Тутубалина, руководитель научной группы «Прикладное NLP» Института AIRI, старший научный сотрудник ИСП РАН. | |
| | Комбинация методов калибровки и использование внешних классификаторов радикально повышает надежность языковых ИИ для генерации кода под конкретные задачи. Это критически важно для областей, где цена ошибки высока, а использование ИИ-инструментов должно оставаться полностью подконтрольным специалисту, — отметил Олег Сомов, научный сотрудник группы «Прикладное NLP» Института AIRI. | |







