Разработчики: | Московский Государственный Университет (МГУ) |
Дата премьеры системы: | декабрь 2023 г |
Отрасли: | Образование и наука |
2023: Создание нейросети
22 декабря 2023 года российские исследователи из Института искусственного интеллекта Московского государственного университета им. М. В. Ломоносова сообщили о разработке нейросети SciRus-tiny, предназначенной для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке. Система подходит для решения широкого спектра прикладных задач — от поиска и классификации до извлечения научных терминов.
В проекте принял участие портал eLibrary. Нейросеть, представленная в открытом доступе, ляжет в основу поисково-рекомендательной системы для ученых, тестирование которой начнется в 2024 году. Отмечается, что обученная модель показывает высокие значения метрик, имея при этом небольшое количество параметров. Благодаря этому снижаются требования к вычислительным ресурсам. Таким образом, SciRus-tiny может эффективно выполнять задачи при высоких нагрузках.
Модель SciRus-tiny обучена на массиве из 1,5 млрд токенов научных текстов на русском и английском языках. Это модель архитектуры RoBERTa с 29 млн параметров и размерностью эмбеддинга 312. Размер словаря модели составляет 50 265 токенов, а максимальная длина контекста — 2 тыс. токенов. SciRus–tiny — первое решение в семействе моделей для получения семантических эмбеддингов научных текстов на разных языках.
В рамках проекта участники также опубликовали в открытом доступе бенчмарк ruSciBench для оценки эмбеддингов научных текстов. Тест состоит из 14 задач, которые выполняются на параллельных аннотациях (почти 400 тыс.) на русском и английском языках.
Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи. К сожалению, в области эмбеддингов научных текстов выбор не такой широкий, особенно для русского языка. Благодаря данным, которые предоставил нам портал eLibrary, мы смогли сделать следующий шаг и подготовили бенчмарк ruSciBench, который содержит гораздо большее количество данных по большему числу тематик, — говорят исследователи.[1] |