SciRus-tiny

Продукт
Разработчики: Московский Государственный Университет (МГУ)
Дата премьеры системы: декабрь 2023 г
Отрасли: Образование и наука

2023: Создание нейросети

22 декабря 2023 года российские исследователи из Института искусственного интеллекта Московского государственного университета им. М. В. Ломоносова сообщили о разработке нейросети SciRus-tiny, предназначенной для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке. Система подходит для решения широкого спектра прикладных задач — от поиска и классификации до извлечения научных терминов.

В проекте принял участие портал eLibrary. Нейросеть, представленная в открытом доступе, ляжет в основу поисково-рекомендательной системы для ученых, тестирование которой начнется в 2024 году. Отмечается, что обученная модель показывает высокие значения метрик, имея при этом небольшое количество параметров. Благодаря этому снижаются требования к вычислительным ресурсам. Таким образом, SciRus-tiny может эффективно выполнять задачи при высоких нагрузках.

Модель SciRus-tiny обучена на массиве из 1,5 млрд токенов научных текстов на русском и английском языках. Это модель архитектуры RoBERTa с 29 млн параметров и размерностью эмбеддинга 312. Размер словаря модели составляет 50 265 токенов, а максимальная длина контекста — 2 тыс. токенов. SciRus–tiny — первое решение в семействе моделей для получения семантических эмбеддингов научных текстов на разных языках.

В рамках проекта участники также опубликовали в открытом доступе бенчмарк ruSciBench для оценки эмбеддингов научных текстов. Тест состоит из 14 задач, которые выполняются на параллельных аннотациях (почти 400 тыс.) на русском и английском языках.

«
Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи. К сожалению, в области эмбеддингов научных текстов выбор не такой широкий, особенно для русского языка. Благодаря данным, которые предоставил нам портал eLibrary, мы смогли сделать следующий шаг и подготовили бенчмарк ruSciBench, который содержит гораздо большее количество данных по большему числу тематик, — говорят исследователи.[1]
»


Примечания