MTS AI: Cotype (Большая языковая модель, LLM)

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: МТС ИИ, MTS AI (Центр искусственного интеллекта МТС)
Дата последнего релиза: 2024/11/26
Технологии: Речевые технологии

Содержание

Основные статьи:

2024

Запуск Cotype Nano

Компания MTS AI выпустила открытую большую языковую модель (LLM) Cotype Nano для решения бизнес-задач, связанных с созданием и анализом текстов на русском языке. Об этом компания сообщила 26 ноября 2024 года. Модель можно запускать локально на персональных устройствах – мобильных телефонах, настольных компьютерах и ноутбуках со средней производительностью, что делает её доступной для большого круга пользователей.

Веса модели – параметры, которые используются ей для принятия решений, открыты для исследователей и разработчиков. Это позволяет им изучать, как модель работает, настраивать её под свои нужды и использовать в собственных проектах без необходимости строить всё с нуля.

Модель продемонстрировала хорошие результаты в своём классе на бенчмарке Ru Arena Hard. В рамках тестирования оценивается точность, качество и релевантность ответов на вопросы пользователей по сравнению с другими моделями.

Cotype Nano способна обрабатывать контекст до 32,000 токенов (около 45 страниц текста) за раз, что позволяет работать с большими объемами данных. Модель обучена для создания контента, точных и быстрых переводов между русским и английским языками, обработки и анализа текстовых данных для улучшения клиентского сервиса и может быть использована для разработки чат-ботов и виртуальных помощников. Кроме того, она обладает продвинутыми возможностями классификации данных – это необходимо для таких сценариев, как автоматический поиск и анализ информации в корпоративных базах знаний. 

Cotype Nano оптимизирована для работы на CPU и GPU, с дополнительной оптимизацией под процессоры Intel, что позволяет запустить её на ноутбуках и даже смартфонах и делает модель доступной для широкого круга разработчиков и компаний, у которых нет доступа к мощным вычислительным ресурсам.

«
MTS AI придерживается принципов открытости и прозрачности в разработке генеративного искусственного интеллекта. Мы запускаем открытую большую языковую моделей с лицензией на использование в коммерческих целях и разрабатываем новые сервисы для автоматического обучения нейросетей и создания кода, которые ускорят процесс разработки. Развитие открытых LLM-моделей в России позволит компаниям и начинающим разработчикам и исследователям создавать решения на основе нейросетей, не вкладывая значительные ресурсы в разработку и оборудование, – отметил директор по LLM-продуктам MTS AI Сергей Пономаренко.
»

Развертывание MTS AI Cotype Plus в Технологической песочнице АФТ

В Технологической песочнице АФТ развернута GPU-ориентированная инфраструктура для высокопроизводительных матричных и векторных операций в целях пилотирования решений с использованием технологий искусственного интеллекта. Об этом Ассоциация сообщила 12 сентября 2024 года. В частности, на данной инфраструктуре уже развернута большая языковая модель МТС AI Cotype Plus. Подробнее здесь.

Оптимизация для текстов на татарском языке

MTS AI разработал обновленную версию большой языковой модели Cotype Lite для работы с текстами на татарском языке. Об этом компания сообщила 10 сентября 2024 года.

LLM способна обрабатывать документы объемом до 8 тысяч токенов (примерно 5 листов A4), извлекать и суммаризировать данные за несколько секунд.

Cotype Light может использоваться в архивах, библиотеках, в государственных и частных организациях — везде, где есть потребность в обработке информации и анализе документов на татарском. Например, с помощью большой языковой модели можно ускорить обработку заявлений в государственные органы.

Cotype извлечет ключевую информацию, такую как тематика запроса, местоположение и личные данные заявителя, и передаст их в соответствующую базу данных. Как и другие модели семейства Cotype, эта версия может устанавливаться в контуре организации, что позволяет исключить утечки информации.

«
Создавая большую языковую модель на татарском, разработчики MTS AI преследовали несколько целей. Во-первых, мы хотели поддержать многообразие языков, существующих в России, помочь им развиваться и быть востребованными в цифровую эпоху. Во-вторых, этот проект показал, что мы умеем адаптировать наши модели под любые научные и бизнес-задачи, в том числе и такие нетривиальные как обработка информации на языках народов России, - сказал исполнительный директор MTS AI Дмитрий Марков.

»

Чтобы модель Cotype Light смогла понимать незнакомый язык, разработчики собрали датасет и перевели его с русского на татарский. После все данные и ответы модели проверили специалисты-тюркологи и носители языка. Обучение Cotype Light происходит на мощностях МТС Web Services.

По словам разработчиков, Cotype Light входит в число лучших LLM в своем классе: она содержит 8 млрд. параметров. При необходимости MTS AI может создать LLM на татарском с большим количеством параметров - до 70 млрд параметров, а также большим контекстным окном до 32 тысяч токенов, — чтобы модель умела выполнять такие задачи как перевод и генерация длинных текстов. Также компания MTS AI готова адаптировать модели семейства Cotype для других региональных языков России.

Возможность обработать длинный пользовательский контекст

MTS AI выпустил обновленную версию своей большой языковой модели для бизнеса Cotype PRO. Данная модель может обработать длинный пользовательский контекст - до 20 страниц, что позволяет выдавать персонализированные и точные ответы при низком потреблении вычислительных мощностей. Об этом компания сообщила 28 августа 2024 года.

Cotype — большая языковая модель, созданная MTS AI специально для работы с корпоративными данными. Она обучена на большом объеме деловой переписки, должностных инструкций, документации и прочих текстов, что обеспечивает высокую экспертизу LLM в этой области и позволяет использовать ИИ в бизнес-процессах. Cotype входит в топ-3 русскоязычных моделей, согласно бенчмарку MERA.

«
Увеличенный объем запоминания контекста без потери данных — функция Cotype Pro, которую используется в более чем 10 пилотных проектах корпоративного сектора и госструктур для создания системы сквозного поиска по внутренней документации и базам данных, генерации технических инструкций и корпоративных писем, SEO-оптимизации материалов на сайте и анализа и суммаризации результатов встреч — сказал Сергей Пономаренко, старший менеджер LLM-продуктов MTS AI.
»

Cotype PRO была создана с помощью уникального двухэтапного метода дообучения и собственных бенчмарков, разработанных специалистами MTS AI. Такой подход позволил достичь высокого качества работы большой языковой модели, которая работает всего на одной видеокарте NVIDIA A100, в отличие от конкурентных решений, которым необходимо 4 видеокарты.

Большое контекстное окно дает языковой модели Cotype PRO возможность за один раз обрабатывать значительный объем информации. То есть пользователь может загрузить договор или другой документ на 20 страниц. Благодаря чему, модель лучше понимает, о чем идет речь, и дает более точные ответы, что крайне важно, когда идет речь об анализе корпоративных документов и регламентов.



СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (45)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (15)
  Другие (196)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  SteadyControl (4)
  Naumen (Наумен консалтинг) (2)
  Neuro.net (Нейро) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  SteadyControl (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Naumen (Наумен консалтинг) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Robovoice (Робовойс) (3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (3)
  Другие (31)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (18, 47)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl (1, 23)
  SteadyControl HoReCa (1, 23)
  Другие (381, 217)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl (1, 4)
  SteadyControl HoReCa (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Naumen (Наумен консалтинг) (1, 3)
  SteadyControl (1, 3)
  SteadyControl HoReCa (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl (1, 7)
  SteadyControl HoReCa (1, 7)
  Другие (18, 30)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Сбербанк (3, 5)
  SteadyControl HoReCa (1, 5)
  SteadyControl (1, 5)
  СалютДевайсы (ранее SberDevices) (2, 4)
  Другие (25, 39)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТС Exolve Голосовой робот - 29 (5, 24)
  SteadyControl Система контроля и управления персоналом - 23 (23, 0)
  BSS Digital2Speech - 21 (21, 0)
  Voice2Med Система распознавания речи в медицине - 14 (14, 0)
  Naumen Erudite - 13 (13, 0)
  Другие 152

  BSS Digital2Speech - 5 (5, 0)
  SteadyControl Система контроля и управления персоналом - 4 (4, 0)
  Voice2Med Система распознавания речи в медицине - 4 (4, 0)
  МТС Exolve Голосовой робот - 2 (0, 2)
  Neuro.net Голосовой робот - 2 (2, 0)
  Другие 8

  МТС Exolve Голосовой робот - 12 (1, 11)
  BSS Digital2Speech - 6 (6, 0)
  Naumen Erudite - 3 (3, 0)
  VS Robotics: VS Робот-оператор - 3 (3, 0)
  SteadyControl Система контроля и управления персоналом - 3 (3, 0)
  Другие 0

  МТС Exolve Голосовой робот - 9 (0, 9)
  SteadyControl Система контроля и управления персоналом - 7 (7, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  BSS Digital2Speech - 6 (6, 0)
  SmartLogger II - 4 (4, 0)
  Другие 12

  SteadyControl Система контроля и управления персоналом - 5 (5, 0)
  BSS Digital2Speech - 4 (4, 0)
  EXpress Защищенный корпоративный мессенджер - 4 (4, 0)
  Сбер: GigaChat - 3 (3, 0)
  Robovoice Пользовательская no-code платформа для разработки ИИ-ботов - 3 (3, 0)
  Другие 28