Яндекс.Переводчик

Продукт
Разработчики: Яндекс (Yandex)
Дата последнего релиза: 2024/06/07
Отрасли: Интернет-сервисы
Технологии: Речевые технологии

Содержание

2024: Интеграция с YandexGPT

7 июня 2024 года компания Яндекс представила обновленную версию машинного перевода, обученную с помощью YandexGPT. Большая языковая модель YandexGPT подготовила эталонные примеры текстов, на которых обучили нейросеть в Яндекс Переводчике. Это позволило сервису точнее понимать контекст, распознавать фразеологизмы и ориентироваться в профессиональной лексике.

Как сообщалось, переводчик стал лучше справляться с длинными и сложными текстами. Благодаря дообучению он определяет взаимосвязи внутри предложений и между ними. Кроме того, выросло качество перевода статей узконаправленной тематики. Например, сервис теперь поймёт по контексту, что речь идёт о языке программирования или фондовом индексе, и оставит их названия без перевода.

Пример улучшения перевода

Яндекс использует технологию машинного перевода на основе нейросетей с 2018 года. Нейросеть в Переводчике обучалась только на парах текстов — оригиналах и их переводе на другой язык. Так она училась видеть взаимосвязи между ними и подражать им. Нейросеть, работающая в сервисе, легковесная: это позволяет ей справляться с большим количеством пользовательских запросов в реальном времени.

Пример улучшения перевода

Большая языковая модель YandexGPT способна генерировать сложные, лексически и стилистически разнообразные тексты, в том числе со специфической терминологией. Поэтому компания использовала её потенциал для создания эталонных примеров. Так нейросеть в Переводчике не утратила скорость своей работы, но стала умнее.

Пример улучшения перевода

Для генерации эталонных обучающих примеров Яндекс разработал специализированную модель семейства YandexGPT, адаптировав её под задачи перевода. Сначала модель во время этапа pretraining проанализировала множество текстов на английском и русском языках и изучила правила лексики, морфологии и синтаксиса. Следующим этапом шла тонкая настройка языковой модели (supervised finetuning) под задачи перевода. Затем на этапе reinforcement learning AI-тренеры оценивали качество перевода YandexGPT и ранжировали её ответы от лучших к худшим.

Работу дообученной нейросети в Переводчике оценивали методом Side by Side (SbS). Асессоры, владеющие русским и английским языком, сравнивали пары длинных и сложных текстов, переведённых с помощью двух версий технологии, и выбирали лучший вариант. В 57% случаев данная версия справлялась лучше.

Пример улучшения перевода

Обновлённая технология используется для перевода текстов с английского на русский язык в Яндекс Переводчике, Поиске, а также в переводе видео в Браузере.

2021: «Яндекс» показал технологию закадрового перевода видео с английского языка

В середине июля 2021 года «Яндекс» представил технологию закадрового перевода видеороликов на иностранных языках, которая, как утверждают в компании, не имеет аналогов в мире. В системе объединены машинный перевод, технологии биометрии, распознавания и синтеза речи.

Биометрические решения позволяют определить пол говорящего и подобрать соответствующий голос. А чтобы закадровый голос совпадал с картинкой, переводчик делает паузы, где-то замедляет, а где-то ускоряет речь. Дело в том, что в оригинале и переводе реплики часто не совпадают по длине, поэтому за темпом речи следит специальный алгоритм, пояснили в «Яндексе».

«Яндекс» продемонстрировал технологию закадрового перевода видео с английского языка

С помощью технологии можно смотреть видеозаписи с закадровым переводом. К 16 июля 2021 года она работает только с роликами на английском языке. Разработчики уже опробовали ее на видеозаписях на разные темы. Это видео об изменениях климата, о машинном обучении, истории Плутона и других вещах. Посмотреть видео с закадровым переводом пользователи десктопного «Яндекс.Браузера» могут здесь.

«
В интернете очень много полезного контента, который недоступен людям из-за языкового барьера, — говорит руководитель направления обработки естественного языка в «Яндексе» Дэвид Талбот. — И мы близки к тому, чтобы окончательно стереть все границы. «Яндекс.Браузер» давно умеет переводить тексты, в этом году стал переводить изображения, перевод видео — следующий этап. Это большая сложная задача, которую никто в мире еще не решил.
»

Как сообщили в «Яндексе» 16 июля 2021 года, в скором времени пользователи смогут сами выбирать, какие ролики переводить с помощью новой технологии. Отмечается, что над созданием системы работало несколько команд разработчиков.

Ранее в 2021 году в «Яндекс.Браузер» добавили встроенный перевод картинок. Функция работает прямо на страницах сайтов — браузер сам находит картинки с иностранным текстом, а потом позволяет перевести их одним кликом.

2020

Добавление якутского языка

27 апреля 2020 года стало известно, что компания «Яндекс» включила якутский язык в сервис «Яндекс.Переводчик».

Добавление якутского языка

Теперь любое якутское слово или фразу можно автоматически перевести на один из 98 языков мира – или, наоборот, узнать, как то или иное выражение или слово будет звучать по-якутски.

«
Считаю, это очень важный момент в развитии и сохранении языка народа саха в киберпространстве – в первую очередь, это необходимо для наших будущих поколений,
отметил Глава республики Айсен Николаев в своем аккаунте в Инстаграме
»

Инициатор поддержки якутского языка в машинных переводчиках – Алексей Иванов, научный сотрудник Национальной библиотеки РС(Я).

«
Идея создать машинный перевод для якутского языка возникла еще в 2017 году. Последние полтора года на общественных началах ведется сбор двуязычных русско-якутских текстов, подготовка эталонных якутско-русских переводов для оценки качества перевода,
отмечает Алексей Иванов
»

По его мнению, машинные переводчики - один из важных инструментов по сохранению языков.

«
Качество машинного перевода для якутского языка уже приближается к человеческому, но еще требует совершенствования. По моему мнению, компания «Яндекс» является единственной компанией в мире, которая ведет работу по сохранению языков народов России с помощью машинного перевода,
рассказывает Алексей Иванов
»

В дальнейших планах команды проекта – цифровизация культурного наследия коренных народов Арктики.

Контент электронной библиотеки РС(Я) на апрель 2020 года составляет более 34 000 оцифрованных документов, читателям выдают 8-9 тысяч электронных книг в день.

Потенциал Национальной библиотеки РС(Я) позволяет создать Центр цифровизации языкового и культурного наследия народов Якутии на основе оцифрованных текстовых, аудиовизуальных, архивных, музейных артефактов, собранных в единую цифровую платформу.

Доступность в AppGallery

8 апреля 2020 года стало известно о полной интеграции всех мобильных приложений компании Яндекс в магазин приложений AppGallery. Подробнее здесь.

2019: Запуск функции перевода речи в реальном времени

25 августа 2019 года в сервисе «Яндекс.Переводчик» появилась функция перевода речи в режиме реального времени. В тех случаях, когда нужно что-то обсудить с иностранцем, сделать заказ в ресторане, узнать дорогу у прохожих или объясниться с таксистом за рубежом, приложение выступит в роли переводчика: будет слушать реплики, переводить их и озвучивать собеседнику.

«Яндекс.Переводчик» теперь переводит речь в реальном времени

Чтобы начать разговор, нужно выбрать язык общения для себя и собеседника — и можно говорить, по очереди нажимая на флаги языков. Приложение мгновенно переведет реплики, отобразит их на экране и озвучит на выбранном языке.

Если собеседник что-то не расслышит, ему всегда можно показать текст или повторно озвучить реплику одним касанием. Если «Яндекс.Переводчик» не совсем точно переведет фразу, текст можно поправить. Весь диалог сохраняется в истории для дальнейшего просмотра.

В приложении для Android в режиме диалога доступны коло 50 европейских и азиатских языков, а в iOS-версии — больше 20. Среди них — русский, английский, турецкий, французский, итальянский, испанский, немецкий, китайский, японский и другие.

Приложение распознает и синтезирует речь с помощью технологии SpeechKit и возможностей смартфонов. Для перевода реплик используются нейронные сети, обученные на больших корпусах текстов.

Помимо нового режима диалога, «Яндекс.Переводчик» снабжён функцией перевода фразы на фотографиях, поддерживает голосовой ввод и офлайн-перевод. Приложение поддерживает 95 языков. В нем есть разнообразные подборки — например, с идиомами и фразами для резюме. С его помощью удобно учить слова и составлять свои подборки.

Обновлённое приложение доступно для скачивания в Аpp Store и Google Play. Если Яндекс.Переводчик» уже установлен, режим диалога появится сразу после обновления.[1]

Примечания



СМ. ТАКЖЕ (5)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (45)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (15)
  Другие (196)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  SteadyControl (4)
  Voice Systems Robotics (VSR, VS Robotics) (2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3)
  Robovoice (Робовойс) (3)
  Другие (31)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (18, 47)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl HoReCa (1, 23)
  SteadyControl (1, 23)
  Другие (381, 217)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl HoReCa (1, 4)
  SteadyControl (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Другие (18, 30)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Сбербанк (3, 5)
  SteadyControl (1, 5)
  SteadyControl HoReCa (1, 5)
  Ростелеком (2, 4)
  Другие (25, 39)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТС Exolve Голосовой робот - 29 (5, 24)
  SteadyControl Система контроля и управления персоналом - 23 (23, 0)
  BSS Digital2Speech - 21 (21, 0)
  Voice2Med Система распознавания речи в медицине - 14 (14, 0)
  Naumen Erudite - 13 (13, 0)
  Другие 152

  BSS Digital2Speech - 5 (5, 0)
  SteadyControl Система контроля и управления персоналом - 4 (4, 0)
  Voice2Med Система распознавания речи в медицине - 4 (4, 0)
  МТС Exolve Голосовой робот - 2 (0, 2)
  Neuro.net Голосовой робот - 2 (2, 0)
  Другие 8

  МТС Exolve Голосовой робот - 12 (1, 11)
  BSS Digital2Speech - 6 (6, 0)
  Naumen Erudite - 3 (3, 0)
  VS Robotics: VS Робот-оператор - 3 (3, 0)
  SteadyControl Система контроля и управления персоналом - 3 (3, 0)
  Другие -1

  МТС Exolve Голосовой робот - 9 (0, 9)
  SteadyControl Система контроля и управления персоналом - 7 (7, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  BSS Digital2Speech - 6 (6, 0)
  SmartLogger II - 4 (4, 0)
  Другие 12

  SteadyControl Система контроля и управления персоналом - 5 (5, 0)
  BSS Digital2Speech - 4 (4, 0)
  EXpress Защищенный корпоративный мессенджер - 4 (4, 0)
  BSS: Виртуальный голосовой ассистент - 3 (3, 0)
  YandexGPT (YaLM 2.0) - 3 (3, 0)
  Другие 28