Название базовой системы (платформы): | Искусственный интеллект (ИИ, Artificial intelligence, AI) |
Разработчики: | Meta Platforms |
Технологии: | Речевые технологии |
2020: Раскрытие исходников Facebook M2M-100 - системы перевода текста
В середине октября 2020 года Facebook раскрыла исходники первой системы машинного обучения, которая переводит текст с одного языка на другой, не полагаясь на промежуточный перевод на английском. Инструмент M2M-100 стал первой многоязычной моделью машинного перевода, которая может работать с любой парой из 100 языков напрямую.
До сих пор многоязычные модели машинного перевода полагались на английский язык как на своего рода посредника из-за широко доступных данных для обучения. Такие модели в большинстве случаев неплохо справляются с заданием, но, когда дело касается более сложных фраз, перевод часто бывает неточен. Facebook заявляет, что M2M-100 лучше сохраняет значение, поскольку переводит напрямую без обращения к английскому подстрочнику.
Перевод между таким количеством разных языковых пар - непростая задача, поскольку моделям требуется доступ к большому объему высококачественных данных для обучения. Исследователь ИИ в Facebook Анджела Фан (Angela Fan) объяснила, что ее команда создала огромный набор данных, содержащий более 7,5 млрд предложений на 100 различных языках.
Эти данные собирались с помощью инструментов интеллектуального анализа данных с открытым исходным кодом, таких как ccAligned, ccMatrix и LASER, а затем подразделялись на 14 различных языковых групп на основе таких параметров, как лингвистическая классификация, география и культурное сходство. В каждой из этих 14 языковых групп Facebook определил от одного до трех «языков-мостов», которые служат основой для перевода на другие языки этой группы. Команда Фан также использовала технику, известную как «обратный перевод», для создания синтетических данных в дополнение к уже добытым параллельным переводам.
Facebook желает заменить все существующие модели на M2M-100, чтобы улучшить качество переводов в своих приложениях.[1][2]
Примечания
Подрядчики-лидеры по количеству проектов
Группа компаний ЦРТ (Центр речевых технологий) (44)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
SteadyControl (18)
Naumen (Наумен консалтинг) (15)
Другие (194)
Группа компаний ЦРТ (Центр речевых технологий) (5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
SteadyControl (4)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
3iTech (ранее 3i Technologies) (2)
Другие (17)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
Naumen (Наумен консалтинг) (3)
Voice Systems Robotics (VSR, VS Robotics) (3)
Мегапьютер Интелидженс (Megaputer Intelligence) (2)
Другие (14)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4, 30)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
SteadyControl (1, 23)
SteadyControl HoReCa (1, 23)
Другие (359, 215)
Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
SteadyControl HoReCa (1, 4)
SteadyControl (1, 4)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
Другие (9, 13)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl HoReCa (1, 3)
Voice Systems Robotics (VSR, VS Robotics) (1, 3)
Naumen (Наумен консалтинг) (1, 3)
Другие (12, 16)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl HoReCa (1, 7)
SteadyControl (1, 7)
Другие (18, 30)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
Сбербанк (3, 5)
SteadyControl (1, 5)
SteadyControl HoReCa (1, 5)
СалютДевайсы (ранее SberDevices) (2, 4)
Другие (22, 36)
Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)
МТС Exolve Голосовой робот - 29 (5, 24)
SteadyControl Система контроля и управления персоналом - 23 (23, 0)
BSS Digital2Speech - 21 (21, 0)
Voice2Med Система распознавания речи в медицине - 14 (14, 0)
Naumen Erudite - 13 (13, 0)
Другие 149
BSS Digital2Speech - 5 (5, 0)
SteadyControl Система контроля и управления персоналом - 4 (4, 0)
Voice2Med Система распознавания речи в медицине - 4 (4, 0)
МТС Exolve Голосовой робот - 2 (0, 2)
Neuro.net Голосовой робот - 2 (2, 0)
Другие 8
МТС Exolve Голосовой робот - 12 (1, 11)
BSS Digital2Speech - 6 (6, 0)
Naumen Erudite - 3 (3, 0)
VS Robotics: VS Робот-оператор - 3 (3, 0)
SteadyControl Система контроля и управления персоналом - 3 (3, 0)
Другие -1
МТС Exolve Голосовой робот - 9 (0, 9)
SteadyControl Система контроля и управления персоналом - 7 (7, 0)
EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
BSS Digital2Speech - 6 (6, 0)
SmartLogger II - 4 (4, 0)
Другие 12
SteadyControl Система контроля и управления персоналом - 5 (5, 0)
BSS Digital2Speech - 4 (4, 0)
EXpress Защищенный корпоративный мессенджер - 4 (4, 0)
BSS: Виртуальный голосовой ассистент - 3 (3, 0)
Robovoice Пользовательская no-code платформа для разработки ИИ-ботов - 3 (3, 0)
Другие 25