Название базовой системы (платформы): | Искусственный интеллект (ИИ, Artificial intelligence, AI) |
Разработчики: | Meta Platforms |
Технологии: | Речевые технологии |
2020: Раскрытие исходников Facebook M2M-100 - системы перевода текста
В середине октября 2020 года Facebook раскрыла исходники первой системы машинного обучения, которая переводит текст с одного языка на другой, не полагаясь на промежуточный перевод на английском. Инструмент M2M-100 стал первой многоязычной моделью машинного перевода, которая может работать с любой парой из 100 языков напрямую.
До сих пор многоязычные модели машинного перевода полагались на английский язык как на своего рода посредника из-за широко доступных данных для обучения. Такие модели в большинстве случаев неплохо справляются с заданием, но, когда дело касается более сложных фраз, перевод часто бывает неточен. Facebook заявляет, что M2M-100 лучше сохраняет значение, поскольку переводит напрямую без обращения к английскому подстрочнику.
Перевод между таким количеством разных языковых пар - непростая задача, поскольку моделям требуется доступ к большому объему высококачественных данных для обучения. Исследователь ИИ в Facebook Анджела Фан (Angela Fan) объяснила, что ее команда создала огромный набор данных, содержащий более 7,5 млрд предложений на 100 различных языках.
Эти данные собирались с помощью инструментов интеллектуального анализа данных с открытым исходным кодом, таких как ccAligned, ccMatrix и LASER, а затем подразделялись на 14 различных языковых групп на основе таких параметров, как лингвистическая классификация, география и культурное сходство. В каждой из этих 14 языковых групп Facebook определил от одного до трех «языков-мостов», которые служат основой для перевода на другие языки этой группы. Команда Фан также использовала технику, известную как «обратный перевод», для создания синтетических данных в дополнение к уже добытым параллельным переводам.Витрина данных НОТА ВИЗОР для налогового мониторинга
Facebook желает заменить все существующие модели на M2M-100, чтобы улучшить качество переводов в своих приложениях.[1][2]
Примечания
Подрядчики-лидеры по количеству проектов
Группа компаний ЦРТ (Центр речевых технологий) (44)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
SteadyControl (18)
Naumen (Наумен консалтинг) (15)
Другие (191)
Группа компаний ЦРТ (Центр речевых технологий) (5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
SteadyControl (4)
3iTech (ранее 3i Technologies) (2)
Naumen (Наумен консалтинг) (2)
Другие (17)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
Naumen (Наумен консалтинг) (3)
Voice Systems Robotics (VSR, VS Robotics) (3)
SteadyControl (2)
Другие (14)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 30)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
SteadyControl HoReCa (1, 23)
SteadyControl (1, 23)
Другие (353, 210)
Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
SteadyControl (1, 4)
SteadyControl HoReCa (1, 4)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
Другие (9, 13)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
Naumen (Наумен консалтинг) (1, 3)
SteadyControl (1, 3)
SteadyControl HoReCa (1, 3)
Другие (12, 16)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl (1, 7)
SteadyControl HoReCa (1, 7)
Другие (17, 29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl HoReCa (1, 5)
SteadyControl (1, 5)
СалютДевайсы (ранее SberDevices) (2, 4)
Сбербанк (2, 4)
Другие (20, 33)
Распределение систем по количеству проектов, не включая партнерские решения
МТТ VoiceBox - 24
SteadyControl Система контроля и управления персоналом - 23
BSS Digital2Speech - 21
Voice2Med Система распознавания речи в медицине - 14
Naumen Erudite - 13
Другие 199
BSS Digital2Speech - 5
SteadyControl Система контроля и управления персоналом - 4
Voice2Med Система распознавания речи в медицине - 4
МТТ VoiceBox - 2
Neuro.net Голосовой робот - 2
Другие 11
МТТ VoiceBox - 11
BSS Digital2Speech - 6
SteadyControl Система контроля и управления персоналом - 3
Naumen Erudite - 3
VS Robotics: VS Робот-оператор - 3
Другие 14