Разработчики: | Яндекс (Yandex) |
Дата последнего релиза: | 2024/06/07 |
Отрасли: | Интернет-сервисы |
Технологии: | Речевые технологии |
Содержание |
2024: Интеграция с YandexGPT
7 июня 2024 года компания Яндекс представила обновленную версию машинного перевода, обученную с помощью YandexGPT. Большая языковая модель YandexGPT подготовила эталонные примеры текстов, на которых обучили нейросеть в Яндекс Переводчике. Это позволило сервису точнее понимать контекст, распознавать фразеологизмы и ориентироваться в профессиональной лексике.
Как сообщалось, переводчик стал лучше справляться с длинными и сложными текстами. Благодаря дообучению он определяет взаимосвязи внутри предложений и между ними. Кроме того, выросло качество перевода статей узконаправленной тематики. Например, сервис теперь поймёт по контексту, что речь идёт о языке программирования или фондовом индексе, и оставит их названия без перевода.
Яндекс использует технологию машинного перевода на основе нейросетей с 2018 года. Нейросеть в Переводчике обучалась только на парах текстов — оригиналах и их переводе на другой язык. Так она училась видеть взаимосвязи между ними и подражать им. Нейросеть, работающая в сервисе, легковесная: это позволяет ей справляться с большим количеством пользовательских запросов в реальном времени.
Большая языковая модель YandexGPT способна генерировать сложные, лексически и стилистически разнообразные тексты, в том числе со специфической терминологией. Поэтому компания использовала её потенциал для создания эталонных примеров. Так нейросеть в Переводчике не утратила скорость своей работы, но стала умнее.
Для генерации эталонных обучающих примеров Яндекс разработал специализированную модель семейства YandexGPT, адаптировав её под задачи перевода. Сначала модель во время этапа pretraining проанализировала множество текстов на английском и русском языках и изучила правила лексики, морфологии и синтаксиса. Следующим этапом шла тонкая настройка языковой модели (supervised finetuning) под задачи перевода. Затем на этапе reinforcement learning AI-тренеры оценивали качество перевода YandexGPT и ранжировали её ответы от лучших к худшим.
Работу дообученной нейросети в Переводчике оценивали методом Side by Side (SbS). Асессоры, владеющие русским и английским языком, сравнивали пары длинных и сложных текстов, переведённых с помощью двух версий технологии, и выбирали лучший вариант. В 57% случаев данная версия справлялась лучше.
Обновлённая технология используется для перевода текстов с английского на русский язык в Яндекс Переводчике, Поиске, а также в переводе видео в Браузере.
2021: «Яндекс» показал технологию закадрового перевода видео с английского языка
В середине июля 2021 года «Яндекс» представил технологию закадрового перевода видеороликов на иностранных языках, которая, как утверждают в компании, не имеет аналогов в мире. В системе объединены машинный перевод, технологии биометрии, распознавания и синтеза речи.
Биометрические решения позволяют определить пол говорящего и подобрать соответствующий голос. А чтобы закадровый голос совпадал с картинкой, переводчик делает паузы, где-то замедляет, а где-то ускоряет речь. Дело в том, что в оригинале и переводе реплики часто не совпадают по длине, поэтому за темпом речи следит специальный алгоритм, пояснили в «Яндексе».
С помощью технологии можно смотреть видеозаписи с закадровым переводом. К 16 июля 2021 года она работает только с роликами на английском языке. Разработчики уже опробовали ее на видеозаписях на разные темы. Это видео об изменениях климата, о машинном обучении, истории Плутона и других вещах. Посмотреть видео с закадровым переводом пользователи десктопного «Яндекс.Браузера» могут здесь.
В интернете очень много полезного контента, который недоступен людям из-за языкового барьера, — говорит руководитель направления обработки естественного языка в «Яндексе» Дэвид Талбот. — И мы близки к тому, чтобы окончательно стереть все границы. «Яндекс.Браузер» давно умеет переводить тексты, в этом году стал переводить изображения, перевод видео — следующий этап. Это большая сложная задача, которую никто в мире еще не решил. |
Как сообщили в «Яндексе» 16 июля 2021 года, в скором времени пользователи смогут сами выбирать, какие ролики переводить с помощью новой технологии. Отмечается, что над созданием системы работало несколько команд разработчиков.TAdviser Security 100: Крупнейшие ИБ-компании в России
Ранее в 2021 году в «Яндекс.Браузер» добавили встроенный перевод картинок. Функция работает прямо на страницах сайтов — браузер сам находит картинки с иностранным текстом, а потом позволяет перевести их одним кликом.
2020
Добавление якутского языка
27 апреля 2020 года стало известно, что компания «Яндекс» включила якутский язык в сервис «Яндекс.Переводчик».
Теперь любое якутское слово или фразу можно автоматически перевести на один из 98 языков мира – или, наоборот, узнать, как то или иное выражение или слово будет звучать по-якутски.
Считаю, это очень важный момент в развитии и сохранении языка народа саха в киберпространстве – в первую очередь, это необходимо для наших будущих поколений, отметил Глава республики Айсен Николаев в своем аккаунте в Инстаграме
|
Инициатор поддержки якутского языка в машинных переводчиках – Алексей Иванов, научный сотрудник Национальной библиотеки РС(Я).
Идея создать машинный перевод для якутского языка возникла еще в 2017 году. Последние полтора года на общественных началах ведется сбор двуязычных русско-якутских текстов, подготовка эталонных якутско-русских переводов для оценки качества перевода, отмечает Алексей Иванов
|
По его мнению, машинные переводчики - один из важных инструментов по сохранению языков.
Качество машинного перевода для якутского языка уже приближается к человеческому, но еще требует совершенствования. По моему мнению, компания «Яндекс» является единственной компанией в мире, которая ведет работу по сохранению языков народов России с помощью машинного перевода, рассказывает Алексей Иванов
|
В дальнейших планах команды проекта – цифровизация культурного наследия коренных народов Арктики.
Контент электронной библиотеки РС(Я) на апрель 2020 года составляет более 34 000 оцифрованных документов, читателям выдают 8-9 тысяч электронных книг в день.
Потенциал Национальной библиотеки РС(Я) позволяет создать Центр цифровизации языкового и культурного наследия народов Якутии на основе оцифрованных текстовых, аудиовизуальных, архивных, музейных артефактов, собранных в единую цифровую платформу.
Доступность в AppGallery
8 апреля 2020 года стало известно о полной интеграции всех мобильных приложений компании Яндекс в магазин приложений AppGallery. Подробнее здесь.
2019: Запуск функции перевода речи в реальном времени
25 августа 2019 года в сервисе «Яндекс.Переводчик» появилась функция перевода речи в режиме реального времени. В тех случаях, когда нужно что-то обсудить с иностранцем, сделать заказ в ресторане, узнать дорогу у прохожих или объясниться с таксистом за рубежом, приложение выступит в роли переводчика: будет слушать реплики, переводить их и озвучивать собеседнику.
Чтобы начать разговор, нужно выбрать язык общения для себя и собеседника — и можно говорить, по очереди нажимая на флаги языков. Приложение мгновенно переведет реплики, отобразит их на экране и озвучит на выбранном языке.
Если собеседник что-то не расслышит, ему всегда можно показать текст или повторно озвучить реплику одним касанием. Если «Яндекс.Переводчик» не совсем точно переведет фразу, текст можно поправить. Весь диалог сохраняется в истории для дальнейшего просмотра.
В приложении для Android в режиме диалога доступны коло 50 европейских и азиатских языков, а в iOS-версии — больше 20. Среди них — русский, английский, турецкий, французский, итальянский, испанский, немецкий, китайский, японский и другие.
Приложение распознает и синтезирует речь с помощью технологии SpeechKit и возможностей смартфонов. Для перевода реплик используются нейронные сети, обученные на больших корпусах текстов.
Помимо нового режима диалога, «Яндекс.Переводчик» снабжён функцией перевода фразы на фотографиях, поддерживает голосовой ввод и офлайн-перевод. Приложение поддерживает 95 языков. В нем есть разнообразные подборки — например, с идиомами и фразами для резюме. С его помощью удобно учить слова и составлять свои подборки.
Обновлённое приложение доступно для скачивания в Аpp Store и Google Play. Если Яндекс.Переводчик» уже установлен, режим диалога появится сразу после обновления.[1]
Примечания
Подрядчики-лидеры по количеству проектов
Группа компаний ЦРТ (Центр речевых технологий) (45)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
SteadyControl (18)
Naumen (Наумен консалтинг) (15)
Другие (196)
Группа компаний ЦРТ (Центр речевых технологий) (5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
SteadyControl (4)
3iTech (ранее 3i Technologies) (2)
Naumen (Наумен консалтинг) (2)
Другие (17)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
Naumen (Наумен консалтинг) (3)
Voice Systems Robotics (VSR, VS Robotics) (3)
SteadyControl (2)
Другие (14)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Группа компаний ЦРТ (Центр речевых технологий) (18, 47)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4, 30)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
SteadyControl (1, 23)
SteadyControl HoReCa (1, 23)
Другие (381, 217)
Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
SteadyControl (1, 4)
SteadyControl HoReCa (1, 4)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
Другие (9, 13)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl (1, 3)
SteadyControl HoReCa (1, 3)
Voice Systems Robotics (VSR, VS Robotics) (1, 3)
Другие (12, 16)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl (1, 7)
SteadyControl HoReCa (1, 7)
Другие (18, 30)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
Сбербанк (3, 5)
SteadyControl HoReCa (1, 5)
SteadyControl (1, 5)
Ростелеком (2, 4)
Другие (25, 39)
Распределение систем по количеству проектов, не включая партнерские решения
МТТ VoiceBox - 24
SteadyControl Система контроля и управления персоналом - 23
BSS Digital2Speech - 21
Voice2Med Система распознавания речи в медицине - 14
Naumen Erudite - 13
Другие 205
BSS Digital2Speech - 5
SteadyControl Система контроля и управления персоналом - 4
Voice2Med Система распознавания речи в медицине - 4
МТТ VoiceBox - 2
Neuro.net Голосовой робот - 2
Другие 11
МТТ VoiceBox - 11
BSS Digital2Speech - 6
SteadyControl Система контроля и управления персоналом - 3
Naumen Erudite - 3
VS Robotics: VS Робот-оператор - 3
Другие 14