Рынок технологий машинного перевода:
интервью с Никитой Шаблыковым, PROMT
Коммерческий директор PROMT Никита Шаблыков в интервью TAdviser рассказал об особенностях российского и мирового рынков машинного перевода, а также новых технологиях, проникающих в эту сферу.
Каков объем рынка машинного перевода в России и мире?
Никита Шаблыков: По данным Global Market Insights, Inc рынок машинного перевода к 2024 году должен составить более 1.5 млрд долларов США. Годовой прирост оценивается в 14,6%. При этом, объем рынка всех лингвистических услуг в 2019 году составит $53.5 млрд. Сюда входят устный и письменный перевод, локализация программного обеспечения, веб-сайтов и мультимедиа, включая игры, фильмы и сериалы и многие более мелкие услуги. Машинный перевод – один из главных инструментов по оптимизации процесса перевода, локализации и работы с текстовыми большими данными.
Какие доли рынков приходятся на корпоративный сегмент и частных пользователей?
Никита Шаблыков: Сегмент частных пользователей в продажах невелик. 20 лет назад люди во всем мире были готовы покупать программы для ПК для решения частных переводческих задач. Даже в России, несмотря на пиратство, это был значимый рынок.
С распространением интернета, мобильных устройств, мы стали пользоваться онлайн-сервисами. PROMT запустил первый в Рунете бесплатный онлайн-сервис перевода - Translate.ru[1] - в 1998 году, потом уже на этом рынке появились другие игроки и довольно жесткая конкуренция. Поэтому вопрос с переводом для частных целей закрыт. Только на наших сервисах - это миллионы запросов на перевод в день со всего мира. Однако для части пользователей по-прежнему важны программы, устанавливаемые на ПК. Например, важен перевод документов с сохранением форматирования или перевод в офлайн-режиме, гарантирующий конфиденциальность данных.
Сегодня основную долю рынка машинного перевода занимает корпоративный сегмент. В 2012 году исследователи Boston Language Institute провели опрос, в ходе которого выяснили, что 64% предпринимателей считают языковые барьеры препятствием для доступа к иностранным рынкам. Большинство опрошенных полагает, что, избавившись от языковых ограничений, можно значительно увеличить число потребителей и доходы от бизнеса.
Кто эти корпоративные пользователи?
Никита Шаблыков: Чтобы лучше проиллюстрировать корпоративных пользователей, расскажу о четырех типовых бизнес-задачах, которые сформировались за 30 лет работы компании PROMT в России и мире.
Первая такая задача - международное сотрудничество.
Большинство сотрудников крупных компаний хорошо владеет иностранными языками, и, тем не менее, обращается к машинному переводу. Во-первых, это связано с тем, что работать с текстами и документами на родном языке гораздо быстрее и удобнее, особенно, если речь идет о больших объемах. Во-вторых, если вам нужно подготовить отчет или презентацию, вы справитесь с задачей гораздо быстрее, имея подстрочник с машинным переводом. В-третьих, переписка с зарубежным партнером становится проще, когда вы можете проверить себя через машинный перевод. Также не стоит забывать еще одно важное обстоятельство – конфиденциальность данных при переводе. Дмитрий Бородачев, DатаРу Облако: Наше преимущество — мультивендорная модель предоставления облачных услуг
МП в повседневной работе используют многие крупные компании в России, например, «Норильский Никель». Иногда в компаниях даже закрыт доступ к общеизвестным сервисам онлайн-перевода. Это сделано во избежание «случайного» выкладывания на облачные сервисы фрагментов переписки или внутренних документов, представляющих коммерческую тайну.
Вторая бизнес-задача – взаимодействие в онлайн-пространстве.
Есть много онлайн-сервисов, где бизнес построен на предоставлении информации о товарах и услугах в автоматическом режиме. Этой информацией делятся пользователи со всего мира: они оставляют отзывы, пишут комментарии, обсуждают товары и услуги. Чтобы контент был понятен всем, его нужно перевести на разные языки. Привлечь к переводу профессиональных переводчиков невозможно – это потребует огромных ресурсов и времени. Поэтому МП в данном случае – единственный выход. Это разумно по стоимости и срокам. Именно так решает вопрос с переводом отзывов путешественников компания TripAdvisor. Ресурсы TripAdvisor работают в 30 странах на 21 языке, и для перевода большой части пользовательского контента используется машинный перевод.
Третья бизнес-задача, которую решает машинный перевод – интеграция модуля перевода в состав другого программного продукта.
Конечные пользователи не хотят иметь 10 решений для разных задач, они хотят для экономии и оптимизации иметь один рабочий интерфейс, в котором все инструменты находятся под рукой. Для этого существуют модули перевода PROMT для разных платформ: серверных ОС, мобильных и десктопных.
Главное наше преимущество в том, что модули PROMT работают офлайн при сохранении высокого качества перевода, а, значит, обеспечивают информационную безопасность и конфиденциальность данных.
Среди крупных проектов интеграции технологий перевода в рабочую среду компании – проекты с Lukoil и Федеральным институтом промышленной собственности.
И, наконец, четвертая типовая задача, о которой я хотел бы рассказать, - это локализация.
Компании-разработчики программного обеспечения, поставляющие свои продукты за рубеж, сталкиваются с необходимостью локализации специфических документов – мануалов, пользовательских соглашений, маркетинговых описаний. Подобные документы можно перевести автоматически, а потом отредактировать, что позволит в разы сократить затраты на перевод. Яркий пример - «Лаборатория Касперского (Kaspersky)», где машинный перевод PROMT используют для локализации документации к продуктам.
Какие компании являются технологическими лидерами в корпоративном сегменте, на ваш взгляд, и чем отличаются их подходы?
Никита Шаблыков: Наряду с PROMT, к мировым технологическим лидерам в корпоративном сегменте можно отнести компании Systran и SDL. Systran занимается только технологиями машинного перевода и давно работает на рынках США, Франции и других стран. Для SDL технологии машинного перевода – не основной бизнес, и, прежде всего, компания известна своими решениями в области «переводческой памяти» и управления переводческими процессами. То есть, продукты и технологии SDL рассчитаны в первую очередь на профессиональных переводчиков.
На российском рынке PROMT – единственный поставщик решений по машинному переводу в корпоративном сегменте, доказавший свою высокую компетенцию и качество продуктов.
Кроме очевидных требований – качество перевода, перевод документов в разных форматах с сохранением форматирования – для наших клиентов важно иметь комплексное решение, когда в одном интерфейсе доступны все инструменты: корпоративный переводчик, корпоративный словарь и другие инструменты, предназначенные как для отдела перевода компании, так и для обычных пользователей (менеджеров, юристов, аналитиков).
Подходы компаний различаются в зависимости от их возможностей и ориентации на конкретных потребителей. При разработке решений PROMT мы используем и технологии искусственного интеллекта, нейронные сети, мы комбинируем разные подходы и создаём новые. Это позволяет нам выдавать лучший результат для широкого круга пользователей.
Что представляет из себя команда разработчиков PROMT? Как менялась их численность за последние 5 лет?
Никита Шаблыков: PROMT – это полностью российская ИТ-компания с петербургскими корнями, на рынке мы уже 28 лет. Штат небольшой, до 100 человек, половина из них – это те, кто придумывает, разрабатывает, и тестирует продукты. За последние пять лет численность разработчиков в компании принципиально не менялась. В команде есть очень опытные специалисты, некоторые из них работают в компании больше 15 лет, есть и те, кто еще учится или недавно окончил вуз.
Какие страны являются крупнейшими рынками в вашем бизнесе?
Никита Шаблыков: Основной рынок, конечно, российский. Также у нас есть немецкая компания PROMT GmbH и американская PROMT Americas. PROMT GmbH – заметный игрок как в частном, так и в корпоративном сегменте на рынке немецкоязычных стран. В прошлом году, например, компания заключила договор с третьим по величине поставщиком автомобильной промышленности в Германии – ZF Friedrichshafen AG. Есть партнер во Франции, который успешно распространяет продукты PROMT под своим брендом. Среди клиентов – L’Oréal, Air France. Есть партнеры в Японии, Китае, Индии, и даже в Иране и Саудовской Аравии.
В каких странах вы пробовали вести бизнес, но что-то пошло не так?
Никита Шаблыков: ИТ-рынок – международный, и любая компания при запуске продукта попадает в очень конкурентную среду. PROMT вовремя успел выйти на международный рынок. Это случилось в начале 2000-х, когда мы открыли офисы в Германии и США, стали партнерами с французской компанией. Самый интересный и одновременно сложный рынок сейчас для нас – это Китай. Этот рынок достаточно закрыт, есть серьёзные ограничения по продвижению и распространению ИТ-продуктов. Например, продвижением в местных социальных сетях может заниматься только компания, зарегистрированная на территории КНР. Стоит учитывать и национальные факторы – у нас был неудачный опыт партнёрства как раз в силу этой причины. Однако мы продолжаем работать в этом направлении.
Какие отрасли являются крупнейшими потребителями услуг машинного перевода?
Никита Шаблыков: В России это банковский сектор, нефтегазовая отрасль, энергетика, ВПК, госсектор, транспортная отрасль, а также машиностроение и ИТ.
Сегодня самый востребованный среди наших заказчиков продукт – это PROMT Translation Server, серверное решение для перевода документов и текстов в рамках корпоративной сети клиента.
Решения PROMT устанавливаются в корпоративную сеть и не требуют подключения к Интернету, обеспечивая полную конфиденциальность переводимых данных. Поэтому наши продукты – безопасная альтернатива онлайн-переводчикам – потенциальным каналам утечки информации, где даже в пользовательских соглашениях указывается, что любой контент, переведённый через облачные сервисы, становится собственностью этих сервисов. Это очень важный аспект, особенно, для государственных структур и крупных корпораций.
Еще один момент, на котором я хотел бы заострить внимание, - возможность экономии времени и бюджета за счет качественных решений по автоматическому переводу. Как показывает статистика, при наличии таких решений, пользователь может самостоятельно обрабатывать 60-70% документов, которые обычно передаются в отдел перевода.
Какие три проекта стали самыми интересными для компании в последние годы?
Никита Шаблыков: В прошлом году, когда в России проходил Чемпионат мира по футболу, наша компания разработала специальное мобильное приложение-переводчик для проводников поездов дальнего следования. С его помощью сотрудники РЖД смогли общаться с иностранными пассажирами – гостями мундиаля – на английском, немецком, французском и других популярных европейских языках. Переводчик не требует подключения к интернету, это важно при нестабильной связи в пути, есть режим «Диалог», при котором пользователь может общаться с иностранцем на родном языке. Приложение было встроено в УКЭБы – специальные устройства, с помощью которых проводники проверяют подлинность электронных билетов пассажиров.
Еще один интересный проект нашей компании – внедрение перевода PROMT в систему бронирования Amadeus. Система бронирования Amadeus – ведущий поставщик технологических решений в сфере туризма – занимает первое место среди глобальных дистрибутивных систем по количеству пользователей. Трэвел-агенты, которые используют эту систему, должны давать клиентам исчерпывающую информацию по условиям бронирования авиа- и железнодорожных билетов. Подобные данные в полной мере указываются в специальной документации – «Условиях применения тарифа», которые автоматически формируются на английском языке в режиме реального времени. Мы разработали решение, позволяющее переводить эту документацию на русский язык на лету. Это решение интегрировано в систему бронирования и настроено на перевод узкоспециализированных терминов, что облегчило работу агентам.
Конечно, я не могу не упомянуть и совместный проект с TAdviser - запуск первого в России, а, возможно, и в мире, СМИ, работающего на основе искусственного интеллекта. Новый портал tadviser.com – это англоязычный аналог издания, где функции перевода интегрированы в структуры сайта, взаимодействуют с различными базами данных, и в итоге все публикуемые материалы русскоязычного сайта оперативно появляются на английском языке без дополнительных усилий.
У PROMT много интересных проектов – например, внедрение решения по автоматическому переводу в систему Федерального института промышленной собственности (ФИПС), сотрудничество с «Лабораторией Касперского», крупными промышленными компаниями – такими, как «Лукойл», Siemens и «Норильский Никель».
Верите ли вы, что через какое-то, может быть, продолжительное, время онлайн-сервисы полностью вытеснят коробочные решения?
Никита Шаблыков: Уже сейчас онлайн-сервисы более популярны в частном сегменте. В случае, если пользователя не беспокоит конфиденциальность переводимой информации – это нормальный вариант. В корпоративном сегменте однозначно доля офлайн-решений будет только расти. Использования решений в закрытом контуре останется важными для госструктур, ВПК, любой коммерческой организации, которая заботится о своей информационной безопасности.
Как изменится мир машинного перевода с развитием нейронных технологий?
Никита Шаблыков: В PROMT используются разные технологии МП, в том числе, с 2018 года – нейронные технологии. Нейронный перевод – это самый «новый» подход, он дает более высокое качество перевода, чем другие технологии (аналитические и SMT). Хотя и у этой технологии тоже есть свои минусы и особенности.
Нейронная сеть может допускать трудно диагностируемые ошибки при работе с материалом, который не попал в обучающую выборку. Другими словами, не зная ответа, сеть его «придумает», что, например, особенно актуально при обработке имен собственных (персоналий, топонимов и так далее). При общей «гладкости» перевода, пользователь может даже не заметить ошибку. Кроме того, нейронный перевод требователен к ресурсам при установке в локальную сеть.
Уже сейчас доступны продукты PROMT с нейронным переводом внутри для серверной платформы Linux, а в сентябре 2019 мы планируем выпустить PROMT Translation Server с нейронным переводом под Windows Server. Это будет прорыв, т.к. в мире нет подобных решений.
Нейронный или аналитический, машинный перевод – это незаметная и уже незаменимая технология в современном мире.
Еще один аспект – это развитие корпусных технологий. NMT, как и статистический МП, базируется на корпусах, поэтому немало усилий, в том числе внутри компаний, должно быть направлено на сбор и хранение мультиязычных данных.
Какова ваша стратегия в развитии решений нейронного машинного перевода?
Никита Шаблыков: Наша стратегия – это развитие готовых специализированных решений и инструментов для быстрой адаптации базового решения под задачу заказчика.
В общем случае нейронный перевод дает результат более высокого качества, чем другие технологии. Но все-таки каждая бизнес-задача требует учета ее особенностей, как на лингвистическом уровне, так и в техническом плане. Высокое качество перевода в корпоративном сегменте возможно только при адаптации решения под конкретную задачу, а также при использовании комбинации разных технологий (нейронный, аналитический, статистический).
Например, перевод тарифных правил в системе бронирования Amadeus по ряду причин вряд ли будет возможен с помощью нейронного перевода. Основная причина в том, что нет корпусов параллельных текстов для такого рода контента, много особенностей в самой структуре текста: весь текст написан в верхнем регистре, предложение разбивается на части. То есть, это такой специфический контент, который обычный человек вряд ли бы понял.
Когда машинный перевод будет неотличим от перевода человеком?
Никита Шаблыков: Уже сейчас мы сможем показать вам переводы, где вы затруднитесь сказать, выполнены они машиной или человеком. Задача ИИ не в том, чтобы сравнивать результат программы и человека и вводить в заблуждение. Задача - может ли машина заменить человека так, чтобы замена было равноценной. У МП несколько значимых преимуществ.
Во-первых, сокращение рутинных операций. Перевод технической документации продукта X версии Y – это не творческая задача, которую человечество хотело бы сохранить для себя, не отдавая машинам.
Во-вторых, скорость. Машина переводит фантастически быстро.
В-третьих, доступность. Вам не нужно учить язык, чтобы понять надпись на финском или описание услуги на португальском языке, и даже не нужно искать переводчика, который переведет это для вас. С помощью технологий вы все сделаете сами.
В-четвертых, и это очень важный момент в современном мире, это приватность. Если вы можете обратиться за переводом к технологии, то у вас нет посредника, и никто не узнает, какая информация вас интересует - личное письмо, описание лекарства, финансовая информация.
При этом нужно помнить, что технологии перевода – это только технологии, инструмент для человека. Как бы хорошо ни работала технология, ее результат должен оцениваться человеком. Никто не придет в суд с документами, переведенными машиной без проверки специалиста. Еще раз повторю, вопрос не в том, чтобы вообще заменить человека, а в том, чтобы оставить ему только творческую, аналитическую часть работы, а рутину передать машине.
Как развивается бизнес PROMT в сфере решений для анализа текстов?
Никита Шаблыков: Продукт PROMT Analyzer SDK работает на основе глубокого семантико-синтаксического анализа естественных языков. Решение стало одним из финалистов конкурса «Лучшие информационно-аналитические инструменты» в номинации «Лучшее информационно-аналитическое решение для обработки неструктурированных данных».
Analyzer SDK представляет собой API для интеграции в СЭД, BI, корпоративные порталы. PROMT Analyzer SDK анализирует документ, выделяет ключевые объекты, например, в договорах, и дает представление о его смысловой структуре. Результат анализа сохраняется в базу данных и может быть использован для интеллектуального поиска по ней.
Главные особенности решения – это высокая точность и полнота разбора, многоязычность (на вход можно подавать текст или документ на любом языке), а также скорость работы – в разы быстрее представленных на рынке аналогов. Это именно модуль для встраивания в другие системы BI, мы приглашаем партнёров к тестированию и сотрудничеству.
Мир бушует по поводу низкого уровня защиты данных в информационных системах. Насколько часто это беспокоит ваших клиентов и как вы добиваетесь приватности в работе ваших решений?
Никита Шаблыков: Многих наших клиентов этот вопрос очень беспокоит. Но есть и те, кто пока не осознает опасности использования онлайн-сервисов. В 2017 году случился скандал вокруг известной компании Statoil. Многие конфиденциальные документы этой компании были переведены на онлайн-сервисе, перевод был проиндексирован и документы стали доступны при выдаче в поисковых системах.
В пользовательском соглашении крупнейшей компании, предоставляющей услуги по онлайн-переводу, сказано: «Загружая, добавляя, сохраняя, отправляя и получая содержание в наших Службах, вы предоставляете компании и ее партнерам действующую во всем мире лицензию, которая позволяет нам использовать этот контент, размещать его, хранить, воспроизводить, изменять, создавать на его основе производные работы (например, переводы, адаптации и прочие способы оптимизации материалов), обмениваться им, публиковать его, открыто воспроизводить, отображать, а также распространять».
В интересах компании — обеспечить своих сотрудников корпоративным решением по переводу, которое соответствует всем требованиям информационной безопасности. Решение не должно соприкасаться с «внешней средой» —тогда переводимая информация не будет уходить за пределы одного ПК или внутреннего сервера компании, частного облака. Сервис автоматического перевода, работающий в локальной сети компании, — такая же норма для коммерческой и государственной структуры, как корпоративная почта.
Каково ваше отношение к принятому в ЕС закону о защите персональных данных (GDPR)?
Никита Шаблыков: Это естественный процесс. Думаю, что европейский регламент GDPR о защите персональных данных граждан Евросоюза чуть позже отразится и на регулировании персональных данных в нашей стране.
Насколько законодательная среда в России поддерживает и сдерживает развитие ИТ-компаний в России и PROMT в частности? Какие меры стимулирования отрасли, на ваш взгляд, уже назрели?
Никита Шаблыков: Есть определённые трудности при работе на международных рынках, которые сдерживают развитие. Например, в Европе существует упрощенный порядок покупки ПО и других товаров и услуг. Если мы согласовываем с партнерами условия договора, выставляем им инвойс – одну бумажку, - и факт оплаты подтверждает согласие с условиями договора. Никаких актов, накладных вообще нет. У нас доходит до смешного: сейчас в законодательстве зафиксирована норма, которая требует от нас, как компании-продавца «обеспечить получение причитающейся иностранной валюты в сроки, предусмотренные договором», а если не обеспечил – серьёзный штраф. То есть, если вдруг иностранный покупатель не смог или не захотел оплачивать товар в срок, ответственность за это несёт российский продавец! Кроме прямых убытков – ещё и штраф.
Валютное регулирование в ИТ-сфере нужно совсем отменить, ведь по большей части это атавизм. Порой получается, что мы повышаем экспорт высокотехнологичных продуктов не благодаря помощи государства, а вопреки сложностям, которые оно пока не может устранить.