2022/08/04 08:35:55

Умные речевые сервисы

При всем разнообразии цифровых коммуникаций голосовое общение остается одним из важнейших каналов взаимодействия бизнеса со своими клиентами. Как цифра меняет голосовые сервисы, и когда с голосовыми ассистентами можно будет поговорить по-человечески?

Статья входит в обзор TAdviser "Технологии искусственного интеллекта"

Содержание

Текущий технический уровень распознавания голоса
… и понимания смысла сказанного
Возможности омниканальности
ИИ в контактном центре
Речевая аналитика
Голосовые помощники и боты
Российский рынок разговорного интеллекта: сегодня и завтра
Синтез речи
Другие материалы обзора
Другие материалы по теме ИИ

Несмотря на то, что растет количество неголосовых обращений, звонки по телефону по прежнему занимают самую крупную долю в дистанционных коммуникациях, и продолжают увеличиваться в абсолютном количестве обращений, рассказывает Антон Сункин, директор филиала АО «Мосэнергосбыт» «Центр дистанционного обслуживания»:

Поэтому Мосэнергосбыт продолжает развивать каналы голосовых коммуникаций, по большей части в направлении автоматизации. Уже сейчас доля обращений по телефону, обработанных в автоматическом режиме составляет 63%, и перспективы повышения эффективности голосовых коммуникаций не исчерпаны.

Директор департамента сервисной поддержки клиентов компании «Триколор» Екатерина Павлова подтверждает:

Телефонный звонок на данный момент остается самым предпочтительным каналом для консультаций. Но мы, действительно, отмечаем рост доли клиентов, которым более комфортно задавать вопросы в мультимедийных каналах.

Контактный центр «Триколор» перевел в этот формат более 40% таких обращений с голосового канала.Дмитрий Бородачев, DатаРу Облако: Наше преимущество — мультивендорная модель предоставления облачных услуг

Каналы связи, которые клиенты банков намерены использовать для простых и сложных запросов в ближайшие годы

Источник: Deloitte Digital, Global Contact Center Survey, 2019 г.

Этот разогретый высококонкурентный рынок растет, по оценкам аналитического агентства Meticulous Research, на 17,2% каждый год, и его объем в мировом масштабе составит к 2025 г. 26,8 млрд. долл. Эксперты российской компании BSS считают, что росту голосового направления во многом способствовала ситуация в экономике, вызванная распространением коронавируса, - она стимулировала внедрение решений, основанных на речевых технологиях.

Российский рынок речевых технологий и сервисов, по сведениям аналитиков Frost & Sallivan, может достичь к 2024 г. до 20 млрд. руб. При этом, согласно экспертным оценкам, пока голосовые решения составляют лишь небольшую часть от всего объема российского рынка ИИ - около 10%.

Как рассказал Дмитрий Дырмовский, генеральный директор Центра речевых технологий (ЦРТ), крупнейшей компании России в области речевых технологий, наиболее высокую динамику роста демонстрируют направления интеллектуальных диалоговых роботов, речевой аналитики, лицевой биометрии. Так, направление аналитики диалоговых коммуникаций выросло в 2020 г. относительно 2019 г. на 48%, объем продаж по проектам внедрения продуктов ЦРТ для улучшения клиентского сервиса в банках и финансовых институтах вырос на 76%, в транспортной отрасли - в восемь раз, а в сферах строительства и электроэнергетики - более чем в 10 раз. По прогнозам ЦРТ, спрос на решения сохранится в финтехе, телекоме и здравоохранении.

Текущий технический уровень распознавания голоса

По мнению Юрия Ледакова, руководителя направления развития голосовых продуктов и интеллектуальных сервисов компании BSS, главным драйвером, двигающим развитие сегмента голосовых сервисов, является применение end-to-end моделей в распознавании речи.

Классическое распознавание речи, построенное на раздельно обучаемых акустических и языковых моделях, редко показывало точность выше 75% «из коробки». И при этом требовало сотен часов аннотированных записей разговоров для адаптации моделей под предметную область и достижения приемлемой точности»,- поясняет эксперт.

В нынешних системах на базе end-to-end моделей точность распознавания голоса превышает 85% сразу «из коробки», а добавление 3 - 5 часов аннотированных (размеченных) аудиозаписей по тематике конкретной предметной области позволяет достичь точности распознавания на уровне 95%.

Правда, Станислав Ашманов, генеральный директор компании «Наносемантика», призывает с осторожностью относиться к параметрам качества, которые поставщики приводят в маркетинговых материалах:

Этот процент должен означать, что на произвольных аудиозаписях система должна показывать уровень ошибки WER (Word Error Rate) не более 5%, то есть содержать не более пяти слов с ошибками транскрибировании (распознанных звуков и слов) на сотню. Даже заточенная на конкретный домен система будет допускать больше ошибок, если, скажем, человек нечетко произнес окончание слова или вообще произнес что-то несвязное или неграмотное. Если говорить о произвольном домене (тексте из любой предметной области), то показатель WER поднимется до 10-15%, а то и выше.

В этой связи представляет интерес бенчмарк-тестирование, которое «Наносемантика» провела осенью прошлого года. В нем сравнивались 17 голосовых систем 14 разных вендоров (включая Яндекс, Google, Тинькофф, Amazon, Azure, Сбер, 3iTech и т.д.), которые работали на тестовом наборе данных с неспецифичной лексикой. Эти системы сравнивались с четырьмя моделями «Наносемантики»: две из них были обучены на данных телефонии и еще две – на живой речи с электронных девайсов.

Продемонстрированные результаты отличаются от маркетинговых заявлений. Впрочем, замечает Ашманов, стоит иметь в виду, что для одних вендоров профильным направлением является умный дом, для других – телефония.

Учитывая эти особенности, а также стоимость услуг, возможность установки в контур/работы в облаке и нужно выбирать подходящее решение,- советует Станислав Ашманов.

Он также говорит о значимости фактора голосовых моделей и размеченных данных:

Речевые технологии, и, в частности, распознавание речи, в последние годы активно развиваются, качество моделей растет. И связано это, в первую очередь, с накоплением больших объемов сырых и размеченных данных у крупных вендоров, а также появлением в Open Source новых архитектур, которые предлагают новые способы обучения моделей.

В частности, большим прорывом был концепт wav2vec2 (и далее - data2vec), для обучения которого можно было использовать относительно небольшое количество размеченных данных, и очень большое количество данных для предварительного обучения без учителя.

Аудиозаписи с голосом без отекстовок подготовить гораздо проще, что упрощает вход для новых разработчиков,- рассказывает Станислав Ашманов. И добавляет: Барьером остаются солидные вычислительные мощности, необходимые для обучения подобных сетей, хотя при наличии даже старой видеокарты и запаса времени можно получить вполне сносное качество распознавания.

Александр Болтачев, ML-разработчик компании Globus IT рассказывает, что все подходы к распознаванию речи включают в себя решение двух основных задач. Во-первых, распознавание элементарных частей, называемых токенами. Во многих подходах в качестве токенов используются символы. Во-вторых, составление из токенов осмысленного предложения. Причем, на этом тапе в качестве токенов могут использоваться те элементарные части, которые распознавались из речи, но также они могут составлять другие типы токенов.

Для составления осмысленного текста применяется лингвистическая информация, выделяемая из большого набора тестов с помощью специальных лингвистических моделей (LM). Такие модели могут быть как отдельной частью системы, так и являться частью модели для распознавания речи. Именно здесь кроется основная проблема, рассказывает Александр Болтачев: при создании LM необходимо решить, что использовать в качестве токенов.

Во многих узконаправленных виртуальных ассистентах в качестве токенов для LM используют слова. Это помогает получить заведомо хороший результат в рамках конкретной специфики, не имея при этом очень большого набора текстовых данных,- поясняет эксперт.- Однако из-за того, что LM выделяет лингвистическую информацию, связывающую конкретные слова, такой подход ограничивается предоставленным словарем и не способен формировать новые слова.

Может быть, лучше применять символы в качестве токенов? Но и тут есть свои проблемы.

Да, подобные системы уже не будут ограничены словарем, но для того, чтобы получить приемлемое качество распознавания смысла, необходимо иметь огромные наборы данных,- комментирует Александр Болтачев.- Их не найти нигде в открытом доступе, а стоимость таких наборов будет очень велика даже для относительно больших компаний. Также такие системы могут довольно часто ошибаться, а также могут составлять несуществующие слова – и все из-за того, что они сделаны слишком гибкими.

Популярным стал подход, основанный на разбиении слов на под-слова, в частности, алгоритм Byte Pair Encoding (BPE): он разбивает предложения в обучающем наборе данных на самые часто встречаемые токены и по своей идее похож на алгоритм Хафмана.

Эти подходы позволяют уйти от проблемы ограниченности словаря, требуют меньших объемов данных для выделения необходимых зависимостей, нежели использование символов, а также менее подвержены проблеме формирования несуществующих слов, так как оперируют часто встречающимися комбинациями символов,- подчеркивает Александр Болтачев.

Юрий Ледаков считает существеннейшим технологическим прорывом возможность обучения NLU на сверхмалых объемах данных:

Это позволяет обучить робота понимать сказанное и извлекать из речи информацию на базе 2-3 десятков примеров на вопрос, в то время как еще пару лет назад требовалось вручную размечать десятки тысяч аудиозаписей.

… и понимания смысла сказанного

Второе важнейшее технологическое достижение анализа речи связано с распознаванием смысла сказанных слов (Natural Language Understanding, NLU), то есть алгоритмами искусственного интеллекта (ИИ), предназначенными для понимания естественного языка.

Конкретный уровень технологического развития стимулирует рост различных сегментов применения речевых решений. Наиболее серьезный прорыв сегодня достигнут в области голосового управления, считает Алексей Любимов, генеральный директор компании 3iTech.

Это логично, ведь распознавание команд проще, чем слитного текста, а надежность существенно выше. Голосом управляется уже много вещей — от телефонов до автомобилей. Заметен прогресс в области систем голосового набора и голосового поиска,- рассказывает специалист.

С помощью голосового чат-бота можно осуществлять автоматический прием показаний коммунальных счетчиков или узнавать номер договора, добавляет Станислав Ашманов.

В целом, повсеместное внедрение голосовых интерфейсов - от медицины до голосовой биометрии - Алексей Любимов считает одним из прорывных направлений ближайшего будущего.

Дальнейшее развитие голосовых технологий подталкивается несколькими тенденциями. В частности, активно развиваются инструменты обработки естественного языка, который звучит в естественной среде. По мнению Дмитрия Дырмовского из ЦРТ, один из важных трендов речевых сервисов связан с выходом технологий из Call-центров в офисы и улицы: будет усиливаться запрос на распознавание «речевого коктейля»: сложные акустические условия, спонтанная речь нескольких дикторов, причем, говорящих одновременно и перебивающих друг друга.

Так, в планах компании «Наносемантика» - расширение датасета аудиозаписями, сделанными в автомобиле, в офисах и кафе, с фоновой музыкой или звуком работающего телевизора, а также речи с различными акцентами.

Одина из наиболее значительных трендов – омникальное обслуживание клиентов, что подразумевает интеграцию голоса с другими каналами общениями.

Возможности омниканальности

После того, как в голосовом канале автоматизированы наиболее частотные, массовые причины обращений, возникает вопрос, куда развиваться дальше,- рассказывает Антон Сункин из «Мосэнергосбыта».- Простое усложнение сценариев диалога неэффективно, так как человек на слух воспринимает крайне ограниченный объем информации. Мы для себя видим выход в миграции между голосовыми и текстовыми каналами: абонент в голосовом канале обозначает свой запрос, и если ответ на этот запрос связан с предоставлением большого объема информации, или эта информация легче воспринимается в текстовом, табличном варианте, то клиенту предлагается переход в мессенджер, где и продолжается диалог. Голос же в чистом виде, в общении с «живым» человеком остается для тех случаев когда клиент не в состоянии сформулировать свой запрос.

Омниканальность – это инструмент, который способен серьезно изменить даже такие классические сервисы, как аналитика обращений: анализируются не просто слова или тон, которым они были произнесены, а смысл фразы или диалога. В этих ситуациях используются системы обработки естественного языка (Natural Language Processing, NLP).

Наличие базы статистических данных различного типа будет способствовать развитию рынка в сторону синхронизации мультимедиа, голосовой и видеоаналитики, считает Сергей Андронов, директор Центра сетевых решений «Инфосистемы Джет». А Дмитрий Дырмовский уверен, что крупные предприятия, банки уже располагают огромным количеством клиентских данных, анализ которых позволит создавать уникальный персональный опыт при обращении клиента по разным каналам связи.

Алексей Любимов из 3iTech подтверждает, что направление речевой аналитики в последнее время существенно шагнуло вперед. Например, интернет-магазин Holodilnik.ru благодаря внедрению платформы 3iTech получает текстовую расшифровку 100% звонков по всем своим коммуникационным каналам: телефония, Telegram, Viber, WhatsApp, «ВКонтакте», Facebook, web-widget). Он может анализировать диалоги своих операторов по более, чем 30 параметрам, контролировать выполнение скриптов, делать оценку по чек-листу и выполнять автотегирование.

Это сделало производительнее контакт-центр и позволило эффективнее выбирать рекламные каналы, точнее прогнозировать и настраивать рекламные кампании,- рассказывает Алексей Любимов.- А развертывание 3i TouchPoint Analytics в ИТ-контуре банка «Хоум Кредит» повысило эффективность клиентского сервиса, телемаркетинга и отдела взысканий. Так, в телемаркетинге конверсия продаж увеличилась вдвое. А в первый же месяц с момента внедрения качество обслуживания клиентов выросло на 15%.

Стоит отметить, что омниканальный подход подразумевает особые требования к технической составляющей голосовой системы - бесшовное обслуживание на всех каналах и возможность переходить из голосового канала в мультимедийный без потери каких-либо данных. Иными словами, вступив в коммуникацию, как операторы контактного центра, так и программные роботы должны всегда понимать контекст обращения и продолжать процесс обслуживания в нужном русле.

ИИ в контактном центре

Один из классических вариантов применения интеллектуальных речевых технологий в Call-центрах компаний получил название Voice of Customer («Голос клиента»). Это удачное емкое словосочетание в сжатом виде описывает целый класс ИТ-решений, предназначенных для повышения эффективности работы Call-центра. Речь идет о системах записи переговоров операторов с клиентами и анализе этих переговоров.

Для передовых контактных центров, в которых реализовано омниканальное обслуживание клиентов, технологии распознавания естественного языка распространяются на все каналы коммуникаций: переписку по электронной почте и в мессенджерах, сообщения на корпоративных сайтах, форумах, в соцсетях. К классическому функционалу выявления позитива/негатива в высказываниях клиентов добавилось распознавание их тематики, выявление ключевых особенностей конкретного обращения и автоматический выбор сотрудника, который должен вступить в коммуникацию с клиентом по интересующему его вопросу.

С точки зрения повышения внутренней эффективности контактного центра, умные системы самостоятельно следят за загрузкой операторов, перенаправляют звонки, контролируют соблюдение сценариев разговоров, лексику оператора и коммуникативную дисциплину.

Голосовые роботы полностью соблюдают заданный сценарий разговора. При этом банк защищен от негативного влияния человеческого фактора, например, от нарушения 230-ФЗ, от возможной утечки данных через сотрудника Call-центра, от случайного разглашения информации, за которое банк могут оштрафовать,- подчеркивает Иван Барчук, директор департамента сбора, хранения и анализа данных компании «ВС Лаб».

Аналитики Gartner прогнозируют в исследовании Market Guide for Speech-to-Text Solutions 2020, что к 2025 г. 40% всех входящих голосовых звонков в Call-центры будут использовать технологию преобразования речи в текст (Speech-to-Text, STT) для последующей аналитики и улучшения бизнес-процессов.

Какие аспекты контактных центров намерены развивать компании

Источник: Deloitte Digital, Global Contact Center Survey, май, 2019 г.

Данные исследований рынка подтверждают: главные ожидания корпоративного сектора в части развития Call-центров связаны с возможностями ИИ по выявлению всяческих полезных данных из речи, автоматизацией процессов (например, возможность перенаправлять взаимодействия операторам на основе предсказания результата коммуникаций с роботом), продвинутой бизнес-аналитикой, например, «Голос клиента» (Voice of Customer) и т.д.

Речевая аналитика

Аналитики Gartner в своем докладе Cool Vendors in Speech and Natural Language, опубликованном в 2019 г., отметили, что перспективные передовые решения в области распознавания речи способны выявлять из аудиосообщений много полезной информации, помимо распознавания конкретных слов.

Анализ эмоций. Первое, с чем стали экспериментировать Call-центры,- это выявление недовольных или разгневанных клиентов, у которых необходимо незамедлительно снять негатив. Анализ эмоций по-прежнему остается полем экспериментов, как для профессиональных разработчиков голосовых решений, так и корпоративных клиентов

В банке «Тинькофф» создали голосового робота, обладающего эмпатией. Он умеет заполнять паузы в разговоре, поддакивая «человеческим образом»: «ага, так-так» и т.д., а также задавать укороченные открытые вопросы в ответ на ту или иную фразу собеседника типа «А почему так?» и т.д.

Об интересном проекте такого рода объявил весной австралийский вуз Monash University: он разрабатывает приложение для смартфонов, предназначенное для помощи в переводе на другой язык в режиме реального времени, которое будет использоваться вместе со смарт-очками. Разработчики нового решения, ориентированного на взаимодействие людей, говорящих на разных языках, закладывают в его функциональность, помимо автоматического перевода, еще и распознавание эмоциональных сигналов, содержащихся в речи собеседника, а также языка тела и выражения лица. Ожидается, что система сможет распознавать недоумение или отрицательную реакцию другого человека в режиме реального времени и давать рекомендацию для исправления ситуации. Выпустить прототип приложения планируется в марте 2023 г.

Стоит отметить, что масштаб «умений» подобных роботов достигается за счет узкой специализации. В банке «Тинькофф» его создавали для узкой задачи – обзвона клиентов с небольшим опросом на тему качества услуг. Еще одна узкая ниша для применения ИИ-технологий – работа с возражениями. Здесь и реальному сотруднику непросто вести разговор в нужную сторону, но программная система приходит на помощь – предлагает подсказки, например, из корпоративной базы знаний, помогающие повернуть разговор в нужное русло.

Определение пола, возраста говорящего. Голосовой помощник Алиса из «Яндекса» научилась отличать взрослых людей от детей и формировать разные сообщения для разных категорий.
Выявление намерений из речи. ВТБ запустил в феврале в пилотном режиме предиктивные модели для умного голосового помощника: он будет не только идентифицировать клиента в момент звонка, но и анализировать его историю взаимодействия с банком, включая прежние обращения и оформленные услуги, и сразу сформирует гипотезу, с чем связано текущее обращение.

Станислав Ашманов из «Наносемантики» говорит, что определение намерений пользователя – это задача, которая давно хорошо решается в случае ограниченного количества возможных узлов диалога. Например, в рамках диалоговой платформы DialogOS «Наносемантики» высокий процент количества верно распознанных намерений достигается, в том числе, за счет комбинирования rule-based подхода и нейронных сетей для классификации.

Последние при этом основаны на трансформерах, которые, как и wav2vec2, предварительно обучаются без учителя на больших объемах текстов и, в каком-то смысле, выучивают грамматику языка, устойчивые конструкции, в каком контексте какие слова употребляются, в какой форме. И далее уже недолго дообучаются на конкретных примерах для ограниченного количества диалоговых узлов, после чего могут понимать намерения в сообщениях, которые не отлавливаются rule-based подходом,- поясняет Станислав Ашманов.

Голосовые помощники и боты

Сегодня о голосовых помощниках можно сказать словами К. Пруткова: они подобны флюсу - полнота их односторонняя. Умные голосовые помощники берут на себя, в первую очередь, рутинные функции и закрывают большую часть стандартных вопросов, с которыми клиенты обращаются в компании. Так, в «Мосэнергосбыте» с помощью голосового меню клиенты могут передать показания приборов учета электроэнергии, узнать состояние счета, свой тариф на электроэнергию, получить разъяснение о причинах возникновения задолженности, оформить заявку на дополнительные услуги или узнать статус исполнения этой заявки. В числе прочего, в процессе диалога с автоматизированной системой сверяются контактные телефоны.

Обзвон должников по оплате электроэнергии также ведет голосовой сервис, который способен уточнить адресата звонка (по тому ли адресу), объяснить причины возникновения долга и рассказать о последствиях в случае неоплаты, расспросить о причинах отказа от оплаты, узнать о готовности оплатить задолженность и сроках оплаты.

Эффективность сбора задолженности автоматизированным сервисом сопоставима с эффективностью операторов, но имеет гораздо большую производительность, что позволяет полностью отказаться от операторов при первичном обзвоне,- говорит Антон Сункин.

В банках популярная область применения ИИ — роботы-коллекторы. Первым вступил на этот путь Сбербанк, внедрив в 2016 г. такого голосового бота в дочерней компании «Актив БК». Через год после начала его трудовой деятельности оказалось, что эффективность робота на поприще общения с должниками на 24% выше, чем у операторов. Робот-коллектор также вступил в должность в ВТБ. В банке особенно отмечали неутомимость бота, который способен производить практически неограниченное количество звонков в день.

В отличие от «живого» оператора, который легко может охватить в разговоре с клиентом широкий спектр тем, голосовые помощники всегда имеют узкую специализацию, что объясняется спецификой их подготовки к работе – для этого используются специальные словари терминов и массивы текстов, где встречаются эти термины. Например, головой помощник, реализованный в ВТБ, может помочь клиенту перевести деньги по номеру телефона и между своими счетами, пополнить счет за услуги связи. Недавно он обрел новый навык - заказать по просьбе клиента SIM-карту «ВТБ Мобайл» и получить всю от него всю необходимую информацию по времени и адресу курьерской доставки. Планируется, что в дальнейшем голосовой ассистент научится покупать для пользователей «ВТБ Онлайн» билеты на самолет или поезд, бронировать номер в гостинице, заказывать столик в кафе и приобретать билеты в кино.

Робот BSS был внедрен в структуру сервиса Rent-a-Ride, занимающегося размещением предложений по краткосрочной аренде и прокату автомобилей частных владельцев. Компания столкнулась с проблемой: четверть клиентов Rent-a-Ride предпочитают оформлять заявки по телефону, но операторы аутсорсингового контакт-центр не справлялись с потоком звонков – клиентам приходилось ждать ответа на телефонной линии, а в оформлении заявок оказывались ошибки. После внедрения голосового робота нагрузка на менеджеров сервиса снизилась более, чем на 20%, улучшилось сегментирование клиентов, рост конверсии составил 30%, а выручка по заявкам, полученным по телефону, выросла в 1,5 раза.

В банке «Хоум Кредит», по словам Наталии Бибетко, начальника Управления автоматизации процессов сервисного обслуживания, боты суммарно решают более 65% вопросов клиентов на входящей/исходящей линии и продают новые продукты. Она называет в числе уникальных способностей голосового помощника «Мария» способность произвести голосовую идентификацию по телефону, помочь в генерации PIN-кодов, совершить полное и частичное досрочное погашение, оплатить кредит по телефону, узнать дату и сумму платежа, уточнить поступление/списание и т. п. Причем, это можно сделать в ходе звонка не только с мобильного, но и городского телефона.

Виртуальный помощник, работающий в компании Tele2, помогает клиентам в digital-среде: социальных сетях, мессенджерах, чатах, мобильном приложении и на сайте компании. Сегодня он консультирует клиентов по 2 тыс. тем.

В ходе проекта создания бота «Антон» для «Росбанка» разработчики виртуального помощника из компании CTI акцентировали внимание на персонализации программного робота: он получил персональный голос, а для оценки его потребительских качеств используются не только технические характеристики, но и такие метрики, как «знания», «понятливость», «общительность» и даже «харизма».

А для Анатолия Дюбанова, министра цифрового развития и связи Новосибирской области, важнейшим свойством голосовых помощников является возможность реализации массовых сервисов по информационному облуживанию граждан на региональном уровне.

В данном ключе огромную важность имеют любые продукты и голосовые сервисы, которые связаны с массовым обслуживанием граждан,- подчеркивает он.- Качественный сервис не только снижает нагрузку на сотрудников той или иной отрасли (сфера здравоохранения, социальная политика, МФЦ, государственное управление, ключевые отрасли экономики), но и значительно повышает долю самообслуженных граждан.

Станислав Ашманов отмечает, что умное ПО ботов сегодня способно выявлять и интерпретировать такие косвенные речевые данные, как количество перебиваний клиента или изменения скорости речи оператора.

Более сложные системы могут выступать в роли суфлеров, либо определять следование оператора диалоговому сценарию,- рассказывает он.- Стоит ожидать, что голосовые боты смогут осуществлять в ближайшее время и более сложные диалоги, увеличивая процент автоматизации Call-центров.

Этому способствует, отмечает Станислав Маслов, руководитель направления роботизации и заказной разработки Softline, усиление конкуренции среди поставщиков речевых платформ, что делает соответствующие решения более доступными для клиентов, а также инструменты Low-code-моделирования диалогов, что позволяет компаниям сократить стоимость внедрения и самостоятельно поддерживать решения.

В то же время ряд факторов существенно влияет на эффективность голосовых роботов.

Во-первых, залог успешности голосового робота - ресурсы для его обучения, причем, непрерывного. Виртуального помощника, как, впрочем, и человека-оператора, нужно постоянно обучать новым знаниям и навыкам, контролировать его работу и при необходимости вносить корректировки.

Бота нельзя настроить единожды и навсегда. Не разработав критерии оценки работы бота, невозможно отследить его эффективность. Без учета внешних и внутренних факторов, без «обкатки» системы на реальных диалогах, без вовлеченности профильных специалистов, способных учитывать все нюансы, технологический инструмент с большим потенциалом может показаться дорогой безделицей,- рассказывает Леонид Перминов, руководитель направления «Контактные центры» компании CTI.

Во-вторых, удачный робот должен уметь работать в информационной среде компании. Дело в том, что для ответа на, действительно, важный для клиента вопрос обычно необходима информация, непосредственно связанная с клиентом, сведения из документов, которые хранятся в неструктурированном виде, умение логически связывать между собой элементы знаний. На таком уровне пока способны работать лишь отдельные уникальные разработки голосовых роботов. Проблемы заключаются не только в отсутствии необходимых контекстно-зависимых интеграций на логическом уровне, но зачастую и в недостаточной цифровой зрелости компании – бизнес-процессы хаотичны, а данные недоступны приложениям.

В наше время очень малое число запросов носит абстрактный справочно-информационный характер, ответить на которые можно, исходя из информации во внутренней базе знаний,- говорит Антон Сункин из «Мосэнергосбыта».- Для полноценного ответа на запрос необходимо оперировать информацией, относящейся непосредственно к клиенту, совершать с ней логические и арифметические действия, и только так можно сформулировать ответ, который полностью удовлетворит клиента. И вот к этому внутренние системы зачастую не готовы.

Анатолий Дюбанов рассказывает, что в рамках внедрения системы голосового самообслуживания в работу «Единой регистратуры 122» пришлось разработать алгоритмы взаимодействия и интеграционные модули со стороны медицинской информационной системы (МИС), а также изменить внутренние бизнес-логики МИС, необходимые для генерации тех массивов информации, которые используются в работе сервисов голосового самообслуживания.

«Хоум-бот», реализованный в банке «Хоум Кредит» способен самостоятельно вести диалог по сложным сценариям и фиксировать его результаты во внутренних системах банка без дополнительных проверок сотрудниками. Он использует информацию из разных систем и самостоятельно вносит в них изменения по итогу диалога. Для этого, в частности, «Хоум-бот» интегрирован с RPA-ботами, которые помогают решать вопросы клиентов.

Станислав Ашманов из «Наносемантики» рассказывает, что платформа DialogOS, с технической точки зрения, интегрируется достаточно просто в существующие бизнес-процессы, и позволяет осуществлять автоматизацию многих задач.

Например, аналитику не нужно прослушивать целиком все звонки и вручную проставлять скоринг каждому оператору,- поясняет он.- Система может с высокой уверенностью автоматизировать если не всю, то очень большую часть работы, и ее, по большей части, нужно лишь иногда валидировать и калибровать. В некоторых кейсах уровень полученной автоматизации процессов достигает порядка 80%, а то и выше. Направление несомненно будет развиваться в будущем, как в сторону повышения качества существующих решений, так и расширяться на новые задачи, которые можно автоматизировать.

Банк «Хоум Кредит» для улучшения клиентского сервиса и эффективности взысканий выбрал технологию преобразования голоса в текст с последующей аналитикой на базе продукта 3iTech, который был развернут в контуре банка. Причем, основной объем работ полугодового внедрения пришелся на интеграцию в экосистемы банка для сквозного процесса анализа. Часть аналитики – длительность звонка, паузы и проч. - доступна сразу, а для более глубокого анализа результаты выгружаются в хранилище Big Data.

Зачастую отрицательные впечатления от голосовых помощников связаны с неоправданными ожиданиями клиентов.

Не нужно путать голосовых помощников, экспертные системы, и, например, развлекательные самообучающиеся системы. У них разные цели и разный эффект от внедрения,- призывает Анатолий Дюбанов.

Простые запросы имеет смысл обрабатывать с помощью умных и быстрых голосовых помощников, а если человеку, оказавшемуся в сложной ситуации, требуется ряд глубоких последовательных консультаций специалиста, то эта задача под силу только человеку или зрелой экспертной системе.

В целом, туповатость некоторых чат-ботов, с которыми люди встречаются в повседневной жизни, — это временное явление, болезнь роста, которая будет преодолена, уверен Алексей Любимов из 3iTech.

По сравнению с начальным уровнем, продвинутые нейросетевые архитектуры учитывают широкий контекст, выводя качество языкового моделирования на принципиально новый уровень,- поясняет он.- Такие решения лишь в шаге от того, чтобы пройти тест Тьюринга. То есть методы формирования диалога вполне годятся — вопрос только в реализации.

Действительно, для решения задачи обработки естественного языка нужно найти достаточно размеченных людьми примеров, чтобы обучить нейросеть. Для того обеспечить рост качества «понимания» естественного языка, нужно увеличить обучающую выборку до миллионов, а лучше миллиардов примеров. Правда, немногие компании способны на такие действия. Но уже просматривается выход из ситуации, полагает Алексей Любимов:

Есть компании, которые долго и дорого на огромном корпусе в миллиарды слов учат нейросеть структуре языка. Потом ее можно быстро и дешево подкручивать под конкретную задачу, например, для частной задачи разделения отзывов на негативные и позитивные.

Аналитики Gartner предрекают в своем исследовании Market Guide for Speech-to-Text Solutions, опубликованном в 2020 г., период рыночных трансформаций. Речь идет о том, что в течение следующих пяти лет нам предстоит увидеть дальнейшую эволюцию предложений разработчиков в более широкие голосовые услуги. Они будут иметь вид некоторых синергических пакетов – мультимодальных комплексов различных технологий обработки естественного языка (Natural Language Technologies, NLT). Иными словами, особенность голосовых решений заключается в том, что их развитие идет по пути не технической интеграции отдельных технологий, а их синергического объединения.

Эволюция систем «Речь-Текст» в направлении синергических пакетов

Источник: Market Guide for Speech-to-Text Solutions, Gartner, 2020

Нишевые голосовые решения, по мнению аналитиков Gartner, останутся востребованными, но доминирование на рынке перейдет к экосистемам NLT. А поставщиками этих широких пакетов технологий станут крупные облачные провайдеры решений и услуг ИИ. По мысли аналитиков Gartner, именно они будут концентрировать в своих руках, как лингвистические ресурсы, так и акустические модели, а также конкретные механизмы обработки естественного языка: преобразование речи в текст (Speech To Text, STT), текста в речь (Text To Speech, TTS), извлечение смысла из текста, автоматический перевод, генерация текстов на естественном языке (Natural-Language Generation, NLG). Там же окажутся разговорные платформы, обеспечивающие поддержку диалоговых коммуникаций человека с роботом.

Пожалуй, достижение этой синергии составляет главный вызов нынешних голосовых технологий и сервисов. Она необходима, как со стороны разработчика сервиса (объединение технологических возможностей в рамках единого кастомизированного сервиса), так и со стороны клиентов (комплексная готовность различных служб и процессов к работе в формате человеко-машинного диалога с потребителями).

Российский рынок разговорного интеллекта: сегодня и завтра

Исследовательская и консалтинговая компания Gartner отметила в отчете «6 Trends on the Gartner Hype Cycle for the Digital Workplace», опубликованном в 2020 г., что рынок разговорного ИИ прошел пик завышенных ожиданий. Выход на плато продуктивности следует ожидать в перспективе 5-10 лет: по чат-ботам и виртуальным ассистентам - к 2022-2025 годам, по разговорным пользовательским интерфейсам (Conversational User Interfaces, CUI) - к 2025-2030 гг.

Сегодняшний момент интересен тем, отмечают специалисты компании Just AI в своем исследовании «Рынок разговорного ИИ в России 2020-2025», подготовленном летом прошлого года, что в фазу активного развития вошли все инструменты и платформы разговорного ИИ:

Речевые технологии: синтез и распознавание речи, клонирование голосов, речевая биометрия, голосовая активация и т.п.
Технологии и платформы для обработки голоса: NLP (Natural Language Processing, обработка естественного языка), NLU (Natural Language Understanding, понимание естественного языка), DM (Dialog Management, управление диалогами), интеграции, ML-модели, данные.
Low-code/No-code конструкторы ботов: средства визуальной разработки диалоговых сценариев в голосовых или текстовых каналах.
Речевая аналитика: платформы анализа речи для определения качества диалога между людьми.

При этом решения NLP/NLU, виртуальные ассистенты, боты находятся в фазе активных пилотов в крупных корпорациях с выручкой более 1 млрд. долл. По оценкам Gartner, для крупного бизнеса риски внедрения разговорных ИИ-технологий уже минимальны, а выгоды высоки. Средний бизнес пока находится на этапе планирования — ему нужны кастомизируемые решения под конкретную потребность. Малый бизнес будет захватывать рынок последним, полагаясь на коробочные, требующие минимальной адаптации решения и сервисных партнеров.

С увеличением доступности моделей и датасетов рынок постепенно коммодизируется, а с появлением новых игроков и инхаус-разработок столкнется с существенным ценовым давлением,- комментируют нынешнее состояние российского рынка разговорного интеллекта в компании Just AI.

Действительно, на рынке разговорного ИИ в России работают более 100 компаний, многие из них растут с темпами на 200-400% в год.

Далеко не всегда они конкурируют между собой: значительная часть игроков специализируется на отдельных отраслях, типах заказчиков и технологиях и может доминировать в своих сегментах, даже имея небольшую долю на рынке в целом,- поясняют в Just AI.

Согласно результатам исследования Just AI, самый большой сегмент на российском рынке разговорного ИИ — решения для государственных и муниципальных учреждений. Фактически здесь доминирует группа компаний ЦРТ. В речевых технологиях (ASR/TTS/Biometry) наибольший объем рынка приходится на ЦРТ, Yandex.Cloud, «Тинькофф», ASM Решения, 3iTech. В области платформ речевой аналитики лидируют Speech Analytics, CallScoring, 3iTech, также сюда вошли «Тинькофф» и «Ростелеком». В сегменте No-code / Low-code конструкторов наиболее заметными игроками на текущий момент являются Just AI и Botmother, в сегменте NLP/NLU/DM-платформ — Just AI, «Наносемантика, ЦРТ», в исходящих телефонных коммуникациях — Neuro.net и Zvonobot.

В связи с комфортным порогом входа в рынок больше всего игроков работает в сегменте кастомных ассистентов, решений для клиентской поддержки, навыков для ассистентов, входящего IVR, решений для рекрутинга и HR. Здесь представлены компании с самым разным технологическим бэкграундом и объемом выручки — от крупных вендоров и интеграторов до небольших независимых студий.

Правда, сам объем рынка разговорного ИИ в России пока невелик: 76 млн. долл. с учетом госзаказов (данные на август 2021 г.). Однако темпы роста индустрии впечатляют: ежегодный рост на уровне 46-93%. В ближайшие пять лет, по оценкам Just AI, рынок сохранит динамику роста на уровне от 38 - 81% и в 2025 г. выйдет на объем 561 млн. долл. При этом различные сегменты данного рынка растут неравномерно. Так, если в 2020 г. наибольшими сегментами на рынке были речевые технологии и NLP-платформы, то в 2025 г. половину всего российского рынка займет сегмент специализированных решений для бизнеса, в том числе SMB.

Таргетированные на определенные бизнес-задачи и отрасли разговорные ИИ-решения, такие как голосовой поиск по каталогу для ритейла, виртуальные ассистенты для ЖКХ, роботизированные обзвоны для возврата клиентов, чат-боты для отелей и пр. — будут ежегодно прибавлять 100-120%, интерес к ним уже проявляют медицина, HoReCa, e-commerce, туризм, индустрия красоты и др.,- говорит в Just AI.

При этом сегмент NLP/NLU/DM-платформ продолжит рост, главным образом, за счет вовлечения новых сегментов бизнеса и разработчиков в сферу разговорного ИИ: ритейла, страхования, транспорта, HoReCa, пришедших вслед за лидерами — ИТ-компаниями, банками, телеком-операторами. Кроме того, бизнес расширяет сферы применения NLP-платформ: вслед за текстовыми чат-ботами идет в голосовые каналы, начинает использовать текстовых и голосовых суфлеров в контакт-центрах, заменяет традиционные IVR на IVR с пониманием естественного языка, добавляет голосовое управление в мобильные приложения и создает кастомных голосовых ассистентов, появляются нишевые NLP-решения для маркетинга, HR и других областей.

Ключевым трендом развития рынка разговорного ИИ эксперты Just AI считают быстрое продвижение на рынок умных колонок и экранов от Яндекса, Сбера и Mail.Ru – более 20 млн шт. к 2025 г.

Синтез речи

Голосовые роботы будут у большинства компаний,- прогнозирует Дмитрий Дырмовский из ЦРТ.- Преимущества будут у роботов, которые смогут вести диалог на естественном языке, что повлечет развитие технологий синтеза речи.

Аналитики прогнозируют ежегодный рост глобального рынка синтеза речи рост более, чем на 30%. Очевидно, что в этой части нам тоже предстоит увидеть немало открытий: в области управления синтезированным голосом (дыхание, паузы, интонации, ударения и т.д.), а также в части возможности создавать полноценные голоса на малом количестве исходных данных.

Качество синтеза речи постоянно растет, утверждает Кирилл Петров, управляющий директор компании Just AI в статье в журнале Techinsider (февраль 2022 г.):

Новые технологии обеспечивают естественное звучание синтезированных фраз, гибридный синтез позволяет бесшовно склеивать записанные голосом диктора и сгенерированные реплики.

Эксперт называет одним из главных трендов текущего года в этой части использование эмоций в синтезе речи:

Тренд 2022 года — передача эмоций, то есть контролируемый синтез, чтобы речь ассистента или виртуального персонажа звучала радостно или грустно, злобно или дружелюбно, в зависимости от потребностей проекта.

В марте нынешнего года компания Just AI объявила о выходе на рынок решения гибридного синтеза речи. Слово «гибридный» подразумевает использование специальной модели машинного обучения: используется заранее записанный дикторский текст, а для озвучивания переменных частей фраз (например, имя человека, к которому обращается бот, перечень покупок в интернет-магазине или имя лечащего врача, к которому хочет записаться пациент) применяется механизм синтеза речи (Text-to-Speech, TTS) на базе звучания голоса диктора.

Гибридный синтез делает звучание генерируемых фраз неотличимым от дикторских записей и обеспечивает бесшовную склейку переменных с основной частью реплики,- поясняют в компании Just AI.

Возможно обращение к данному решению из ботов, созданных в других сервисах, через API. Настройка сценария с нуля занимает несколько часов, говорят в компании. Доступны два женских голоса и один мужской. Оплата сервиса – за каждую синтезированную реплику.

Существенный тренд - клонирование голосов. Аналитики прогнозируют, что глобальный рынок клонирования голосов, в ближайшие годы будет расти ежегодно более, чем на 30%.

Свою платформу для создания кастомных нейронных голосов представила корпорация Microsoft. На российском рынке появился первый маркетплейс голосов Aimyvoice, который Just AI запустила в конце прошлого года. Там можно выбрать из почти двух десятков подходящий для своих задач голос, например, Кроша из «Смешариков». Можно также выложить в Aimyvoice в открытом или закрытом режиме модель конкретного голоса для синтеза речи и получать доход от ее использования в различных проектах, таких, как озвучивание аудиокниг, видеоигр, подкастов, голосовых ассистентов, ботов, телефонных проектов IVR. Главное, чтобы владелец голоса дал согласие на его использование. Например, на маркепплейсе Aimyvoice опубликованы голоса известной актрисы дубляжа Татьяны Литвиновой, она стала первой актрисой, которая будет получать доход за каждую синтезированную минуту речи. А вот голос Кроша находится в ограниченном доступе и доступен для синтеза после заключения договора с правообладателями.

Технологии искусственного интеллекта прекрасно взаимодействуют с другими сквозными цифровыми технологиями бизнеса,- комментирует Алексей Любимов из 3iTech.- Искусственный интеллект, в том числе, разговорный интеллект может интегрироваться в бизнес-процессы сразу в нескольких направлениях. Так, в компонентах робототехники и сенсорики можно использовать решения по распознаванию и синтезу речи, так же как и в сфере виртуальной и дополненной реальностей. Речевая аналитика используется в компоненте обработки больших данных и других областях. Есть примеры успешного внедрения разговорного интеллекта почти во всех перспективных областях применения ИИ в промышленности.

Вопрос только в готовности самих бизнес-процессов использовать сквозные цифровые технологии, говорит эксперт, без этого даже чат-боты будут только модной фичей, не приносящей бизнесу никакой пользы, кроме освобождения пары-тройки сотрудников.

Следующий материал обзора >>>
Главная страница обзора >>>