Разработчики: | ORBL (ОРБЛ) |
Дата премьеры системы: | 2020/02/13 |
Отрасли: | ЖКХ, сервисные и бытовые услуги, Недвижимость, Торговля, Фармацевтика, медицина, здравоохранение |
Технологии: | ИБ - Биометрическая идентификация, Речевые технологии, Системы видеоаналитики |
2020: Запуск системы распознавания речи в коммерческую эксплуатацию
13 февраля 2020 года компания ORBL запустила в коммерческую эксплуатацию b2b-продукт – систему распознавания речи высокой точности. Это дескриптор голоса, с помощью которого можно переводить в текст спонтанную потоковую речь.
Какие данные можно получить с помощью программы распознавания речи:
- эмоциональный окрас речи (восемь эмоций – по спектру от гнева до радости);
- демографические характеристики говорящего (пол и возраст);
- полноценную стенограмму аудиоданных для дальнейшей аналитики.
«К запуску представленной функции ORBL подтолкнул запрос со стороны существующих клиентов, которые уже пользуются видеоаналитикой. Дело в том, что в совокупности оба решения – распознавание лиц и распознавание речи - дают некую синергию, которая выражается в полноте данных для принятия управленческих решений. С технической точки зрения функция распознавание речи не несёт дополнительных нагрузок на аппаратуру, оба процесса реализовываются на одном устройстве в рамках общей архитектуры. Распознавание сразу и лица, и голоса помогают общему решению работать оптимально, а бизнесу - получать бенефиты от единой архитектуры», отметил Антон Рудов, генеральный директор и основатель ORBL |
Прежде чем запустить продукт в коммерческую эксплуатацию, ORBL провели несколько пилотов с банками, медучреждениями. Со слов разработчика, положительная обратная связь от заказчиков говорит о том, что технология может быть использована в самых разных отраслях:
- Ритейл и сфера услуг. Это прежде всего компании, которые захотели фиксировать работу своих сотрудников в офисах и отделах продаж (магазинах) не только на видео, но и с помощью аудио. В ритейле распознавание голоса нужно для того, чтобы понимать, как происходило общение с покупателями, например, на кассе. В сфере услуг (например, салоны красоты и дилерские центры) решение помогает контролировать работу консультантов. Речь сотрудников записывается в личные микрофоны и затем преобразовывается в текст, который система анализирует на соответствие скриптам. Это очень помогает также при разборе конфликтных ситуаций с клиентами.
- Колл-центры тоже могут контролировать сотрудников на предмет того, насколько точно они следуют скриптам в ходе разговора с клиентами. Особенно это актуально для служб поддержки банков.
- Маркетинговые службы могут анализировать настроение клиентов, а также испытываемые в момент беседы эмоции, после чего выводить средние показатели удовлетворенности.
- Медицинская сфера. Например, при проведении вскрытия патологоанатомы могут заносить данные в информационную систему, «заполняя» голосом нужные поля.
- Системы аутентификации. Голос человека неповторим и его невозможно подделать. В контроле доступа по голосу заинтересованы, например, различные helpdesk системы. Голосовая биометрия для доступа к учётной записи по телефону не только распознает голос и сверяет его с образцом в базе, но и умеет отличать «живого» собеседника от записанной заранее речи. Для этого используется «капча» - робот просит собеседника просят повторить спонтанно выбранную фразу.
Технические характеристики:
- Программа может обрабатывать аудиоданные, полученные через различные устройства – например, диктофон или телефон. Конечное качество распознавания зависит от исходного качества данных. Минимальный результат – это «захват» ключевых слов, а при достаточном качестве записи заказчик получает готовую стенограмму.
- Точность распознавания при записи на диктофон достигает 95-96% при спонтанной речи, то есть когда человек не диктует или не старается специально четко проговаривать слова). Это позволяет получить готовый текст с минимальным количеством опечаток и ошибок, которые можно легко исправить в ручном режиме.
- Телефонный канал обеспечивает чуть меньшую точность – 80%. Это связано с тем, что его частота дискретизации составляет 8 кГц, тогда как при записи на диктофон – 44 кГц. Однако словарь распознавания для конкретной тематики дает прибавку точности еще в 10%. Например, для агентства недвижимости такой словарь может включать названия жилых комплексов или жаргонные обозначения типов планировок квартир.
Если говорить про точность распознавания речи в системах контроля доступа, то результат обработки голоса выражается в процентах соответствия - насколько точно он совпадает с эталонной записью в базе биометрии.TAdviser выпустил Гид по российским операционным системам
Отличия от аналогичных систем, отмеченные разработчиком:
- Это стековое решение - распознавание лица и речи в одной архитектуре. Одновременно с высокой точностью распознавания голоса, система обеспечивает распознавание лиц с точностью 99.99997% с поворотом головы до 65 градусов, минимальной освещенности в 60 лк, со скоростью 0.3-0.4 секунды.
- Горизонтальное масштабирование, обеспечивающее минимальное TCO для клиента.
- Работает не только из облака, но и локально (в основном на рынке облачные решения). ORBL не использует публичные облака, что в значительной мере, по мнению разработчика, снижает риски утечки данных. Обработка данных происходит или на сервере ORBL, или на серверах заказчиков.
- В отличие от других локальных решений, для продукта ORBL нужно меньше аппаратных ресурсов - за счёт того, что обработка данных (как видео, так и аудио) производится на видеокартах средних по мощности компьютеров. Это даёт экономию ресурсов.
Пока технические возможности системы по преобразованию речи в текст ограничены существующими запросами. Например, она не настроена на правильную расстановку знаков препинания, так как в основном используется для стандартизированного заполнения полей, а не создания литературного текста. В планах разработчика на 2020 год также есть создание интонационного распознавания речи, благодаря которому знаки препинания будут расставляться автоматически в процессе транскриптизации речи. С этой задачей вполне может справиться алгоритм машинного обучения, который проанализирует массив аудиоданных (например, аудиокниг) и выявит закономерности между интонациями говорящего и знаками препинания в тексте. Также в планах - усовершенствование функции текстовой аналитики. С её помощью заказчики смогут анализировать текстовые каналы связи с аудиторией (e-mail, чаты, форум) на предмет упоминания определённых тем и ключевых словосочетаний. Эта функция полезна и для обучения чат-ботов - чтобы они могли легко считывать опечатки и ошибки в сообщениях от клиентов, считают в ORBL. Кроме того, в компании работают над синтезом речи для создания на основе этой функции полноценных голосовых ботов, которые смогут, например, консультировать клиентов по телефону.
Подрядчики-лидеры по количеству проектов
Биолинк Солюшенс (BioLink Solutions) (134)
Прософт Биометрикс (ProSoft Biometrics) (74)
Индид, Indeed (ранее Indeed ID) (45)
VisionLabs (ВижнЛабс) (34)
Группа компаний ЦРТ (Центр речевых технологий) (31)
Другие (454)
Прософт Биометрикс (ProSoft Biometrics) (11)
VisionLabs (ВижнЛабс) (7)
Группа компаний ЦРТ (Центр речевых технологий) (5)
Талмер (Talmer) (4)
РекФэйсис (4)
Другие (52)
Индид, Indeed (ранее Indeed ID) (6)
VisionLabs (ВижнЛабс) (2)
ВидеоМатрикс (Videomatrix) (2)
Goodt (Гудт) (2)
NDBC - ЭнДиБиСи (ранее НТТ ДАТА Бизнес Солюшнс, itelligence Россия, Ителлидженс) (2)
Другие (21)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Биолинк Солюшенс (BioLink Solutions) (9, 140)
Прософт Биометрикс (ProSoft Biometrics) (18, 84)
VisionLabs (ВижнЛабс) (26, 50)
Индид, Indeed (ранее Indeed ID) (1, 45)
Группа компаний ЦРТ (Центр речевых технологий) (14, 39)
Другие (361, 308)
Прософт Биометрикс (ProSoft Biometrics) (7, 11)
VisionLabs (ВижнЛабс) (2, 8)
Группа компаний ЦРТ (Центр речевых технологий) (2, 6)
РекФэйсис (2, 4)
Ростелеком (4, 3)
Другие (23, 31)
Индид, Indeed (ранее Indeed ID) (1, 6)
Goodt (Гудт) (1, 3)
ABC Solutions (Эй Би Си Солюшенс) (1, 3)
VisionLabs (ВижнЛабс) (2, 2)
ВидеоМатрикс (Videomatrix) (1, 2)
Другие (9, 9)
Сбербанк (3, 8)
Индид, Indeed (ранее Indeed ID) (1, 7)
VisionLabs (ВижнЛабс) (3, 6)
Shenzhen Chainway Information Technology (1, 6)
АйТи Бастион (1, 3)
Другие (6, 6)
Сбербанк (1, 5)
Shenzhen Chainway Information Technology (1, 2)
АйТи Бастион (1, 1)
Индид, Indeed (ранее Indeed ID) (1, 1)
Goodt (Гудт) (1, 1)
Другие (3, 3)
Распределение систем по количеству проектов, не включая партнерские решения
BioLink BioTime - 123
Indeed Access Manager (Indeed AM) - 45
BioLink FingerPass - 45
Biosmart Studio - 36
СКУД BioSmart - 27
Другие 431
VisionLabs Luna - 5
VisionLabs Thermo (ранее VisionLabs Termo) - 5
Biosmart Studio - 4
BioSmart PV‑WTC Терминал - 4
Voice2Med Система распознавания речи в медицине - 4
Другие 42
Indeed Access Manager (Indeed AM) - 6
Goodt (Ранее ZoZo RCAM, Revenue&Costs Assurance Management) - 3
Vmx SILA: HSE - 2
МегаФон ВидеоАналитика - 1
РекФэйсис: VxFaces - 1
Другие 9
Подрядчики-лидеры по количеству проектов
VizorLabs (Визорлабс) (41)
Вокорд (Vocord) (39)
ВидеоМатрикс (Videomatrix) (32)
VisionLabs (ВижнЛабс) (26)
Simetra (ранее А+С Транспроект) (18)
Другие (361)
ВидеоМатрикс (Videomatrix) (9)
Simetra (ранее А+С Транспроект) (6)
VisionLabs (ВижнЛабс) (5)
VizorLabs (Визорлабс) (5)
SteadyControl (4)
Другие (55)
VizorLabs (Визорлабс) (11)
ВидеоМатрикс (Videomatrix) (8)
Nord Clan (Норд Клан) (4)
Джей Эс Эй Групп (JSA Group) (3)
VisionLabs (ВижнЛабс) (2)
Другие (33)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Вокорд (Vocord) (9, 45)
VizorLabs (Визорлабс) (9, 40)
VisionLabs (ВижнЛабс) (13, 33)
ВидеоМатрикс (Videomatrix) (17, 32)
PTV Group (2, 25)
Другие (352, 233)
ВидеоМатрикс (Videomatrix) (9, 9)
VisionLabs (ВижнЛабс) (3, 9)
PTV Group (1, 6)
Ростелеком (3, 5)
VizorLabs (Визорлабс) (2, 5)
Другие (17, 30)
VizorLabs (Визорлабс) (7, 11)
ВидеоМатрикс (Videomatrix) (7, 8)
SteadyControl (1, 3)
SteadyControl HoReCa (1, 3)
VisionLabs (ВижнЛабс) (2, 2)
Другие (18, 19)
VizorLabs (Визорлабс) (4, 13)
SteadyControl (1, 7)
SteadyControl HoReCa (1, 7)
Технологии безопасности дорожного движения (ТБДД) (1, 3)
VisionLabs (ВижнЛабс) (1, 2)
Другие (15, 18)
SteadyControl HoReCa (1, 5)
SteadyControl (1, 5)
Nord Clan (Норд Клан) (1, 3)
ЭЛВИС-НеоТек (1, 1)
NVI Research (1, 1)
Другие (8, 8)
Распределение систем по количеству проектов, не включая партнерские решения
PTV Visum - 25
Визорлабс Контроль ОТ и ПБ (VizorLabs Health & Safety) - 24
VisionLabs Luna - 24
SteadyControl Система контроля и управления персоналом - 23
Vocord Traffic - 16
Другие 271
PTV Visum - 6
VisionLabs Thermo (ранее VisionLabs Termo) - 5
VisionLabs Luna - 5
Визорлабс Контроль ОТ и ПБ (VizorLabs Health & Safety) - 4
SteadyControl Система контроля и управления персоналом - 4
Другие 37
Визорлабс Контроль ОТ и ПБ (VizorLabs Health & Safety) - 6
SteadyControl Система контроля и управления персоналом - 3
Vmx SILA: HSE - 2
Nord Clan: RDetector - 2
Vmx MarkerID: WNR - 1
Другие 29
Визорлабс Контроль ОТ и ПБ (VizorLabs Health & Safety) - 9
SteadyControl Система контроля и управления персоналом - 7
ТБДД: Азимут Комплексы фотовидеофиксации - 3
Vizorlabs Платформенное решение видеоаналитики - 2
Nord Clan: ML Sense - 2
Другие 19
SteadyControl Система контроля и управления персоналом - 5
Nord Clan: ML Sense - 3
ЦРТ: Визирь - 1
PTV Visum - 1
Orwell 2k - 1
Другие 5