Разработчики: | 3iTech (ранее 3i Technologies) |
Дата последнего релиза: | 2021/03/03 |
Технологии: | ИБ - Биометрическая идентификация, Речевые технологии, Средства разработки приложений |
Содержание |
Основные статьи:
3i Speech Transcriptor — специальное программное обеспечение, которое предназначено для решения задачи преобразования речи в текст, передающейся по медиаканалам (ТВ, радио) и по каналам телефонной связи (традиционной, сотовой, IP-телефонии).TAdviser Security 100: Крупнейшие ИБ-компании в России
3i Speech Transcriptor предоставляет разработчику API.
2021: Снижение на 20% вероятности возникновения ошибки при распознавании речи
Компания 3iTech 3 марта 2021 года сообщила об усовершенствовании акустической модели движка распознавания речи 3i ASR. Это позволило на 20% снизить вероятность возникновения ошибки при распознавании речи, и за счет этого повысить качество решения бизнес-задач.
Акустическая модель используется в системах распознавания речи для преобразования речевого сигнала в гипотезы букв, которые затем выстраиваются в связный текст при помощи языковой модели. От качества получаемых текстов зависит точность и корректность решения бизнес-задач. Обновление акустической модели речевого движка 3i ASR, позволило на 20% снизить вероятность ошибки (WER, Word Error Rate) на тестовых выборках, охватывающих большой круг акустических условий, в том числе сложных. Для этого была проведена модификация архитектуры нейронной сети, которая позволила не только повысить точность, но и существенно сократить число обучаемых параметров. Кроме того, был запущен процесс перехода к непрерывному циклу самообучения моделей.
Речевой движок 3i ASR применяется в системе речевой аналитики 3i TouchPoint Analytics и в платформе 3i VOX, которые используются для решения различных бизнес-задач: от построения enterprise систем речевой аналитики до интеллектуальных разговорных ботов. Разработки компания 3iTech применяются для контроля качества обслуживания и выявления лучших практик продаж в банках, ритейле, и контакт-центрах крупных девелоперов.
По качеству распознавания речи наши продукты входят в число лучших на российском рынке. В своих разработках мы используем технологии машинного обучения. Наши специалисты регулярно обучают акустическую и языковую модели. Изменение структуры акустической модели не только заметно повысило точность обработки голосовых данных, но и открыло возможности для перехода к ее самообучению. То есть в будущем наши системы смогут совершенствоваться автоматически, – говорит Алексей Любимов, основатель и генеральный директор компании 3iTech. |
2020: Оптимизация речевой модели для понимания молодежного сленга
Компания 3iTech 22 мая 2020 года сообщила о том, что оптимизировала речевую модель, которая используется в системе распознавания речи 3i ASR. Теперь платформы, которые построены на этом речевом движке, смогут «понять» молодежный сленг и сбивчивую разговорную речь.
Речевой движок 3i ASR применяется при создании широкого спектра продуктов, например, чат-ботов и голосовых помощников; используется для создания интеллектуальной «первой линии» в контакт-центрах и службах технической поддержки. Голосовым системам нередко приходится иметь дело со сленгом или несвязной речью, что осложняет распознавание и корректное «понимание» сказанного. Включение в языковую модель сниженной, специфической и других пластов разговорной лексики повышает корректность распознавания и расширяет возможности применения как речевого движка 3i ASR, так и построенных на его базе платформ, подчеркнули в 3iTech.
В реальной языковой ситуации люди часто используют специфические словечки и выражения: это и молодежный сленг, и устоявшиеся сокращения, и слова-паразиты. То, как мы говорим в жизни, совсем не похоже на телевизионное вещание или диалоги из художественной литературы. Поэтому интеллектуальным системам подчас сложно «понять» людей. Мы усовершенствовали речевую модель, включив в нее пласты человеческой разговорной культуры», - отметил Алексей Любимов, председатель совета директоров компании 3iTech. |
3iTech использует 3i ASR для создания специализированных систем и программных комплексов. Например, на его основе построены платформа речевой аналитики 3i TouchPoint Analytics и облачная AI-платформа 3i VOX, которые уже используется в ритейле, в банках, в телекоммуникационных компаниях. Решения на базе речевого движка 3i ASR уже применяются в контакт-центрах и клиентских офисах.
2019
Разработка 3i ASR 2.0
19 сентября 2019 года компания 3i Technologies сообщила, что ее эксперты разработали движок распознавания речи 3i ASR 2.0, который позволит заметно улучшить качество работы продуктов и сервисов компании. Благодаря 3i ASR 2.0 системы смогут точнее понимать живую человеческую речь. Движок будет использоваться как в выпускаемых продуктах и сервисах компании, так и в тех, которые уже представлены на рынке.
Движок построен на базе end-to-end архитектуры с использованием нейросетей и машинного обучения (machine learning). 3i ASR 2.0 обучен на выборке в несколько тысяч часов с аугментацией данных (внесением разных типов искажений). Это позволило значительно снизить уровень относительной ошибки и повысить качество распознавания живой речи.
Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU. Представленный движок дает возможность распознавать массивы речевой информации в более чем сто раз быстрее их реального звучания.
Технологии распознавания речи и системы созданные с их использованием меняют привычные сервисы. Все уже сталкивались с тем, что речевую систему можно встретить в контакт-центре, позвонив в техподдержку. Нас прекрасно понимают электронные устройства, когда мы голосом диктуем, например, поисковый запрос. Продукты 3i Technologies контролируют диалоги сотрудников транспортных компаний с клиентами, или общение работников ритейла. По «голосу» мы выявляем телефонных мошенников. B c каждым днем сфера применения речевых технологии расширяется, при этом заказчики становятся все более требовательными к качеству распознавания и скорости обработки речевой информации. И наш движок – это ощутимый шаг вперед, говорит Любимов Алексей, председатель совета директоров 3i Technologies
|
Движок будет интегрирован в облачный сервис для профессиональной обработки речевых данных 3i Speech Recognition, в облачную платформу речевой аналитики 3i TouchPoint Analytics и другие продукты и сервисы компании. Миграция на данный движок произойдет бесшовно.
Интеграция с платформой Personal IT
25 января 2019 года компания 3i Technologies сообщила о подписании с компанией «Проф ИТ» соглашения о сотрудничестве в области создания голосовых интеллектуальных сервисов и чат-ботов. Разработчики «Проф ИТ» получили доступ к голосовой платформе и инструментам 3i Technologies. Подробнее здесь.
Технология. Характеристики. Модификации
Технология
По информации на январь 2019 года возможности распознавания речи 3i Speech Transcriptor базируются на технологиях DNN и WFST — глубоких нейронных сетей (deep neural networks) и взвешенных конечных автоматов (weighted finite state transducer).
Основные характеристики
Использованные компанией технологии распознавания речи обеспечивают:
- высокую скорость обработки речевого сигнала, за счет распараллеливания вычислений;
- должное качество распознавания речи;
- возможность гибкой настройки модуля распознавания речи на тип канала (телевидение и радио), телефония (традиционная, сотовая, IP-телефония)) и\или язык за счет использования обучаемых моделей, распространяемых независимо;
- дикторонезависимое распознавание слитной речи, в том числе при наличии акцента, внешних шумов, неречевых звуков, музыки;
- распознавание файлов или потоков речи неограниченной длины за счет деления записей по паузам внутри речи и *распознавания получившихся кусочков в отдельных потоках ЦП;
- большой словарь распознаваемых слов, включающий сотни тысяч слов, чего практически достаточно для распознавания любого текста общей лексики.
Возможна адаптация существующих языковых моделей и разработка новых под требования заказчика.
Модификации
На январь 2019 года доступны две модификации продукта, ориентированные на различные источники входных данных:
- Phone — обработка речевых данных из телефонного канала
- Broadcast — обработка речевых данных из медийного (телерадиовещательного) канала
Системные требования (минимальные)
- CPU Intel Core i7 – 5820K 3,3 ГГц (6 физических вычислительных ядер);
- ОЗУ 16 ГБ;
- HDD 100 ГБ свободного места на жёстком диске.
- Поддерживаемые ОС: Microsoft Windows 7 SP1 или выше либо ОС на основе ядра Linux.[1]
Примечания
Подрядчики-лидеры по количеству проектов
Биолинк Солюшенс (BioLink Solutions) (134)
Прософт Биометрикс (ProSoft Biometrics) (74)
Индид, Indeed (ранее Indeed ID) (45)
VisionLabs (ВижнЛабс) (34)
Группа компаний ЦРТ (Центр речевых технологий) (31)
Другие (459)
Прософт Биометрикс (ProSoft Biometrics) (11)
VisionLabs (ВижнЛабс) (7)
Группа компаний ЦРТ (Центр речевых технологий) (5)
РекФэйсис (4)
Талмер (Talmer) (4)
Другие (52)
Индид, Indeed (ранее Indeed ID) (6)
ВидеоМатрикс (Videomatrix) (2)
Goodt (Гудт) (2)
NDBC - ЭнДиБиСи (ранее НТТ ДАТА Бизнес Солюшнс, itelligence Россия, Ителлидженс) (2)
VisionLabs (ВижнЛабс) (2)
Другие (21)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Биолинк Солюшенс (BioLink Solutions) (9, 140)
Прософт Биометрикс (ProSoft Biometrics) (18, 84)
VisionLabs (ВижнЛабс) (26, 50)
Индид, Indeed (ранее Indeed ID) (1, 45)
Группа компаний ЦРТ (Центр речевых технологий) (14, 39)
Другие (361, 310)
Прософт Биометрикс (ProSoft Biometrics) (7, 11)
VisionLabs (ВижнЛабс) (2, 8)
Группа компаний ЦРТ (Центр речевых технологий) (2, 6)
РекФэйсис (2, 4)
Ростелеком (4, 3)
Другие (23, 31)
Индид, Indeed (ранее Indeed ID) (1, 6)
Goodt (Гудт) (1, 3)
ABC Solutions (Эй Би Си Солюшенс) (1, 3)
VisionLabs (ВижнЛабс) (2, 2)
ВидеоМатрикс (Videomatrix) (1, 2)
Другие (9, 9)
Сбербанк (3, 8)
Индид, Indeed (ранее Indeed ID) (1, 7)
VisionLabs (ВижнЛабс) (3, 6)
Shenzhen Chainway Information Technology (1, 6)
АйТи Бастион (1, 3)
Другие (6, 6)
Сбербанк (1, 6)
Shenzhen Chainway Information Technology (1, 2)
Индид, Indeed (ранее Indeed ID) (1, 2)
Voca-Tech (Вока-Тек) (1, 1)
Группа компаний ЦРТ (Центр речевых технологий) (1, 1)
Другие (3, 3)
Распределение систем по количеству проектов, не включая партнерские решения
BioLink BioTime - 123
BioLink FingerPass - 45
Indeed Access Manager (Indeed AM) - 45
Biosmart Studio - 36
СКУД BioSmart - 27
Другие 433
VisionLabs Luna - 5
VisionLabs Thermo (ранее VisionLabs Termo) - 5
Biosmart Studio - 4
BioSmart PV‑WTC Терминал - 4
Voice2Med Система распознавания речи в медицине - 4
Другие 42
Indeed Access Manager (Indeed AM) - 6
Goodt (Ранее ZoZo RCAM, Revenue&Costs Assurance Management) - 3
Vmx SILA: HSE - 2
Smart Meal Service: Lunch fastPass Робот-кассир - 1
Випакс: Domination - 1
Другие 9
Подрядчики-лидеры по количеству проектов
Солар (ранее Ростелеком-Солар) (46)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (15)
Форсайт (11)
Бипиум (Bpium) (10)
Axiom JDK (БеллСофт) ранее Bellsoft (10)
Другие (393)
Солар (ранее Ростелеком-Солар) (8)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (4)
IFellow (АйФэлл) (2)
ЛАНИТ - Би Пи Эм (Lanit BPM) (2)
Консом групп, Konsom Group (КонсОМ СКС) (2)
Другие (30)
Солар (ранее Ростелеком-Солар) (10)
Форсайт (3)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
Cloud.ru (Облачные технологии) ранее SberCloud (2)
КРИТ (KRIT) (2)
Другие (13)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Солар (ранее Ростелеком-Солар) (2, 48)
Microsoft (41, 47)
Oracle (49, 26)
Hyperledger (Open Ledger Project) (1, 23)
IBM (33, 18)
Другие (602, 308)
Солар (ранее Ростелеком-Солар) (1, 8)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (1, 4)
Microsoft (4, 3)
Oracle (2, 3)
SAP SE (2, 2)
Другие (16, 19)
Солар (ранее Ростелеком-Солар) (1, 11)
Форсайт (1, 3)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 3)
Сбербанк (1, 2)
Cloud.ru (Облачные технологии) ранее SberCloud (1, 2)
Другие (9, 9)
Солар (ранее Ростелеком-Солар) (1, 6)
Unlimited Production (Анлимитед Продакшен, eXpress) (1, 6)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 4)
Мобильные ТелеСистемы (МТС) (1, 4)
Форсайт (1, 3)
Другие (14, 24)
Unlimited Production (Анлимитед Продакшен, eXpress) (1, 4)
Мобильные ТелеСистемы (МТС) (2, 3)
Солар (ранее Ростелеком-Солар) (1, 3)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
Оператор Газпром ИД (ГИД) (1, 1)
Другие (14, 14)
Распределение систем по количеству проектов, не включая партнерские решения
Solar appScreener (ранее Solar inCode) - 48
Hyperledger Fabric - 23
Windows Azure - 20
FIS Platform - 15
EXpress Защищенный корпоративный мессенджер - 12
Другие 328
Solar appScreener (ранее Solar inCode) - 8
FIS Platform - 4
Java - 2
Турбо X - 2
Парадокс: MES Builder - 2
Другие 22
Solar appScreener (ранее Solar inCode) - 11
Форсайт. Мобильная платформа (ранее HyperHive) - 3
BSS Digital2Go - 3
Cloud ML Space - 2
Avaya Breeze (Avaya Engagement Development Platform) - 1
Другие 8