2023/06/14 10:16:54

Владимир Арлазаров, Smart Engines: Мошенник находит в соцсетях фото человека, рисует паспорт и идет за кредитом, а мы его ловим

Современные компании стремительно превращаются в цифровые организации и переводят взаимодействия со своими клиентами, партнерами и сотрудниками в электронный вид.В этих операциях люди все чаще участвуют удаленно, что требует подтверждения личности человека. Параллельно с ростом цифровых взаимодействий растет и количество цифровых преступлений, совершаемых с помощью подложных документов. О том, как эволюционируют преступные методы такого рода, а передовые российские технологии помогают компаниям с ними бороться, TAdviser рассказал Владимир Арлазаров, генеральный директор компании Smart Engines, кандидат технических наук.

Содержание

Владимир
Арлазаров
Программная библиотека Smart ID Engine 2.0 не создает рисков утечки персональных данных.

Владимир Викторович, какие виды угроз нужно принимать во внимание сегодня?

Владимир Арлазаров: Действительно, все больше взаимодействий «человек — бизнес» или «человек — государство» переводятся в цифровую форму. Преимущества, которые получили от этого граждане, неоспоримы. Но, конечно, параллельно появились и новые угрозы. Причем, во многом появление новых угроз связано вовсе не с тем, что мошенники превращаются в неких суперменов, как это частенько преподносится в голливудских фильмах: негодяй — это гениальный профессор. Нередко угрозы обусловлены обычной безалаберностью, в первую очередь, легкомысленным отношением к персональным данным. Подход типа «и так сойдет», «у меня же не украдут» и т.д. привел к тому, что в последние годы из разных организаций, как в России, так и во всем мире, утекло огромное количество персональных данных.

Мошенники используют комплекты персональных данных в новых криминальных схемах. Раньше им нужно было искать жертву, выяснять у нее персональные данные, а теперь за счет утечек это не составляет особого труда. Потом изготавливаются муляжи — подложные документы. И здесь технологии вновь пришли им на помощь. Во-первых, за счет огромных объемов доступных данных, например, в соцсетях, стало возможно с помощью систем искусственного интеллекта синтезировать документы, удостоверяющие личность. Во-вторых, с помощью современных систем распознавания лиц, среди которых есть очень качественные, мошенник может найти в соцсетях фотографию человека, похожего на себя. Затем, опираясь на сведения из соцсети, он находит его персональные данные в базе утечек, рисует муляж и — вуаля! — он отправляется за кредитом. Эта схема приобретает сегодня массовый характер и становится общегосударственной проблемой.

О многообразии документов, удостоверяющих личность

Насколько остро стоит проблема использования поддельных идентификационных документов в электронном виде в разных странах?

Владимир Арлазаров: Эта проблема — интернациональная, хотя ее масштабы и зависят от национальной политики по отношению к персональным данным граждан. Она касается Европы и Азии, Америки и Африки — везде мошенники пытаются работать в рамках этих схем. К счастью, мошенников такого рода пока не тысячи, их гораздо меньше. Но ущерб от их махинаций велик. Причем, это ущерб не только чисто финансовый, но и репутационный. Поэтому мы запустили серьезное исследование, чтобы детальнее разобраться в этой теме новых угроз и вызовов, и найти адекватные методы защиты этого канала цифровых взаимодействий от подделок разного рода: от простого редактирования электронного документа в графическом редакторе, когда меняется фамилия на паспорте, и до более сложных физических муляжей, которые очень похожи на паспорт, ID или любое другое удостоверение личности, использующееся где-либо в мире.

По Вашим оценкам, насколько велика в нашей стране потребность анализировать документы, выданные в других странах? Много ли видов таких документов?

Владимир Арлазаров: В нашей стране — основной документ, удостоверяющий личность, — паспорт. Но если компания работает с зарубежными клиентами или контрагентами, то ей приходится работать с самыми разными удостоверяющими документами. При этом экспертов, точно знающих, как выглядят все эти виды документов, очень мало. И это еще одна проблема. Банки, например, таких специалистов специально выращивают и очень стараются их удержать в своей организации. Судите сами. В масштабе ЕврАзЭС любой гражданин, скажем, Армении имеет право открыть счет в российском банке, и операционист или система удаленной выдачи должны точно знать, как выглядят армянские документы, удостоверяющие личность.

Чем обширнее международная организация, тем актуальнее для нее эта проблема. В целом, шаблонов действующих документов, удостоверяющих личность, сегодня насчитывается около 6000, а с учетом тех, которые уже не действуют (а их тоже надо уметь распознавать) набегает примерно 15000 видов. А теперь представьте себе операциониста, которому однажды принесли документ страны, про которую он впервые слышит. Да, если и слышал, а документ оформлен, например, на арабском языке красивой вязью, как он его прочитает и проверит?

Сколько языков поддерживает сегодня ваша система верификации документов Smart ID Engine?

Владимир Арлазаров: 102 языка. Вы же знаете, что разных языков намного больше, чем стран. В Индии, например, принято еще 20 официальных языков, кроме английского. И ID-документ может быть выдан на двух языках — английский плюс национальный, что является распространенной практикой. Поскольку языков очень много, для проверки подлинности документов однозначно нужна автоматизированная система. Поэтому второе поколение нашего движка Smart ID Engine 2.0 мы нацелили на решение именно этой задачи.

О новых вызовах в сфере распознавания удостоверяющих документов

Какие новые технологические задачи пришлось решать в ходе этой работы?

Владимир Арлазаров: Главный вызов заключался в том, что нам пришлось существенно повысить качество распознавания и разработать для этого новые методы анализа изображений и видеопотоков. Требование повышения качества распознавания обусловлено необходимостью свести к нулю ложные срабатывания системы, то есть ситуации, в которых система «перестаралась» и приняла честного человека за мошенника.

Надо сказать, что проблема ложных срабатываний системы является одной из ключевых для многих задач корпоративной информатизации, например, фрод-менеджмента или расследования компьютерных преступлений (форензики). Эта проблема заставляет предъявлять очень высокие требования к качеству распознавания.

Цифровое изображение и реальный документ – это совсем разные сущности. Как это сказывается на технологиях распознавания?

Владимир Арлазаров: Вы правы. Когда операционист в банке берет в руки паспорт, он изучает его в свете лампы, проверяет с увеличительным стеклом и т.д. А теперь мы получаем фотографию или видео на экране смартфона, причем, снятые в неподготовленных условиях в другой точке на карте. В этой ситуации перестают работать многие правила проверки подлинности, которые были придуманы для проверки физического паспорта. Поэтому для каждого документа нам пришлось разработать множество новых признаков, которые позволяют находить подделки с очень низким уровнем ложных срабатываний. Сейчас этот уровень составляет 1%, но мы поставили себе задачу довести это число до долей процента.

Вот почему построение системы признаков подделки — очень важный процесс, которым мы занимались целый год. В результате научились обнаруживать признаки мошенничества самого разного уровня: от тривиальных до сложных — и для российских, и для международных документов удостоверения личности.

На что ушел целый год?

Владимир Арлазаров: Мы существенно усилили нашу научную базу технологий распознавания, развили очень серьезно нашу научную экспертизу. Для примера, пришлось разобраться в способах нанесения данных на объект, физических свойствах объекта. У нас, например, паспорт бумажный, ламинированный специальной пленкой. А во многих странах паспорт — это пластиковая карточка, на которую буквы и цифры наносятся различными способами: выдавливание букв, лазерная гравировка и т.д. Встречаются экземпляры документов, где используется лазерное спекание, и пластик карточки становится рельефным. Во многих документах используются специальные шрифты. Понятно, что они засекреченные. Была проделана большая научная работа для того, чтобы их описать. И это только первый уровень защиты.

В целом, этих признаков очень много. Например, только на паспорте РФ их под сотню, и мы постоянно добавляем новые. Всего же в системе Smart ID Engine 2.0 по всем документам — под тысячу признаков. И это при том, заметьте, что мы не имеем возможности использовать специальное оборудование — только изображение с видеокамеры телефона. Но и там, как вы видите, есть немало признаков, по которым можно выявить признаки мошенничества.

Про специфические атаки при распознавании цифрового изображения ID-документов

Вы описали первый уровень защиты. А что на втором уровне?

Владимир Арлазаров: Второй уровень защиты — это атака на предъявление. Самый простой вариант — фотосъемка документа с экрана: вместо того, чтобы продемонстрировать камере «живой» документ, мошенники берут паспорт из Интернета или даркнета и показывают экран с изображением этого паспорта. Атаки такого типа обязательно нужно обнаруживать и сообщать системе, которая производит проверку личности человека.

Есть еще целый класс таких механизмов защиты, называемый Optical Variable Devices. Они связаны с такими объектами, имеющимися на документе, которые меняют свой цвет или саму картинку в зависимости от угла зрения или угла освещения. Все эти эффекты можно отчетливо наблюдать в видеопотоке, если просто подвигать документ. Конечно, если документ настоящий. В новой версии системы эти возможности реализованы не только для российских, но и европейских и многих других документов. Добавлю еще, что функции Optical Variable Devices по определению четырехмерны — они согласованы в пространстве и времени, и поэтому для проверки их подлинности требуются довольно сложные методы, ранее не использовавшиеся в распознавании документов.Догнать и перегнать: Российские ВКС прирастают новыми функциями 8.9 т

Таким образом, проверка Optical Variable Devices показывает, что предъявленный документ настоящий, то есть объект физического мира, затем проверит множество признаков защиты, и выдаст резюме о том, что паспорт с высокой степенью вероятности настоящий. После этого можно еще осуществить сверку лиц, после чего будет сделан вывод о том, что лица похожи, то есть изображение в паспорте соответствует тому, что демонстрируется камере телефона. Это еще более повышает уверенность системы в том, что происходящее перед камерой — не мошенничество. По сравнению с предыдущей версией Smart ID Engine, мы перестроили все процедуры проверки таким образом, чтобы использовать весь процесс распознавания документов в целях предотвращения мошенничества.

Есть еще один важный аспект: теоретически мошенники могут научиться изготавливать высококачественные подделки, способные даже проходить нынешнюю проверку на изменения. Вот только цена такой подделки сильно возрастет, а значит, уменьшится количество желающих заниматься цифровыми подделками документов, удостоверяющих личность.

Какой результат дает программа? Да или нет?

Владимир Арлазаров: Система не просто дает ответ «да» или «нет», а предоставляет еще много разной полезной информации: оценка достоверности данного результата распознавания, результаты различных проверок подлинности, а также другая дополнительная информация, которая будет полезна заказчику для принятия решения в своей задаче.

Про научные результаты и интеллектуальную собственность

Это уникальные алгоритмы?

Владимир Арлазаров: В системе реализован ряд уникальных алгоритмов. На некоторые мы уже получили российские патенты, а также патенты в США — там у нас зарегистрировано уже пять объектов интеллектуальной собственности. В первую очередь, речь идет о работе в видеопотоке, например, при проверке подлинности документов с голографической защитой без всяких специальных приборов.

Недавно мы получили американский патент на способ идентификации типа документов. Это ведь тоже вариант защиты от конкретного типа мошенничества — человек показывает документ, которого не существует. Наша система так и скажет: «Документ не предъявлен».

В качестве основных конкурентов мы видим несколько американских компаний, с которыми стремимся находиться, как минимум, на одном уровне технологического совершенства, а в ряде аспектов — превосходить. Собственно, для этого мы и получаем патенты в США и с технологической точки зрения чувствуем себя на этом рынке уверенно.

Российских патентов, конечно, больше — девять штук. Кроме того, ученые Smart Engines являются авторами 40 полезных моделей. Так что в части научных достижений создан мощный научно-технический фундамент.

Так или иначе все задачи, которыми занимается наша компания, являются наукоемкими. Мы непрерывно ведем большое количество НИР, готовим научные публикации, в которых сообщаем о наших научных результатах. Только за прошлый год опубликовали 65 научных работ, а за все время работы над системами распознавания документов, удостоверяющих личность, опубликовано несколько сотен научных работ.

Государство помогает развитию технологий?

Владимир Арлазаров: Да. Мы уже используем такие инструменты поддержки ИТ-отрасли как налоговые льготы и специальные гранты. Например, вторую версию Smart ID Engine мы создавали при поддержке РФРИТ (Российского фонда развития информационных технологий-прим. TAdviser). В 2022 году мы получили грант фонда и использовали его для доработки программы в части проверки подлинности идентификационных карт личности.

РФРИТ своевременно ответил на нашу заявку и выделил грант. Это помогло нам сохранить коллектив в период экономической турбулентности и успешно доработать программу. Мы сдали ее в срок. В соответствии с контрактом РФРИТ мы обязаны зарегистрировать ПО в реестре российских программ, и мы уже начали работу по регистрации. Мы надеемся, что она пройдет штатно.

Государство активно помогает всей ИТ-отрасли. В июне председатель правительства России Михаил Мишустин на конференции ЦИПР призвал бизнес активнее внедрять результаты отечественных исследований и разработок. И сейчас мы всеми силами работаем над тем, чтобы наше решение обеспечило безопасность как можно большего числа объектов и организаций, как частных, так и государственных.

О тонкой теме персональных данных

Продукт Smart ID Engine 2.0 оперирует с персональными данными граждан. Каким образом обеспечивается соответствие требованиям российского законодательства о персональных данных?

Владимир Арлазаров: Это вопрос нам часто задают: как обстоит дело с утечками данных из системы? Ответ простой — наша система распознавания ID-документов не хранит у себя данные пользователей. Во-первых, те алгоритмы машинного обучения, которые мы используем, обучаются на синтетических данных. Максимум того, на что может рассчитывать взломщик, — это синтетические данные, не имеющие никакого отношения к реальным людям.

А все остальное — это алгоритмы, которые также не хранят данные. Иными словами, программная библиотека Smart ID Engine 2.0 не создает рисков утечки персональных данных. Более того, эта библиотека, работающая у клиента, полностью автономна: нашу библиотеку клиенты встраивают в свои мобильные приложения или запускают на собственном сервере, а мы никакой связи с этой библиотекой после внедрения не поддерживаем. Вообще это наше кредо — не создавать новых точек утечек данных, обеспечить безопасность и автономность клиента.

О технологическом стеке разработки

Программные библиотеки open source используете?

Владимир Арлазаров: Мы изначально поставили цель — не использовать никакие сторонние библиотеки: ни математические, ни нейросетевые и т.д. Полное отсутствие open-source ПО гарантирует, что Smart ID Engine 2.0 — на 100% технологически независимый продукт.

Нейросетевые библиотеки сторонних производителей мы никогда не использовали и не собираемся использовать в своих продуктах. Мы пишем их сами, и это, в частности, помогает достигать высокой скорости работы нейронных моделей. Мы очень серьезно продвинулись в области синтеза обучающих данных и создании сверхкомпактных архитектур — наши модели очень маленькие.

Большая часть ПО написана нами с нуля, и это обеспечивает не только высочайшую безопасность, но и повторяемость результатов, а также поддержку мультиплатформенности. Мы внимательно следим за тем, чтобы решение хорошо работало на разных процессорных архитектурах, а это весьма непростая задача.

Часто ли приходится обновлять обучающую выборку?

Владимир Арлазаров: Мы это делаем непрерывно. На каждом этапе производства продукта в нас стоит задача повышения качества результата, что достигается за счет улучшения работы с данными и алгоритмами. Поэтому способы синтеза данных и распределения обновляются буквально ежедневно. В среднем мы выпускаем обновления продукта каждые два месяца.

О полностью автоматической верификации документов

Значит, система Smart ID Engine 2.0 не предполагает дополнительной ручной верификации результатов своей работы, как это бывает во многих системах, ориентированных даже на поточное оптическое распознавание текстов и документов?

Владимир Арлазаров: Мы продвигаем решение Smart ID Engine не как инструмент автоматизации, а как решение для полностью автоматического распознавания документов. У нас есть несколько клиентов, которые используют Smart ID Engine в режиме полностью автоматического ввода, когда человек не может ввести данные, даже если нужно исправить ошибку.

Человек нужен, если вы не можете обеспечить высокую точность распознавания. Но это не наш случай. Мы работаем с видеопотоком, то есть пользователь коммуницирует с системой в режиме реального времени. На производительном 32-ядерном сервере может распознаваться 50-60 паспортов в секунду, то есть 3000 паспортов в минуту или 180 тыс. паспортов в час. По большому счету, задач, где нужна такая производительность, единицы. А наша система позволяет еще более ускорить процессы за счет параллельной обработки потока на нескольких серверах.

Более того, наше решение специально адаптировано под российские процессоры «Эльбрус» и «КОМДИВ». Подчеркну, что система Smart ID Engine не просто на них может работать, она на них работает быстро — мы провели с этой целью серьезную оптимизацию. Поддерживается множество операционных систем, как российских, так и зарубежных, поскольку наши клиенты разбросаны по всему миру.

Как потенциальный клиент может сравнить результаты работы Smart ID Engine 2.0 и конкурентов? Например, для систем распознавания лиц проводятся глобальные конкурсы, позволяющие дать оценку возможностям различных поставщиков. А как обстоит дело в области распознавания документов?

Владимир Арлазаров: Конкуренты на нашем рынке есть, и это хорошо. Отсутствие конкуренции мы воспринимаем негативно — нет стимула развиваться. Что касается сравнительных тестов, то здесь есть большая проблема: единственный открытый набор данных по документам, удостоверяющих личность, был создан нашей компанией — сама тематика анализа достаточно новая. Но мы прилагаем очень серьезные усилия для того, чтобы создать базу для организации подобных соревнований и поддержки работы российских ученых. Это очень важно, ведь в мире насчитывается, пожалуй, два — три десятка компаний, которые занимаются такими разработками на серьезном научном уровне, и еще десяток — в нашей стране.

Поэтому, говоря о конкуренции, мы в первую очередь, имеем в виду глобальный рынок и позиционируем Smart ID Engine как решение премиум-уровня, которое используется там, где требуется высочайшее качество распознавания и высочайший уровень безопасности.

О таких примерах можете рассказать?

Владимир Арлазаров: Наш софт установлен, например, в системе автоматических пропускных пунктов аэропорта «Шереметьево-2»: вы просто прикладываете паспорт и тут же проходите внутрь или выходите. Представляете, насколько надежной и доверенной должна быть такая система распознавания документов, подтверждающих личность? Элементы этой системы также работают в ряде государственных организаций с высокими требованиями к безопасности решения.

Системой распознавания Smart Engines пользуются девять из тринадцати системно значимых кредитных организаций РФ. Это Тинькофф Банк, ВТБ, Альфа-банк, Совкомбанк, Газпромбанк, МКБ, Росбанк, банк «Открытие», Райффайзенбанк. Программу также применяют Кредит Европа Банк, МТС Банк, банк Синара, Хоум Кредит, другие банки, страховые компании, российские ритейлеры. Благодаря решению Smart ID Engine банк «Кубань Кредит» ускорил обслуживание плательщиков в 2 раза, банк «Мир Привилегий (Банк МП)» — в 10 раз.

В версии Smart ID Engine 2.0 появились новые технологические механизмы. Они сейчас проходят тестирование в нескольких компаниях. В ближайшее время он станет доступен всем заказчикам.

Что, по Вашим оценкам, является самым сложным элементом в проекте внедрения системы такого рода?

Владимир Арлазаров: С технической точки зрения, интеграция — довольно простое мероприятие. Мы создаем библиотеку, которую наши клиенты могут встроить в свою систему централизованно или в распределенном формате — на их усмотрение. Они сами легко могут сделать так, чтобы система стояла на каждом рабочем месте. Участия администраторов и прочих посредников не требуется — это абсолютно замкнутая система, которая получает на входе картинку и выдает результирующую информацию.

А вот с точки зрения методологии процесс внедрения сложнее. Рабочий процесс должен быть выстроен так, чтобы учитывать возможность мошенничества, и порой его приходится перестраивать полностью, поскольку честные люди не принимают во внимание такую возможность.

Чем займетесь после выхода на рынок Smart ID Engine 2.0?

Владимир Арлазаров: Будут следующие версии. Это же вечная битва щита и меча: мошенники будут придумывать новые способы мошенничества, мы — новые способы их обнаружения, а государство — новые организационные способы защиты.

Также несколько скорректируем свои планы по экспорту продукта. Предыдущую версию системы Smart ID Engine мы весьма успешно экспортировали, в том числе на рынок США. С учетом текущей геополитической обстановки мы несколько сместили фокус в сторону Азии и развивающихся стран.