2023/06/13 10:42:19

Мировые тренды работы с данными и лучшие практики построения хранилищ данных на базе российского ПО

Лидирующие позиции вендора на ИТ-рынке определяются не только технологическим совершенством портфеля продуктов, размером партнёрской сети и качеством техподдержки. Мировые ИТ-лидеры приучили наши компании к тому, что вендор является ещё и носителем технологической «философии», помогающей клиентам уверенно прокладывать курс эффективного развития в неспокойном море геополитических и рыночных вызовов. Именно в таком ключе прошла конференция «Большие данные большой страны», которую организовала компания Arenadata.

Содержание

Естественная среда обитания крупного российского бизнеса — мир больших данных и цифровой трансформации. В этом мире до недавних пор тон задавали международные лидеры: Oracle, Teradata, SAP, Cloudera, Pivotal. Программно-аппаратные решения этих вендоров считались незаменимыми в сегменте высокопроизводительных продуктов для крупных организаций даже в те времена, когда разговоры об импортозамещении в различных сферах российской экономики уже перешли в фазу требований регуляторов. Однако прошедший год убедительно показал: в этой сфере незаменимых вендоров нет. И даже сама тема импортозамещения, похоже, перешла в разряд воспоминаний о волнующих, но прошедших временах, уступив место более актуальной повестке цифрового развития нашей страны.

Это объясняет, почему тематика конференции Arenadata вызвала большой интерес у российских заказчиков. В мероприятии приняли участие свыше 1 200 представителей крупнейших российских организаций, включая ФНС России, «РЖД», «Лукойл», «Газпромбанк», X5 Group, «Промсвязьбанк», «Технониколь», «ПИК», «Альфа-Банк», «Русагро», «Норникель», «Дикси», «Северсталь», «Татнефть», «Комус», «Детский мир», «Ашан», ММК, ПСБ, «НЛМК», «Лента», «Росбанк», «Мегафон» и «Аэропорт Шереметьево».

Ключевой темой конференции стало обсуждение технологических трендов, по которым сегодня развивается международный и российский ИТ-рынки. В своём докладе на эту тему сооснователь и технический директор Arenadata Александр Ермаков рассказал о том, какие подходы к работе с данными сегодня актуальны для международного ИТ-рынка: движение к распределённым облачным системам; переход на эластичную среду, предоставление технологий и решений как сервиса, к бессерверным и in-memory-вычислениям, нереляционным СУБД и AI Cloud Service. Также Александр остановился на том, какие «боли» заказчиков российского рынка можно решить благодаря новым архитектурным и инфраструктурным концепциям.

Другой важной составляющей конференции стали доклады об опыте цифровизации в новых условиях, обзор кейсов мигрaции с западного ПО и построения хранилищ данных на базе российского стека от представителей компаний «Комус», «Ашан», ПСБ, X5 Group, ФНС, ММК и «Детский мир». Спикеры рассказали о том, с какими сложностями столкнулись в процессе реализации проектов и как их преодолевали; какие отечественные и Open source продукты выбрали для решения своих задач и какие ресурсы задействовали на пути к своей цели.

Технологические тренды на рынке работы с данными

Многолетний опыт информатизации предприятий в разных странах и секторах экономики однозначно говорит о том, что усиление цифровизации — это далеко не просто линейные процессы наращивания вычислительных ресурсов и ёмкости хранения данных. Речь идёт о принципиальных изменениях в архитектуре и принципах обработки больших данных. Отслеживание этих технологических трендов — хлеб ведущих исследовательских компаний вроде Gartner.

Image:2 Дорожная карта новых технологий.png
Дорожная карта новых технологий

В связи с этим Александр Ермаков приходит к парадоксальному (на первый взгляд) выводу: сегодняшние ИТ-лидеры — это вовсе не те компании, которые ушли с нашего рынка, а скорее те вендоры, которые позиционируют себя как Cloud Infrastructure или Cloud Platform. Причём полномасштабного перехода в облака пока не наблюдается нигде в мире, скорее мы видим различные гетерогенные конфигурации.Догнать и перегнать: Российские ВКС прирастают новыми функциями 8.9 т

Второй символ нового ИТ-мира — Data Mesh, концепция управления большими данными, подразумевающая переход от монолитной архитектуры хранения и преобразований данных с единым центральным хранилищем к децентрализованной гибкой архитектуре распределённых пайплайнов.

Если в исторической перспективе посмотреть на развитие технологий и подходов, увидим, что в течение многих лет компании в основном занимались построением классических DWH, с которыми всё понятно и просто. Позднее появились озёра данных, или Data Lake, где можно хранить любые данные, которые покажутся полезными. И как результат плохого управления Data Lake стали появляться болота данных, или Data Swamp, в которых разобраться, что было загружено и как это использовать, уже невозможно.

Для решения проблемы неупорядоченного роста данных и «болот данных» появилась концепция Data Governance. Она была призвана структурировать процессы, в том числе с помощью новой роли — Data Stewart’s (специалисты, отвечающие за правильную каталогизацию данных, соответствие таксономии и т. д.). Спустя какое-то время в компаниях стали появляться целые «океаны данных», или Data Ocean. Они представляют собой набор разрозненных структур хранения данных, предназначенных для обеспечения нужд разных подразделений организации.

Image:Arenadata-3-4.jpg
Экспоненциальный рост сложности процессов и ролей обработки данных

В ходе подобной эволюции на площадке клиента образуется тяжеловесная ИТ-инфраструктура, которая с большим трудом поддаётся не только масштабированию и обновлению, но даже рабочей эксплуатации. И «вишенка на торте» — сложнейшая реляционная модель корпоративных данных, для которой маппинг модели — если её визуализировать в виде бумажной распечатки — может занять целую стену. В свою очередь это приводит к возникновению большого количества команд, отвечающих каждая за своё направление.

Все вместе эти процессы постепенно заложили предпосылки для формирования новых подходов к архитектуре и инфраструктуре данных:

● Эластичная среда хранения и обработки данных

Image:5 Эластичная среда хранения и обработки данных.jpg
«
Под эластичной средой мы понимаем и частные облака, и публичные, и различные варианты on-prem-реализации механизмов виртуализации, и другие, которые позволяют гораздо более эффективно в автоматическом режиме расширять вычислительные ресурсы и ресурсы хранения данных, например с помощью гипервизоров и контейнеров хранения, — поясняет Александр Ермаков.
»

● Концепция Lakehouse

Этот термин объединяет в одном платформенном решении возможности как обработки слабоструктурированных нереляционных данных, свойственных Data Lake, так и транзакционные операции, свойственные классическому DataWareHouse.

● Предметно-ориентированный дизайн (Domain Driven Design) модели данных

Этот подход предполагает, что на смену устаревшей монолитной архитектуре приходит комплекс микросервисов данных. С точки зрения организации команд, работающих с данными, создаётся гибкая структура, в которой каждое подразделение отвечает за свой кусок данных, то есть за их подготовку к использованию в прикладных решениях, обновление и эксплуатацию.

«
Фактически это некий дата-продукт, который поддерживается одной командой, но может быть переиспользован другими командами, — поясняет Александр Ермаков. — А общее федеративное управление этими процессами обеспечивает платформенная команда. По сути, она работает внутри компании как некий дата-вендор, обеспечивающий предоставление дата-сервисов окружающим командам из разных доменов.
»

Этот подход подводит к концепции Data Mesh, когда мы разделяем монолитную архитектуру с точки зрения команд и с точки зрения подходов к работе. Появляются микросервисы данных, которые позволяют решить проблему централизации. С учётом этих новых трендов запланировано и дальнейшее развитие платформы Arenadata EDP, в основе которой будет лежать концепция Cloud Native.

Image:6 Концепция новой платформы Arenadata EDP.png
Концепция новой платформы Arenadata EDP

Она подразумевает:

  1. Разделение вычислений и хранения данных.
    Это очень важно, потому что система хранения по определению персистентная, то есть постоянно существующая инфраструктура, отказоустойчивая и масштабируемая. Вычислительная же часть должна быть максимально гибкой, способной адаптироваться к любым изменениям нагрузки или сценариев использования.
  2. Встроенные средства отказоустойчивости.
  3. Автоматизированный деплой: каждый вычислительный компонент «осознаёт себя», то есть понимает, какие действия необходимо предпринять.
  4. Средства автоматизированного масштабирования (auto scale out/down).
  5. Эффективные средства балансировки нагрузки.
  6. Встроенный Health Management.

Полную версию доклада можно посмотреть здесь >>

Практика: построение хранилищ данных на базе российского ПО

«Комус»: техническая миграция с Oracle в облако VK

О модернизации корпоративного хранилища данных «Комус» задумалась в 2020 году в связи с нарастающими проблемами с веб-аналитикой. На тот момент в компании работало хранилище SAP, а для веб-аналитики использовалось достаточное простое решение: содержимое виртуального журнала ClickStream.

Image:7 комус техническая миграция с Oracle в облако VK.jpg
«
С течением времени объём базы веб-аналитики превысил 9 Тб, и это решение нас совсем перестало устраивать, ведь у нас в планах было дальнейшее активное развитие аналитического функционала в сторону продвинутой аналитики, — рассказывает Павел Мартынов, руководитель службы развития аналитических решений департамента бизнес-технологий компании «Комус».

»

К тому времени, когда удалось получить бюджет на модернизацию, начались проблемы с поставками ИТ-оборудования, и тогда «Комус» взяла за основу облачный вариант Arenadata DB в VK Cloud. Миграцию требовалось провести очень быстро, поэтому выбрали вариант технической миграции, то есть не стали пересматривать тот подход к веб-аналитике, который был реализован в решении Oracle. В базе Oracle было создано около 100 таблиц для веб-аналитики, а над ней уже работает аналитическая система Tableau. Нужно было перенести всё в Arenadata DB таким образом, чтобы восемь юниверсов (логических наборов измерений и объектов, предназначенных для аналитической обработки) Tableau были основаны на данных из Arenadata DB. Приёмка завершённого проекта заключалась в сверке готовых витрин.

Image:8 Архитектура модернизированной аналитической системы компании «Комус».png
Рис. Архитектура модернизированной аналитической системы компании «Комус»

Проект, который выполнила компания Sapiens Solutions, начался в сентябре 2022 года и был завершён в марте 2023-го.

Image:9 Александр Стулов.jpg
«
В качестве ТЗ мы использовали Oracle-скрипт. Мы знали, что если будем изменять логику загрузки, то итоговые витрины могут оказаться разными, а этого нельзя было допустить, — рассказывает Александр Стулов, руководитель проекта компании Sapiens Solutions.
»

Пока в ИТ-ландшафте компании остаётся три хранилища данных: SAP BW (комплексная система бизнес-аналитики на платформе SAP), старое хранилище на базе Oracle, которое используется для стандартизованной корпоративной отчётности, и аналитическое хранилище данных (АХД) на базе Arenadata DB. По оценке Александра Стулова, успешной реализации проекта помогло использование ETL-фреймворка, который состоял из таблиц метаданных и автоматизированных функций, упрощающих загрузку данных: через описание метаданных и одну функцию f_load_simple удалось реализовать до 60 % загрузок данных. Со всеми процедурами справилась за четыре месяца команда численностью шесть-семь человек.

В результате компания получила новые возможности для развития продвинутой веб-аналитики в АХД на базе Arenadata DB. Витрины этого хранилища также предоставляют данные для команды аналитиков (80 дата-специалистов), использующих Jupyterhub. За счёт сжатия и поколоночного хранения в Arenadata DB удалось достичь существенной экономии в объёме хранилища: вместо 9 Тб, хранившихся ранее в Oracle, теперь 1,5 Тб. По оценке Павла Мартынова, наибольший вклад в стоимость старого решения вносили лицензионные платежи за функционал Oracle и регулярное наращивание количества жёстких дисков для хранилища на базе IBM, а Arenadata DB выходит на 20 % дешевле в перспективе нескольких лет.

Полную версию доклада можно посмотреть здесь >>

«Иннотех»: от компиляции данных и систем — к единой платформе данных

Один из крупнейших российских банков выбрал Arenadata в качестве целевой технологии для своего хранилища и озера данных ещё в 2019 году. Помимо импортозамещения, перед банком стояла ещё одна непростая задача — интеграция ИТ-активов, систем и данных, которые стали частью технологического ландшафта компании после череды крупных слияний.

Image:10 Владимир Громов.jpg
«
За объединением трёх крупных кредитно-финансовых организаций последовало слияние хранилищ этих банков. Плюс наше озеро данных, которое строилось на Oracle Big Data Appliance и развивалось достаточно успешно, — рассказывает Владимир Громов, директор дивизиона технологического развития платформы данных и отчётности группы «Иннотех» (холдинг «Т1»).
»

Ядром концептуальной архитектуры платформы данных стало единое хранилище (ЦЕХ, целевое единое хранилище) и «озеро данных» как платформа анализа и обработки данных (DAPP, Data Analysis and Processing Platform). Data Lake предназначено главным образом для задач ad-hoc-аналитики и продвинутой аналитики. По оценке Владимира Громова, понадобится ещё около полугода для того, чтобы завершить полноценную миграцию в целевое хранилище. Следующим шагом станет замена технологической платформы оперативного хранилища (ODS) как с точки зрения хранения, так и с точки зрения загрузки данных.

Особенностью этого проекта стало то, что одновременно с построением нового аналитического хранилища данных началась трансформация всего ИТ-ландшафта банка в рамках корпоративной стратегии цифровой трансформации: фронтальные решения создавались заново в новой микросервисной архитектуре с совершенно иной архитектурой данных, бэк-офисные системы унифицировались и мигрировали на единое решение от ЦФТ (центр финансовых технологий). В таких условиях оставаться в русле чисто технологической миграции не представлялось возможным.

Леонид Шумский, начальник управления департамента перспективных проектов компании «Дататех» (входит в холдинг «Т1») рассказал о технических деталях реализации этого проекта:

«
Центральное единое хранилище заменяет собой многие аналитические платформы, эксплуатируемые в банке, и в том числе является поставщиком для озера данных, где работают дата-сайентисты. Иными словами, нужно выгружать буквально все данные, которые есть. Второй важный момент — очень широкий интеграционный ландшафт. В банке используется свыше тысячи различных систем-источников, которые построены на базе разных архитектур. В разное время, в разных организациях, у всех — свои владельцы и своё видение того, как к ним надо обращаться и забирать данные.
»

Специально для решения этих проблем специалисты «Дататех» разработали ETL-фреймворк KORE.DWH — инструментарий загрузки данных в хранилище Arenadata DB. По сути, фреймворк KORE.DWH обеспечивает гибкую автоматизацию управления загрузками и построение распределённых транзакций загрузки.

Image:11 Леонид Шумский.jpg
«
Один из вариантов применения ETL-фреймворка при разработке хранилищ — это задача миграции со старой платформы на новую, — рассказывает Леонид Шумский. — Поскольку на входе уже есть структура данных в формате Excel, то по ним в DWH мы создаём шаблоны загрузки и подключаем для них расписание. Далее на новой платформе создаётся модель данных и выполняется загрузка данных.
»

«Ашан»: переход к единой модели данных распределённой компании в условиях мультиоблачности

Image:12 Вера Эмрот.jpg
«
Примерно полтора года назад мы поняли, что корпоративное хранилище, которое у нас было на тот момент, не отвечает необходимым техническим требованиям. Нужна MPP-платформа — гибкая и легко масштабируемая, — рассказывает Вера Эмрот, генеральный директор компании «Ашан Тех».
»

Огромные объёмы данных, которыми оперирует сеть «Ашан» в России, требования информационной безопасности и технологической нейтральности определили подходящего вендора — Arenadata.

Image:13 Структура данных российского сегмента торговой сети «Ашан».png
Структура данных российского сегмента торговой сети «Ашан»

Arenadata DB была развёрнута в двух облаках: клиентские данные хранятся в облаке VK Cloud, а коммерческие данные — в CROC Cloud. Кроме того, по-прежнему используется старое корпоративное хранилище on-premise — оно отвечает за визуализацию. Хранилище данных для клиентской аналитики «Ашана» помогала создавать компания Glowbyte.

Image:14 Юрий Власов.jpg
«
Особенностью проекта можно считать большое количество конечных потребителей данных, — отмечает Юрий Власов, директор по операционной деятельности компании Glowbyte. — К их числу можно отнести даже конечных клиентов, потому что они получают персонализированные скидки, личные предложения и т.д..
»

Интересный элемент данного проекта — единая модель данных, которая была синхронизирована по терминологии по всей группе компаний. На её базе создаются агрегаты данных и реализуется сущность «клиент», связанная с другими сущностями, характеризующими «клиента»: имя, его открытые персональные данные, сведения о любимых покупках, любимом магазине и т. д. Такого рода ключевые сущности хранятся в агрегированном состоянии, и обращение к таким витринам происходит гораздо быстрее, чем создание агрегата «на лету». Юрий Власов отдельно отмечает высококачественную реализацию технических мониторингов в программных продуктах Arenadata:

«
Они очень удобны. Примерно как Grafana, но уже встроены в ПО. Нам этого очень не хватало, когда раньше мы реализовывали решения на базе технологий Oracle. Например, можно использовать метрики бизнес-мониторинга, которые легко воспринимаются бизнес-сотрудниками. Скажем, вчера в витрине было 5 млн чеков, а сегодня — 4 млн. Это подразумевает ещё и более быструю реакцию на происшествия, сбои и все происходящие события.
»

Полную версию доклада можно посмотреть здесь >>

ПСБ: создание единого безопасного хранилища данных в «эпоху перемен»

Екатерина Варламова, директор департамента управления данными ПАО ПСБ, отметила, что мы живём в эпоху перемен и это отразилось на задаче обновления системы управления корпоративными данными и хранилищами банка.

Текущий объём хранилища клиентских данных российской сети «Ашан» составляет 10 Тб. В компании говорят, что возможности продуктов Arenadata позволяют выполнять все текущие задачи без каких-либо задержек на стороне потребителей. Это 5 млн чековых позиций ежедневно, 600 атрибутов, отражающих клиентское поведение по 8 млн клиентов, что даёт ежедневную обработку 500 млн строк для связки «клиент — товары». При этом в сети запускается приблизительно сотня маркетинговых кампаний в месяц. А после автоматизации целевого маркетинга эта цифра увеличится до 200–300. Но на производительности системы это не скажется существенно, ведь, как рассказывают в торговой сети, обращения идут к конкретным, предварительно рассчитанным сегментам, которые актуальны на текущий день.

Image:15 Екатерина Варламова.jpg
«
Внутренние факторы, стимулирующие преобразования, были подобны тем, что действовали в любом крупном банке: децентрализация хранилищ, сложные запутанные процессы управления данными, большое количество различных систем и процессов интеграции данных, недостаточный уровень управления качеством данных, — поясняет она. — В период 2020–2022 годов несколько раз очень значимо менялся контекст внешней среды, что неизменно сказывалось на сроках, приоритетах и объёмах задач как самого проекта, так и программы управления данными в целом.
»

Действительно, помимо потрясения, связанного со срочным переходом на дистанционные каналы связи во время пандемии коронавируса, ПСБ активно расширял филиальную сеть и участвовал в процессах слияний и поглощений, включая открытие банковских отделений в Крыму, Севастополе, ЛНР и ДНР. Санкции и рост числа кибератак на банк привели к ужесточению требований департамента ИБ к архитектуре систем и ПО, в частности запрету на использование любых компонент и библиотек, выпущенных после 24.02.2022 г. У нас хранятся не просто персональные данные граждан, а данные оборонно-промышленного комплекса, данные гособоронзаказа. Работа с этими данными является мегачувствительной», — поясняет Екатерина Варламова. Плюс к этому ПСБ активно развивал новые небанковские сервисы: гостиницы, стройки, учебные платформы, маркетплейсы и пр.

Целевая архитектура управления данными ориентирована на централизацию: самого хранилища, хранения холодных данных (озеро Big Data), процессов извлечения и доставки данных и работы с внешними данными. Ряд элементов целевой системы в 2020 году либо находились на начальной стадии становления (например, управление мастер-данными), либо вообще отсутствовали, но были жизненно необходимыми, как, например, управление мастер-справочниками, каталогизация данных, системы управления качеством данных.

Банк провёл сравнительное тестирование СУБД кандидатов на роль технологической платформы для единого централизованного хранилища данных: Oracle Database, MS SQL Server, Arenadata DB и Postgres Pro. Архитектурно-технологический комитет банка в 2021 году утвердил продукты Arenadata в качестве технологического стандарта для разработки ЕХД и задач Big Data.

Image:16_ИТ-архитектура_банка_ПСБ-_2020_vs_2023_год.png
ИТ-архитектура банка ПСБ: 2020 vs 2023 год

В настоящее время система находится на стадии опытной эксплуатации. Её ключевыми элементами являются:

  • аналитическое хранилище ЕХД, ядром которого является Arenadata DB;
  • озеро данных на базе Arenadata Hadoop. «ПСБ Data collector» — собственная разработка, которая обеспечивает централизованную интеграцию данных из приёмников и их передачу непосредственно в контур хранилища;
  • модель мониторинга качества данных — ещё одна собственная разработка банка, которая включает как технические, так и бизнес-проверки.

«
Мы в начале пути, и путь наш непростой, — говорит Екатерина Варламова. — Наши текущие задачи связаны с миграцией большого объёма задач и данных из legacy-систем в новое ядро системы управления данными.
»

Но уже сегодня аналитики банка отмечают, что использование расширенных массивов данных (как внутренних, так и внешних) позволяет решать аналитические задачи более эффективно, а моделирование данных — строить прогнозы как в направлениях управления клиентским опытом, так и повышения производительности и гибкости работы в цифровых каналах.

Полную версию доклада можно посмотреть здесь >>

X5 Group: спасение аналитики на сотнях терабайтов данных

Для X5 Group проект модернизации корпоративного хранилища данных также окрашен алармистскими красками. К началу 2022 года в компании было два хранилища данных. Большая часть аналитической нагрузки приходилась на хранилище SAP BW.

«
Хранилище строилось достаточно давно и играло ключевую роль в подготовке регуляторной отчётности, закрытии финансового периода, — рассказывает Павел Денисенко, руководитель управления архитектуры данных CDO X5 Group.
»

Несколько лет назад была запущена целевая платформа по работе с данными, состоящая из озера данных на Hadoop, хранилища данных на Arenadata DB и набора BI-инструментов для доставки данных пользователям.

Image:17 Платформа работы с данными X5 Group.png
Платформа работы с данными X5 Group

Хранилище SAP BW располагалось в облаке SAP HEC. Весной 2022 года возникла необходимость в кратчайшие сроки вынести данные из HEC на свои серверы, в свой ЦОД.

Image:18 Павел Денисенко.jpg
«
Появилась поговорка: "Раньше мы покупали серверы, а теперь мы их добываем", — рассказывает Павел Денисенко. — Но оперативно добыть железо такого уровня, которое смогло бы принять нашу сборку BW — самую крупную в Европе, — было невозможно.

»

Решение проблемы включало две крупные задачи. Первая — буквальное спасение mission-critical задач, решаемых в BW с помощью миграции на другое железо и ПО. Вторая — перенос в целевую платформу хранилища данных остальной нагрузки: операционных отчётов, с которыми категорийные менеджеры работают каждый день, регламентной управленческой аналитической отчётности, а также продуктов аналитики больших данных (сборки, аналитические модели, работающие, в том числе, на данных BW).

Целевая платформа, основанная на кластере Arenadata DB, стабильно работала.

«
Его уже несколько раз расширяли, ведь Arenadata DB поддерживает горизонтальное масштабирование, и несколько раз проводили оптимизацию, — говорит Павел Денисенко. — Мы с коллегами из Arenadata очень плотно поработали в плане проведения аудита и достигли хорошего уровня SLA.
»

Для данных в этом хранилище разработали устойчивую модель, которая к моменту санкционных потрясений была достаточно зрелой и поддерживала все ключевые сущности: чеки, остатки, продажи, справочники и т. д. К тому же в компании уже действовала проработанная система BI-решений и отдельный портал по работе с данными. По оценке Павла Денисенко, без этого в столь сжатые сроки вряд ли удалось бы перевести в новую систему такое большое количество пользователей.

Уровень сложности задачи миграции он оценивает как максимально высокий: свыше 1 000 отчётов, более 10 000 пользователей, суммарный объём данных в хранилище после выполнения миграции с SAP BW достигал 300 Тб.

Таким образом, в X5 Group были созданы 54 новые витрины данных в EDW (ключевое требование — «как в BW»), обеспечена выгрузка данных в Qlik Sense для управленческой аналитики и в Hadoop — для продуктов Big Data. Была запущена новая система рассылок по технологии nPrinting и внедрены инструменты self-service-аналитики. Был внедрён кластер ClickHouse. Это значительно повысило для пользователей уровень доступности данных на платформе, что помогло взять стратегический курс на освоение новых технологий.

Полную версию доклада можно посмотреть здесь >>

ФНС России: единая интеграционно-аналитическая платформа ведомства на базе Arenadata

Архитектура новой единой интеграционно-аналитической платформы ФНС России (ЕИАП) создавалась на основе анализа требований ФНС к сбору, хранению и анализу данных.

Image:19 Игорь Баранчиков.jpg

Как рассказывает Игорь Баранчиков, начальник управления аналитических систем АО «ГНИВЦ» (ФНС), было решено, что основой платформы станет озеро данных с соответствующим набором слоёв данных, функционирующее на базе продукта Arenadata Hadoop. В числе других ключевых архитектурных элементов — блоки «Управление метаданными», «ETL-инструментарий» и «Хранение данных».

Платформа поддерживает широкий набор источников данных и информационных ресурсов. Для её создания был использован целый ряд продуктов: Arenadata Hadoop, Arenadata Streaming, Arenadata DB, Arenadata QuickMarts и программный продукт компании-партнёра Arenadata — Picodata.

После ввода ЕИАП в промышленную эксплуатацию объём сырых данных составил более 6 Пб. С ними ежедневно работает больше 20 тыс. активных ETL-задач. Более 50 проектов являются как потребителями, так и источниками данных.

Image:20 Архитектура ЕИАП.png
Архитектура ЕИАП

Чуть больше 10 лет назад Федеральная налоговая служба России приступила к проектированию аналитического сегмента ФНС, и с тех пор основную программную платформу управления данными всех аналитических задач составляло ПО компании Teradata.

Чуть больше 10 лет назад Федеральная налоговая служба России приступила к проектированию аналитического сегмента ФНС, и с тех пор основную программную платформу управления данными всех аналитических задач составляло ПО компании Teradata.

«
На момент решения вопроса об импортозамещении в ЦОДах ФНС России функционировало несколько машин баз данных Teradata различной конфигурации, которые обеспечивали работу пользователей на различных контурах АИС «Налог-3», — рассказывает Ольга Либина, замдиректора департамента аналитических систем и валютного контроля АО «ГНИВЦ» в системе ФНС.
»

Задача полного перепроектирования и модернизации аналитического сегмента данных возникла в связи с несколькими предпосылками: устаревание оборудования, значительно ускорившийся рост данных, практически полная утилизация возможностей использования ресурсов машин баз данных, а также запрет регулятора на дальнейшее обновление систем Teradata.

«
Основной целью модернизации был полный отказ от закупки, обновления и сопровождения импортного ПО серверов для аналитической деятельности, — подчёркивает Ольга Либина.
»

В рамках реализации проекта предстояло перенести из систем Teradata в новое хранилище 30 приложений аналитических задач, около 50 форм статистической налоговой отчётности, свыше 48 тыс. объектов (таблицы, представления, хранимые процедуры, ETL-потоки) — всего приблизительно 95 Тб данных, размещённых на двух программно-аппаратных комплексах объёмом 66,0 и 28,67 Тб. С архитектурной точки зрения было принято решение разделить процедуры работы с данными на подпроцессы и использовать разные технологии. Так, источники для аналитических задач и сами данные были переведены на озеро данных, а часть расчётов и пользовательская нагрузка — на Areanadata DB. Это позволило, по оценкам специалистов «ГНИВЦ», кратно увеличить производительность конечных процессов и сократить количество информации, хранимой в СУБД.

Вначале была произведена миграция на ПО Arenadata ресурсоёмких задач, что позволило снять высокую нагрузку с текущего промышленного контура, где продолжали функционировать машины баз данных Teradata, и обеспечить оптимальную работу до завершения процессов миграции. На следующем этапе миграции на продукты Arenadata перешли блоки сложнозависимых и взаимоувязанных задач в части данных и процессов.

Процесс импортозамещения продолжается. В настоящий момент идут работы по замещению Oracle Exadata, и скоро эта система перестанет быть источником данных для аналитической платформы. Новая архитектура, основанная на российских продуктах, станет основой для АИС «Налог-4».

Полную версию доклада можно посмотреть здесь >>

ММК: как построить хранилище данных в организации с очень сложным ИТ-ландшафтом

Идея создания единого корпоративного хранилища данных возникла в ИТ-подразделении ММК ещё в 2018 году. Уже тогда стало понятно, что сотрудники тратят неоправданно много сил на то, чтобы из большого количества разрозненных систем — порядка 20 баз данных и 12 цехов — собирать данные для различной отчётности. При этом отчёты сильно нагружали ИТ-системы, которые были предназначены в первую очередь для оперативного учёта, и аналитическая нагрузка сильно мешала их работе.

Image:22 Дмитрий Ганаев.jpg

Потребность в едином хранилище данных стала очевидной, рассказывает Дмитрий Ганаев, начальник офиса управления данными ММК:

«
Нашей целью было создание чисто инженерного решения: собрать данные в одно место, снять нагрузку с оперативных систем и предоставить пользователям возможности анализа объединённых данных.
»

Поскольку крупная производственная компания ММК имеет весьма сложный ИТ-ландшафт и опыт разработки общего корпоративного хранилища отсутствовал, было решено начать проект с создания прототипа (MVP) для практической проверки основных технических решений.

Image:23 Антон Коваленко.jpg

Это разумный подход, отмечает Антон Коваленко, директор по продажам направления «Промышленность» компании Arenadata:

«
Коллеги получили хорошие результаты на нескольких бизнес-кейсах, и дальше последовало тиражирование на всю компанию. Таким образом, усложнение проекта происходило постепенно, и к этапу промышленной эксплуатации ММК пришёл с согласованной архитектурой хранилища. На этой базе уже начинается органический рост проекта, экспоненциальный рост количества пользователей и объёмов данных. В это же время пришло понимание того, что вместе с развитием хранилища нужно развивать и направление Data Governance, чтобы накопленные данные становились удобным и быстрым инструментом для анализа.
»

Для пилотного проекта было выбрано пять систем-источников, разработан и внедрён ETL-фреймворк, который существенно облегчал подготовку и загрузку данных в прототип будущего хранилища. Оно было создано на базе Arenadata DB: все слои хранения данных были реализованы внутри одной СУБД, включая слой Data Marts, рассказывают исполнители проекта.

Image:24 Архитектура пилотного проекта ММК.png
Архитектура пилотного проекта ММК

Дмитрий Ганаев вспоминает, что на этапе MVP комбинат поставил вендору практически немыслимые бизнес-условия: требовалось, чтобы данные, которые были загружены в хранилище, и данные, хранящиеся в оперативных системах, но ещё не выгруженные в DWH, могли объединиться в некотором отчёте.

«
Нам казалась фантастикой возможность объединить данные и создать одну таблицу, у которой одна партиция будет смотреть в оперативную систему, вторая — в систему аналитики, а третья, например, в архив Hadoop, — рассказывает он. — Но пилотный проект убедил нас: это возможно!
»

Кроме того, для витрин, которые рассчитывались на системах-источниках, как обычно, по ночам, выбрали самые высоконагруженные аналитические задачи и реализовали их на Arenadata DB, для того чтобы в целевой системе перенести эту нагрузку на хранилище.

В целевой архитектуре ММК ETL-фреймворк и загрузка данных реализованы с помощью Arenadata Streaming, а решение Arenadata Hadoop используется в первую очередь для работы модулей расчёта производственных показателей. В ближайших планах — решение задач предиктивной аналитики. Специалисты ММК думают о добавлении в текущий стек Arenadata QuickMarts для выноса витрин данных в этот продукт и присматриваются к решению Arenadata Catalog для решения задач Data Governance.

Цели, поставленные на старте проекта, достигнуты, констатирует Дмитрий Ганаев. Так, значительно упростился доступ аналитиков к данным: их теперь можно предоставлять, не выгружая в хранилище, сразу из нужной ИТ-системы с помощью расширения PXF. В целевую систему КХД переносится тяжёлая аналитика из производственных цеховых MES-систем, функционируют модули по очистке и подготовке данных для математического моделирования процессов. Развиваются системы BI-аналитики, с помощью которых построен действующий корпоративный аналитический портал. С экономической точки зрения компания ММК уже видит эффект экономии за счёт сокращения времени на настройку загрузки данных, уменьшения затрат на развитие аналитической системы, упрощения процессов администрирования загрузки данных.

Полную версию доклада можно посмотреть здесь >>

«Детский мир»: миграция функционала SAP HANA с экономией ресурсов

«Детский мир», как и многие другие компании, активно занимающиеся цифровизацией бизнеса, на определённой стадии этого процесса столкнулась с проблемой: в начале 2022 года анализ темпов наращивания данных показал, что к концу 2023 года не останется места на жёстких дисках корпоративного хранилища SAP BW и это грозит остановкой хранилища.

«
Анализ возможных альтернатив показал, что наилучшим решением для переноса аналитического хранилища является Arenadata DB. Эта СУБД позволяет не только решить проблемы, связанные с ростом объёмов данных, но ещё и ускорить расчёты, что напрямую влияет на скорость закрытия операций, — рассказывает Илья Дьяков, начальник отдела развития аналитической отчётности компании «Детский мир».
»

Одновременно был выбран подрядчик — компания Sapiens Solutions, которая предложила свой подход к миграции хранилища.

Image:26 . Схема гибридной миграции.png
Схема гибридной миграции

Этот гибридный подход предполагает поэтапную миграцию, что соответствовало задачам «Детского мира» — как можно быстрее разгрузить хранилище на базе SAP HANA, пока окончательно не исчерпаны ресурсы хранилища. На практике это означает, что в ландшафт КХД добавляется MPP-СУБД Arenadata DB и осуществляется пошаговая миграция.

Image:27_Антон_Гельмут.jpg
«
Таким образом, тяжесть ядра КХД инкрементально смещается в сторону Arenadata DB, — говорит Антон Гельмут, архитектор Sapiens Solutions.
»

По словам Ильи Дьякова, сейчас «Детский мир» находится на втором этапе миграции: настроено взаимодействие между базами данных, идёт тестовая выгрузка исторических данных. Планируется вынести весь расчёт функционала и витрин данных в Arenadata DB.

Как рассказывает Антон Гельмут, для практической реализации гибридной миграции был разработан фреймворк, который обеспечивает четыре основные функции:

  • генерация DDL для автоматизированного переноса объектов хранилища;
  • генерация дагов (DAG — сущность, описывающая пайплайн в ПО оркестрации обработки больших данных Airflow) и ETL-процессов по значениям настроечной таблицы;
  • решение проблемы «узкого горлышка» при загрузке данных в кластер ADB (Greenplum);
  • организация инкрементальной загрузки данных.

Полную версию доклада можно посмотреть здесь >>

Arenadata сегодня

Внимание ключевых предприятий основных отраслей экономики страны к компании, рыночная история которой началась чуть больше шести лет назад, вполне объяснимо. Во-первых, правильный выбор ниши для вывода на рынок нового решения — создание на базе открытого кода корпоративной платформы сбора, обработки и хранения данных, удовлетворяющей высоким требованием enterprise-сегмента. Arenadata — активный участник Open Source сообщества, который вносит существенный вклад в развитие сразу нескольких проектов. Например, по количеству коммитов в Greenplum компания является активным контрибьютором в России.

Во-вторых, Arenadata выводила свои продукты на рынок в условиях высокой технологической конкуренции с крупнейшими западными вендорами — Oracle, Teradata, Vertica, SAP, IBM, Cloudera, Pivotal и др.

Image:28 Сергей Золотарёв.jpg

Как отметил основатель Arenadata и директор по стратегическому развитию Сергей Золотарёв:

«
Эта сложная конкурентная среда нас закалила и позволила создать продукт, способный соперничать с лучшими решениями международных технологических гигантов.
»

В прошлом году зрелость продуктов Arenadata стала для многих компаний решающим фактором, когда крупные российские заказчики, рассматривавшие ранее Vertica или Oracle Exadata, развернулись в сторону Arenadata EDP. Сергей Золотарёв рассказал, что опыт замены корпоративных хранилищ, построенных на Teradata, оказался настолько удачным, что, по его оценкам, сегодня почти половина таких DWH в нашей стране уже мигрирует на продукты Arenadata. Символично, что конференция компании прошла в здании, которое раньше выполняло роль центра цифровой трансформации SAP, ведь популярные на российском рынке решения SAP — SAP BW / SAP HANA — сегодня тоже замещаются программными продуктами Arenadata.

Генеральный директор Arenadata Максим Пустовой подчеркнул, что в России объективно мало кто разбирается в Open Source технологиях, на которых построены продукты Arenadata, так же глубоко и имеет такой же авторитет в международном Open Source сообществе, как специалисты Arenadata.

Image:29 Максим Пустовой.jpg
«
Неудивительно, что прошлый год оказался для нас просто феноменальным с точки зрения роста бизнеса, количества клиентов и узнаваемости бренда. К моменту ухода западных вендоров у Arenadata уже были и отличная репутация, и портфель зрелых проверенных продуктов, и большое портфолио реализованных проектов, — рассказал Максим Пустовой.
»

Третья причина популярности Arenadata на российском рынке — то, что компания изначально не просто создавала продукт, а сразу строила экосистему сервисов на его базе: обеспечила качественную техническую поддержку, создала собственный учебный центр, развивала консалтинговые сервисы, строила разветвлённую партнёрскую сеть и продолжала активно взаимодействовать с Open Source сообществом.