«Магнит» создаст для «Дикси» новое импортозамещённое хранилище данных на фоне активного роста сети магазинов
| Заказчики: Дикси Второй продукт: Apache Spark Третий продукт: Проекты СХД Дата проекта: 2025/09
|
Технология: Средства разработки приложений
Технология: Центры обработки данных - технологии для ЦОД
|
Как выяснил TAdviser, для сети магазинов «Дикси» создадут корпоративное хранилище данных (Data Warehouse, DWH) 2.0. Это следует из соответствующего запроса предложений, опубликованного на одной из тендерных площадок в августе 2025 года. Разместил его ритейлер «Магнит», в контур которого входит «Дикси».
Корпоративное хранилище данных — централизованная информационная система, обеспечивающая хранение, интеграцию и консолидацию данных из различных источников для поддержки принятия управленческих решений. Она представляет собой единый достоверный источник данных для бизнес-анализа и отчётности.
Из опубликованного к тендеру технического задания следует, что на момент проведения запроса предложений в качестве существующей платформы данных «Дикси» эксплуатирует решение в on-premise с использованием технологий MSSQL Server, PowerShell и SQL Server Agent. Планируется создание нового «отказоустойчивого, импортонезависимого, масштабируемого решения, позволяющего решать задачи по загрузке данных, их обработке и использованию, а также контролю качества данных».
Новая платформа должна базироваться на инфраструктуре, размещенной либо в облаке, предпочтительно от «Яндекса» или Сбера, либо в on-premise с использованием open source и/или решений, входящих в реестр российского ПО, уточняется в техническом задании.
Система должна быть реализована с использованием lakehouse-архитектуры — гибридной архитектуры, сочетающей возможности Data Lake и DWH (например, Apache Iceberg + Apache Spark). При этом от исполнителя ожидается оказание услуг по разработке, вводу в эксплуатацию и документированию фреймворков по загрузке данных в DWH и выгрузке во вспомогательные базы данных для построения кубов в SQL Server Analysis Services при наличии таковых баз данных.
При выборе технологий необходимо учитывать ключевые требования к системе, которые включают: поддержку пакетного и потокового режимов загрузки данных, наличие механизмов автоматического масштабирования под пиковые нагрузки, наличие инструментов для управления и разграничения ресурсов для различных групп пользователей.Российский рынок WMS-систем: оценки, тренды и крупнейшие поставщики. Обзор TAdviser
Подсистема хранения данных должна обеспечивать возможность размещения данных различных типов (структурированные, слабоструктурированные, неструктурированные) с организацией метаданных, позволяющих проводить организацию и быстрый поиск информации в больших массивах. Для обработки структурированных данных она должна иметь инструменты оптимизации запросов, позволяющих соединять большие таблицы — свыше 100 000 000 записей — без ощутимой деградации производительности.
Текущий объём сырых данных в «Дикси» составляет 120 ТБ, следует из технического задания. И объёмы данных постоянно растут: в компании ожидают, что на горизонте трёх лет объём сырых данных будет составлять до 250 ТБ. Одним из основных бизнес-драйверов роста данных в «Дикси» служит открытие порядка 300-500 новых торговых точек в 2025 году. На момент проведения закупки оно составляет порядка 2,4 тыс.
Другими драйверами служат: потребность от подразделений на загрузку данных в DWH — прежде всего, e-com; построение объектов в песочнице — в частности, маркетинг; планы по хранению слабоструктурированных данных в DWH.
Магазины у дома «Дикси», напомним, это одна из крупнейших розничных сетей продуктового формата «у дома» в России. По состоянию на конец 2024 года «Дикси» насчитывала 2 363 точки, согласно годовому отчёту «Магнита». После приобретения сети в 2021 году «Магнит» продолжил развивать этот бренд. В 2024 году был проведён редизайн 344 объектов, в течение года было открыто 155 новых магазинов, в том числе один даркстор, а также улучшена модель их работы.
