SDP Greenplum

Продукт
Название базовой системы (платформы): VMware Tanzu Greenplum
Разработчики: Сбербанк
Отрасли: Финансовые услуги, инвестиции и аудит
Технологии: СУБД

2022: Сбер строит «уникальную в мировом масштабе» big-data-инфраструктуру на СУБД Greenplum

Сбер создаёт команду для разработки продукта, построенного на базе СУБД Greenplum. Перед разработчиками стоят амбициозные цели – «построить уникальную в мировом масштабе инфраструктуру по хранению и обработке данных» на базе этой СУБД, заявлено в описании вакансий под этот проект на рекрутирговом портале HH[1].

Команда решает задачи интеграции СУБД Greenplum с сервисами корпоративной аналитической платформы Сбера, построения инфраструктуры хранения для самого большого в России хранилища данных с использованием технологии Greenplum. Помимо этого, перед командой стоит «амбициозная задача по разработке собственной сборки СУБД с использованием Open Source решений», сказано в том же источнике.

«
Наша команда ведёт разработки собственных сборок СУБД с использованием различных Open Source решений, в том числе Greenplum. Отличительная особенность нашей сборки SDP Greenplum - это возможность обработки огромных массивов данных объёмом более 1 ПБ одновременно большим количеством пользователей, - заявили TAdviser в Сбере.
»

В Сбере ведутся разработки собственных сборок СУБД с использованием различных Open Source решений (фото - Виталий Белоусов/РИА «Новости»)

СУБД Greenplum – это быстро развивающийся продукт в классе MPP (массово параллельных систем) с открытым исходным кодом. В основе архитектуры Greenplum лежит ядро PostgreSQL, но ключевая задача Greenplum – это работа с аналитической нагрузкой, в то время как PostgreSQL – это вертикально масштабируемая СУБД, «заточенная» преимущественно под онлайн-транзакции.

Направлением Greenplum в Сбере занимается команда Дмитрия Доброва, главного эксперта по технологиям департамента управления данными (SberData). В SberData создают централизованное хранилище данных всего Сбера: это более 350 источников данных и 100+ ПБ информации. Метавселенная ВДНХ 3.4 т

Добров ранее в этом году рассказывал на вебинаре[2], что в области хранения данных, в частности, в Сбере используются три основных технологии – Hadoop, PostgreSQL и Greenplum. В банке разрабатываются собственные сборки на базе каждой из них. На базе собственного форка PostgreSQL в Сбере уже построено много решений. Есть также SDP Hadoop – собственная сборка фреймворка Hadoop для решения задач обработки, хранения и анализа больших объемов данных.

Как пояснял Добров, SberData на базе открытых исходников создает свой корпоративный продукт Greenplum, добавляя надёжности, делая его более управляемым.

«
Один из минусов Open Source – он обычно хорошо работает в ядровой составляющей, а дальше всё держится на энтузиастах, которые его берут и начинают «прикручивать» какие-то фишки для мониторинга, для надёжного, доступного решения, для бэкапирования. Здесь наша роль. Мы берём Greenplum и начинаем его дорабатывать, строим экосистему вокруг него, - рассказывал главный эксперт по технологиям департамента управления данными Сбера.
»

Это и система управления, и система безопасности – очень важная для Сбера часть, система бэкапирования, disaster recovery.

Также, например, команда SberData работает над многопоточностью, поскольку Greenplum – это кластерное решение. По словам Доброва, за счёт распределённой структуры задачи дата-сайентистов решаются очень быстро, анализ моделей на Greenplum происходит за короткое время за счёт того, что работа с данными происходит фактически там, где они лежат.

Самым интересным в Greenplum Добров называет аналитический AdHoc, позволяющий аналитику, знающему SQL, но не обладающему знанием «фишек» в области матанализа, дата-сайенс и каких-то моделей, быстро получать результаты на больших объёмах структурированных данных. Например, быстро сделать отчёт или какой-то вывод. Таким образом, можно принимать решения на базе простой операции на больших объёмах данных.

Примечания



СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  SAP CIS (САП СНГ) (38)
  Softline (Софтлайн) (35)
  РДТЕХ (33)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (28)
  ФОРС - Центр разработки (25)
  Другие (729)

  Сапиенс солюшнс (Sapiens solutions) (7)
  Navicon (Навикон) (3)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (3)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (2)
  IFellow (АйФэлл) (2)
  Другие (35)

  РДТЕХ (1)
  IBS (1)
  Ред Софт (Red Soft) (1)
  InnoSTage (Инностейдж) (1)
  Сбербанк-Технологии (СберТех) (1)
  Другие (20)

  Arenadata (Аренадата Софтвер) (5)
  Тантор Лабс (Tantor Labs) (3)
  ФОРС - Центр разработки (2)
  Ред Софт (Red Soft) (1)
  Digital Design (Диджитал Дизайн) (1)
  Другие (18)

  Arenadata (Аренадата Софтвер) (5)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (2)
  GMCS (1)
  ISimpleLab (АйСимплЛаб) (1)
  RDV (РДВ Автоматизация) (1)
  Другие (13)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Oracle (44, 179)
  SAP SE (6, 177)
  Microsoft (23, 142)
  PostgreSQL Global Development Group (14, 125)
  Постгрес профессиональный (ППГ, Postgres Professional) (6, 40)
  Другие (263, 242)

  SAP SE (3, 11)
  Microsoft (3, 11)
  PostgreSQL Global Development Group (3, 10)
  Oracle (2, 4)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 3)
  Другие (10, 13)

  PostgreSQL Global Development Group (4, 9)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 6)
  VK Tech (ранее VK Цифровые технологии, ВК Цифровые технологии и Mail.ru Цифровые технологии) (2, 3)
  Arenadata (Аренадата Софтвер) (3, 2)
  Apache Software Foundation (ASF) (2, 2)
  Другие (9, 9)

  PostgreSQL Global Development Group (3, 13)
  Постгрес профессиональный (ППГ, Postgres Professional) (1, 6)
  Arenadata (Аренадата Софтвер) (3, 5)
  Apache Software Foundation (ASF) (3, 4)
  Тантор Лабс (Tantor Labs) (2, 3)
  Другие (8, 10)

  PostgreSQL Global Development Group (4, 10)
  Arenadata (Аренадата Софтвер) (3, 6)
  VMware (2, 6)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 5)
  Сбербанк-Технологии (СберТех) (2, 2)
  Другие (4, 6)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Oracle Database - 106
  Microsoft SQL Server - 104
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 102
  PostgreSQL СУБД - 79
  SAP HANA (High Performance Analytic Appliance) - 72
  Другие 374

  Microsoft SQL Server - 9
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8
  PostgreSQL СУБД - 7
  Oracle Database - 3
  SAP HANA (High Performance Analytic Appliance) - 3
  Другие 21

  Postgres Pro СУБД - 5
  ADB - Arenadata DB - 2
  PostgreSQL СУБД - 2
  Oracle Database - 2
  Tarantool Платформа in‑memory вычислений - 2
  Другие 13

  Postgres Pro СУБД - 6
  PostgreSQL СУБД - 4
  Tantor СУБД - 3
  ADB - Arenadata DB - 3
  Apache Kafka - 2
  Другие 10

  ADB - Arenadata DB - 5
  PostgreSQL СУБД - 4
  Postgres Pro СУБД - 3
  ADH - Arenadata Hadoop - 2
  Сбер Platform V Pangolin - 2
  Другие 8