Название базовой системы (платформы): | VMware Tanzu Greenplum |
Разработчики: | Сбербанк |
Отрасли: | Финансовые услуги, инвестиции и аудит |
Технологии: | СУБД |
2022: Сбер строит «уникальную в мировом масштабе» big-data-инфраструктуру на СУБД Greenplum
Сбер создаёт команду для разработки продукта, построенного на базе СУБД Greenplum. Перед разработчиками стоят амбициозные цели – «построить уникальную в мировом масштабе инфраструктуру по хранению и обработке данных» на базе этой СУБД, заявлено в описании вакансий под этот проект на рекрутирговом портале HH[1].
Команда решает задачи интеграции СУБД Greenplum с сервисами корпоративной аналитической платформы Сбера, построения инфраструктуры хранения для самого большого в России хранилища данных с использованием технологии Greenplum. Помимо этого, перед командой стоит «амбициозная задача по разработке собственной сборки СУБД с использованием Open Source решений», сказано в том же источнике.
![]() | Наша команда ведёт разработки собственных сборок СУБД с использованием различных Open Source решений, в том числе Greenplum. Отличительная особенность нашей сборки SDP Greenplum - это возможность обработки огромных массивов данных объёмом более 1 ПБ одновременно большим количеством пользователей, - заявили TAdviser в Сбере. | ![]() |
СУБД Greenplum – это быстро развивающийся продукт в классе MPP (массово параллельных систем) с открытым исходным кодом. В основе архитектуры Greenplum лежит ядро PostgreSQL, но ключевая задача Greenplum – это работа с аналитической нагрузкой, в то время как PostgreSQL – это вертикально масштабируемая СУБД, «заточенная» преимущественно под онлайн-транзакции.
Направлением Greenplum в Сбере занимается команда Дмитрия Доброва, главного эксперта по технологиям департамента управления данными (SberData). В SberData создают централизованное хранилище данных всего Сбера: это более 350 источников данных и 100+ ПБ информации. Российский рынок цифровизации телекома: ключевые тренды и ИТ-поставщики. Обзор TAdviser
Добров ранее в этом году рассказывал на вебинаре[2], что в области хранения данных, в частности, в Сбере используются три основных технологии – Hadoop, PostgreSQL и Greenplum. В банке разрабатываются собственные сборки на базе каждой из них. На базе собственного форка PostgreSQL в Сбере уже построено много решений. Есть также SDP Hadoop – собственная сборка фреймворка Hadoop для решения задач обработки, хранения и анализа больших объемов данных.
Как пояснял Добров, SberData на базе открытых исходников создает свой корпоративный продукт Greenplum, добавляя надёжности, делая его более управляемым.
![]() | Один из минусов Open Source – он обычно хорошо работает в ядровой составляющей, а дальше всё держится на энтузиастах, которые его берут и начинают «прикручивать» какие-то фишки для мониторинга, для надёжного, доступного решения, для бэкапирования. Здесь наша роль. Мы берём Greenplum и начинаем его дорабатывать, строим экосистему вокруг него, - рассказывал главный эксперт по технологиям департамента управления данными Сбера. | ![]() |
Это и система управления, и система безопасности – очень важная для Сбера часть, система бэкапирования, disaster recovery.
Также, например, команда SberData работает над многопоточностью, поскольку Greenplum – это кластерное решение. По словам Доброва, за счёт распределённой структуры задачи дата-сайентистов решаются очень быстро, анализ моделей на Greenplum происходит за короткое время за счёт того, что работа с данными происходит фактически там, где они лежат.
Самым интересным в Greenplum Добров называет аналитический AdHoc, позволяющий аналитику, знающему SQL, но не обладающему знанием «фишек» в области матанализа, дата-сайенс и каких-то моделей, быстро получать результаты на больших объёмах структурированных данных. Например, быстро сделать отчёт или какой-то вывод. Таким образом, можно принимать решения на базе простой операции на больших объёмах данных.
Примечания
Подрядчики-лидеры по количеству проектов
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение систем по количеству проектов, не включая партнерские решения
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)