VMware Tanzu Greenplum

Продукт
Название базовой системы (платформы): PostgreSQL СУБД
Разработчики: VMware
Дата премьеры системы: 2005
Дата последнего релиза: 2015/10/28
Технологии: BI,  СУБД

Содержание

Основная статья: Система управления базами данных (СУБД)

База данных Greenplum представляет собой сервер базы данны с массивной параллельной обработкой (MPP) с архитектурой, специально разработанной для управления крупномасштабными аналитическими хранилищами данных и рабочими нагрузками бизнес-аналитики. MPP относится к системам с двумя или более процессорами, которые взаимодействуют для выполнения операции, причем каждый процессор имеет собственную память, операционную систему и диски. Greenplum использует эту высокопроизводительную системную архитектуру для распределения нагрузки на многотерабайтные хранилища данных и может использовать все ресурсы системы параллельно для обработки запроса.

2022: Основа Greenplum - PostgreSQL

База данных Greenplum основана на технологии PostgreSQL с открытым исходным кодом. По сути, это несколько экземпляров базы данных PostgreSQL, которые действуют вместе как одна сплоченная система управления базами данных (СУБД). Greenplum (GP) – реляционная СУБД, имеющая массово-параллельную (massive parallel processing) архитектуру без разделения ресурсов (Shared Nothing)[1].

2020: Коммерциализация под торговой маркой VMware Tanzu Greenplum

В 2020 году корпорация VMware приобрела компанию Pivotal, которая была вендором Greenplum с 2012 года. С этого момента open source MPP-СУБД коммерциализируется под торговой маркой VMware Tanzu Greenplum.

2018: Интеграция с отечественной платформой визуализации и анализа данных Luxms BI

В 2018 году платформа Luxms BI была интегрирована с массивно-параллельной СУБД Greenplum с открытым исходным кодом. Стыковку с СУБД Greenplum обеспечивает высокоскоростной двунаправленный FDW-коннектор. Подробнее здесь.

2015: Открыт исходный код БД Greenplum

28 октября 2015 года стало известно об открытии исходного кода базы данных Greenplum Database (GPDB), заявленной как полнофункциональное Open Source-хранилище данных (warehouse) на платформе свободной СУБД PostgreSQL[2].

Greenplum — СУБД, созданная одноименной компанией, которую в 2010 году купила EMC Corporation, а в 2013 году она перешла к Pivotal Software. «Группа Астра» в свободном доступе опубликовала курс по российской службе каталога ALD Pro для обучения администраторов 4.2 т

Pivotal анонсировала открытие кода GreenplumDB (GPDB) в феврале 2015 года и теперь это стало реальностью: проект получил свой сайт, исходные тексты опубликованы на GitHub под свободной лицензией Apache License v2. Greenplum обеспечивает мощную и быструю аналитику по огромным массивам данных и, как утверждают разработчики, использует «самый продвинутый в мире оптимизатор запросов на основе оценки их стоимости».

Основа GPDB - свободная СУБД PostgreSQL. Ее функциональные возможности расширены посредством:

  • архитектуры для массовой параллельной обработки данных (автоматическое распараллеливание всех данных и запросов),
  • технологии MPP для высокой производительности в масштабах петабайтов,
  • инновационного оптимизатора запросов (его аналитические возможности масштабируются на крупные наборы данных без ущерба производительности и пропускной способности),
  • полиморфного (ориентированного на столбцы или строки) хранилища и обработки данных,
  • продвинутого машинного обучения на основе библиотеки Apache MADLib.

Кластер Greenplum состоит из мастер-сервера, в котором хранятся только метаданные, и множества «сегментных» серверов, где находятся все пользовательские данные. Все серверы используют одну и ту же схему БД.

2012: Приобретение корпорацией Pivotal

В 2012 году корпорация Pivotal приобрела продукт EMC Greenplum Community Edition, продолжив далее развивать его под своим брендом.

2011

EMC Greenplum Community Edition

В 2011 году корпорация EMC выпустила для всеобщего пользования бесплатную версию Greenplum Community Edition.

Бесплатная версия Community Edition СУБД с обработкой с массовым параллелизмом (MPP) EMC Greenplum Database, а также бесплатные аналитические алгоритмы и инструменты интеллектуального анализа данных. Анонс продукта был сделан на конференции 2011 O'Reilly Strata Conference (1–3 февраля 2011 г.) в г. Санта-Клара, шт. Калифорния, на которой выступил Скотт Яра (Scott Yara), вице-президент подразделения EMC Data Computing Products Division. Бесплатные версии уже можно скачать по адресу: http://community.greenplum.com.

Развивая успех прежних передовых разработок Greenplum в области больших объемов данных, таких как EMC Greenplum Data Computing Appliance, новая версия EMC Greenplum Community Edition устраняет стоимостные барьеры, мешающие вооружению мощными инструментами для работы с большими массивами данных большого числа разработчиков, исследователей и других профессионалов, интересующихся операциями с данными. Этот бесплатный набор инструментов позволяет сообществу специалистов не только лучше понимать данные, получать о них более глубокое представление, добиваться лучшей визуализации, но и вносить свой вклад в разработку инструментария и решений следующего поколения. С помощью программного стека Community Edition разработчики могут создавать сложные приложения для сбора, анализа и использования больших объемов данных на новом уровне, применяя лучшие в своем классе инструменты работы с большими объемами данных, включая Greenplum Database с ее отличными возможностями аналитической обработки.

Бесплатная версия EMC Greenplum Community Edition включает:

  • 1) Greenplum Database CE – лидирующую в отрасли СУБД с обработкой с массовым параллелизмом (massively parallel processing, MPP) для крупномасштабной аналитики и хранилищ данных следующего поколения;
  • 2) MADlib – библиотеку аналитических алгоритмов с открытым исходным кодом, реализующих вычисления с параллельной обработкой в математических, статистических методах и методах машинного обучения для структурированных и неструктурированных данных;
  • 3) Alpine Miner – многообещающий аналитический инструментарий независимых производителей с интуитивно понятным визуальным средством моделирования интеллектуального анализа данных, который обеспечивает возможности быстрого "моделирования с оценкой" (modeling to scoring), на новом уровне использует встроенную в базу данных аналитику и специально создан для приложений для работы с большими объемами данных.

Для сообщества

Эта начальная версия EMC Greenplum Community Edition разработана как для пользователей-новичков, так и для опытных заказчиков Greenplum. Пользователи, впервые знакомящиеся с продуктом, получают доступ к полной специализированной среде бизнес-аналитики, которая позволяет им просматривать, модифицировать и совершенствовать включенные в продукт демонстрационные файлы данных, что дает возможность поэкспериментировать с аналитическими инструментами для работы с большими объемами данных в СУБД Greenplum. Пользователи, уже применяющие этот продукт, могут скачать обновленную версию Greenplum Database CE и инструменты аналитики для интеграции со своей средой разработки и исследовательскими средами.

Версию Community Edition можно скачать как виртуальную машину VMWare с уже настроенной конфигурацией и использовать ее на портативных или настольных компьютерах либо как набор пакетов для разработки на пользовательских машинах. Все пользователи могут бесплатно участвовать в новых форумах Greenplum Community Forums – получать поддержку, сотрудничать с коллегами, публиковать свои идеи и тестировать независимо разработанные разными пользователями усовершенствования.

Сроки выпуска продукта

Начиная с 1 февраля 2011 г. версию EMC Greenplum Community Edition можно бесплатно скачать с сайта http://community.greenplum.com. В онлайне также будут доступны обновления Regular Community Edition. Версия Community Edition предназначена только для экспериментальных целей, разработки и исследований. Пользователи текущего издания Single-Node Edition могут развернуть новое издание Community Edition в своей одноузловой рабочей среде. Прежде чем использовать программный код для внутренней обработки данных или в любых коммерческих либо в производственных целях, нужно купить коммерческие лицензии на Greenplum.

Modular Data Computing Appliance

В подразделении EMC Greenplum создан программно-аппаратный комплекс Modular Data Computing Appliance (в сентябре 2011 года анонсирован), который предоставляет возможность работать одновременно со структурированными и неструктурированными данными большого объема, используя как реляционные методы обработки, реализованные в параллельной СУБД Greenplum, так и функции платформы с открытым кодом Apache Hadoop. Новые устройства Modular DCA будут иметь в своем составе высокопроизводительные модули, в которых работает пакет In-Memory Analytics компании SAS Institute, выполняющий параллельную обработку данных в оперативной памяти. Использование программ SAS позволяет размещать как структурированные, так и неструктурированные данные одновременно на нескольких узлах кластера. Именно возможность параллельной обработки в компании считают основным преимуществом комплексов Greenplum. Модули сейчас проходят тестирование, а в продажу должны поступить к концу года. EMC представила также тестовый кластер Greenplum Analytics Workbench, состоящий из более чем 1000 узлов и предназначенный для проведения интеграционного тестирования программ Apache Hadoop.

СУБД EMC Greenplum Database использует параллельную архитектуру, основанную на разбиении полного массива данных на отдельные сегменты, работа с которыми может выполняться одновременно (shared-nothing massively parallel processing, MPP). Эта архитектура изначально разработана для бизнес-аналитики и аналитической обработки данных на стандартном оборудовании. Сегменты данных автоматически распределяются между несколькими серверами сегментов, каждый из которых владеет и управляет отдельной частью общего массива данных. Такая архитектура без разделяемых ресурсов (shared-nothing) означает, что все коммуникации осуществляются через сетевое межсоединение (interconnect), поэтому нет проблем общего доступа к данным на диске или конфликтов адресации. Более подробную информацию о Greenplum Database можно найти по адресу: www.greenplum.com/products/greenplum-database.

2010: Поглощение корпорацией EMC компании Greenplum

Корпорация EMC поглотила компанию Greenplum, продолжив работу над проектом.[3]

2005: Выпуск Greenplum

Первый выпуск технологии одноименной фирмой в Калифорнии (США).

Примечания



ПРОЕКТЫ (1) ПРОЕКТЫ НА БАЗЕ (24) ИНТЕГРАТОРЫ (1)
РЕШЕНИЕ НА БАЗЕ (5) СМ. ТАКЖЕ (15) ОТРАСЛИ (11)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Прогноз (250)
  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (125)
  RBC Group Украина (124)
  БизнесАвтоматика НПЦ (119)
  Консультационная группа АТК (100)
  Другие (2519)

  Сапиенс солюшнс (Sapiens solutions) (9)
  Форсайт (8)
  Navicon (Навикон) (7)
  Корус Консалтинг (6)
  Доверенная среда (5)
  Другие (101)

  БизнесАвтоматика НПЦ (12)
  Форсайт (8)
  ФТО (5)
  Manzana Group (М Софт) (4)
  Optimacros (Оптимакрос) (3)
  Другие (74)

  Инфомаксимум (Infomaximum) (5)
  Manzana Group (М Софт) (5)
  БизнесАвтоматика НПЦ (5)
  Форсайт (4)
  PIX Robotics (Пикс Роботикс) (4)
  Другие (66)

  Simetra (ранее А+С Транспроект) (9)
  БизнесАвтоматика НПЦ (7)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (5)
  Arenadata (Аренадата Софтвер) (4)
  Инфомаксимум (Infomaximum) (3)
  Другие (47)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Qlik (QlikTech) (59, 464)
  Форсайт (19, 332)
  SAP SE (70, 303)
  Oracle (65, 267)
  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (4, 236)
  Другие (1112, 1633)

  SAP SE (6, 13)
  Форсайт (2, 8)
  Qlik (QlikTech) (2, 8)
  Microsoft (2, 6)
  Доверенная среда (1, 5)
  Другие (50, 78)

  БизнесАвтоматика НПЦ (1, 12)
  Форсайт (3, 8)
  Optimacros (Оптимакрос) (1, 6)
  Microsoft (1, 5)
  Manzana Group (М Софт) (3, 4)
  Другие (40, 50)

  Optimacros (Оптимакрос) (1, 10)
  Форсайт (2, 8)
  Analytic Workspace (ОСТ) (2, 5)
  Manzana Group (М Софт) (2, 5)
  БизнесАвтоматика НПЦ (1, 5)
  Другие (37, 59)

  Simetra (ранее А+С Транспроект) (1, 9)
  БизнесАвтоматика НПЦ (1, 7)
  SL Soft (СЛ Софт) (5, 6)
  Полиматика (Polymatica) (5, 6)
  VMware (2, 6)
  Другие (29, 51)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  QlikView - 370
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 318
  Deductor - 226
  Visary BI Платформа бизнес-аналитики - 119
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 103
  Другие 1998

  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 7
  Qlik Sense - 6
  Доверенная среда: Триафлай BI-платформа - 5
  Microsoft Power BI - 5
  Другие 85

  Visary BI Платформа бизнес-аналитики - 12
  Optimacros Платформа для оптимизационного и консолидационного планирования - 6
  Microsoft Power BI - 5
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 5
  Qlik Sense - 4
  Другие 51

  Optimacros Платформа для оптимизационного и консолидационного планирования - 10
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 7
  Visary BI Платформа бизнес-аналитики - 5
  PIX BI - 5
  Инфомаксимум: Proceset (Система класса Process mining) - 5
  Другие 53

  RITM3 - Real time integration transport measurements modelling managemet - 9
  Visary BI Платформа бизнес-аналитики - 7
  Optimacros Платформа для оптимизационного и консолидационного планирования - 6
  Инфомаксимум: Proceset (Система класса Process mining) - 5
  ADB - Arenadata DB - 5
  Другие 38

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  SAP CIS (САП СНГ) (38)
  Softline (Софтлайн) (35)
  РДТЕХ (33)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (28)
  ФОРС - Центр разработки (25)
  Другие (733)

  Сапиенс солюшнс (Sapiens solutions) (7)
  Navicon (Навикон) (3)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (3)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (2)
  IFellow (АйФэлл) (2)
  Другие (35)

  РДТЕХ (1)
  IBS (1)
  Ред Софт (Red Soft) (1)
  InnoSTage (Инностейдж) (1)
  Сбербанк-Технологии (СберТех) (1)
  Другие (20)

  Arenadata (Аренадата Софтвер) (5)
  Тантор Лабс (Tantor Labs) (3)
  ФОРС - Центр разработки (2)
  Ред Софт (Red Soft) (1)
  Digital Design (Диджитал Дизайн) (1)
  Другие (18)

  Arenadata (Аренадата Софтвер) (5)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (2)
  Диасофт (Diasoft) (2)
  Центр Финансовых Технологий (ЦФТ) (1)
  GMCS (1)
  Другие (16)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Oracle (44, 179)
  SAP SE (6, 178)
  Microsoft (23, 142)
  PostgreSQL Global Development Group (14, 126)
  Постгрес профессиональный (ППГ, Postgres Professional) (6, 40)
  Другие (263, 242)

  SAP SE (3, 11)
  Microsoft (3, 11)
  PostgreSQL Global Development Group (3, 10)
  Oracle (2, 4)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 3)
  Другие (10, 13)

  PostgreSQL Global Development Group (4, 9)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 6)
  VK Tech (ранее VK Цифровые технологии, ВК Цифровые технологии и Mail.ru Цифровые технологии) (2, 3)
  Arenadata (Аренадата Софтвер) (3, 2)
  Oracle (2, 2)
  Другие (9, 9)

  PostgreSQL Global Development Group (3, 13)
  Постгрес профессиональный (ППГ, Postgres Professional) (1, 6)
  Arenadata (Аренадата Софтвер) (3, 5)
  Apache Software Foundation (ASF) (3, 4)
  Тантор Лабс (Tantor Labs) (2, 3)
  Другие (8, 10)

  PostgreSQL Global Development Group (4, 11)
  Arenadata (Аренадата Софтвер) (3, 6)
  VMware (2, 6)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 5)
  Сбербанк-Технологии (СберТех) (2, 2)
  Другие (5, 7)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Oracle Database - 106
  Microsoft SQL Server - 104
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 103
  PostgreSQL СУБД - 80
  SAP HANA (High Performance Analytic Appliance) - 72
  Другие 374

  Microsoft SQL Server - 9
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8
  PostgreSQL СУБД - 7
  Oracle Database - 3
  SAP HANA (High Performance Analytic Appliance) - 3
  Другие 21

  Postgres Pro СУБД - 5
  ADB - Arenadata DB - 2
  PostgreSQL СУБД - 2
  Tarantool Платформа in‑memory вычислений - 2
  Oracle Database - 2
  Другие 13

  Postgres Pro СУБД - 6
  PostgreSQL СУБД - 4
  ADB - Arenadata DB - 3
  Tantor СУБД - 3
  Apache Kafka - 2
  Другие 10

  PostgreSQL СУБД - 5
  ADB - Arenadata DB - 5
  Postgres Pro СУБД - 3
  Diasoft Digital Q.Database - 2
  ADH - Arenadata Hadoop - 2
  Другие 9