Проект

Операционный BI и большие данные в Тинькофф Банке

Заказчики: Т-Банк (Тинькофф Банк)

Москва; Финансовые услуги, инвестиции и аудит

Продукт: EMC Greenplum Data Computing Appliance
На базе: VMware Tanzu Greenplum

Дата проекта: 2011/12 — 2012/05
Технология: BI
подрядчики - 451
проекты - 3077
системы - 1154
вендоры - 561
Технология: Big Data
подрядчики - 226
проекты - 642
системы - 241
вендоры - 195
Технология: Data Mining
подрядчики - 254
проекты - 861
системы - 296
вендоры - 212
Технология: СУБД
подрядчики - 275
проекты - 784
системы - 311
вендоры - 149
Технология: СХД
подрядчики - 238
проекты - 626
системы - 773
вендоры - 267

Содержание

Business Intelligence в Тинькофф Банке

30 июня 2015 года Сотниченко Сергей в должности руководителя управления хранилищ данных и отчетности Банка «Тинькофф» выступил с докладом на конференции TAdviser Big Data и BI DAY. В своем выступлении он рассказал о внедрении и развитии решений бизнес-аналитики в его компании. Данному проекту в банке «Тинькофф» уже 8 лет, для отчетности BI-системами пользуются 500 человек. В «Тинькофф» внедрялся традиционный DWH (Data Warehouse, хранилище данных) и BI и интеграционный подход к их внедрению. Big Data стала использоваться в компании как часть стратегии DWH.

Аналитический

  • Комплексные бизнес-метрики
  • Сложная интеграция
  • Высокая актуальность данных не критична

Операционный

  • Отдельные бизнес процессы
  • Простая интеграция – одна система
  • Необходима высокая актуальность данных

Операционный BI – данные

  • Строим отчет напрямую на базе бизнес-системы = Высокая нагрузка на бизнес-систему
  • Строим отчетна данных DWH = Высокая латентность данных – сутки и Недостаточная гибкость

  • Строим отчет на Operational Intelligence - Splunk = Не все данные доступны и Не вся логика реализуема

Используем реплики = Высокая гибкость. Приемлемая латентность (1-3 часа) и База-источник не негружается

Репликация GoldenGate

Режим «Real time data warehousing»

  • Минутная латентность данных в ODS
  • Журнал изменения таблиц источников в ODS

Репликация O2G

Основная задача – переместить из Oracle в Greenplum десятки миллионов изменений в час не создавая высокую нагрузку ни на Oracle, ни на Greenplum

  • Собственная разработка
  • Эффективный движок репликации из Oracle в Greenplum

  • Допустимая латентность (~1-3 часа) в Greenplum
  • Платформа для аналитических запросов

  • «Батчевая» выгрузка + выгружаются только измененные данные
  • Внутренний bulk-механизм загрузки Greenplum

O2G – факты

  • Латентность данных не более 1-3 часов
  • Невысокая нагрузка на Greenplum (~10% ресурсов max)
  • Эффективное хранение данных в Greenplum – поколоночное сжатие
  • Возможность выгрузки в несколько GreenPlum’ов
  • Другие потребители данных ODS (DWH, шина)
  • Храним все изменения по всем таблицам за все время

Большие данные – Velocity, Volume

  • 14 TB – объем таблиц всех источников в ODS
  • 3 TB - размер реплик ODS в GreenPlum: 3 Тб
  • 500 миллионов операций в сутки
  • 75 миллиардов операций за полгода

Интегратор Glowbyte Consulting

Корпорация ЕМС объявила весной 2012 года о завершении внедрения Банком «Тинькофф Кредитные Системы» платформы хранения и аналитики сверхбольших объемов данных EMC Greenplum. Интегратор-консультант в проекте компания Glowbyte Consulting.

Цели

Планы по наращиванию клиентской базы и возросшие требования к скорости обработки накопленной информации вызвали необходимость применения специализированных средств работы с Большими Данными и адаптации аналитической инфраструктуры Банка к работе в режиме реального времени.

Внедрение

Первым этапом выбранной стратегии стал проект по миграции корпоративного хранилища данных Банка на распределенную аналитическую платформу EMC Greenplum. Основными критериями, определившими выбор Банка, стали: высочайшая скорость загрузки и обработки данных, масштабируемость решения, возможность полиморфного хранения данных, наличие технологии сжатия, глубокая интеграция с используемыми Банком аналитическими продуктами компании SAS Institute.

Основной проект стартовал в декабре 2011 года и был выполнен за 6 месяцев, с применением методологии итеративной разработки.

Во время внедрения проекта существовавшая в Банке инфраструктура в виде стандартной СУБД, работающая на тяжелых серверах SPARC-архитектуры, была заменена системой EMC Greenplum, построенной на базе архитектуры массивно-параллельных вычислений без разделяемых компонентов (MPP, Massive Parallel Processing). В этой архитектуре, которая была разработана специально для создания бизнес-аналитики и аналитической обработки, каждое устройство функционирует как самодостаточная СУБД, которая владеет определенной частью общих данных и управляет ими. Эта система автоматически распределяет данные и распараллеливает рабочие нагрузки запросов на все доступное оборудование, используя принципы Map Reduce.TAdviser выпустил новую Карту «Цифровизация ритейла»: 280 разработчиков и поставщиков услуг 14.8 т

В результате время решения аналитических задач сократилось минимум в десять раз, а для некоторых – более чем в 100 раз. Использование же в качестве узлов системы серверов «стандартной» архитектуры позволило получить экономически эффективную и неограниченную линейную масштабируемость вычислительных мощностей.

Сложность проекта, помимо развертывания новой инфраструктуры хранения данных, заключалась в необходимости интегрировать новые подходы к загрузке и извлечению данных с используемыми Банком аналитическими системами SAS Institute, сохранив при этом целостность и работоспособность действующих бизнес-процессов Банка. Для выполнения поставленной задачи была собрана проектная команда из консультантов компании Glowbyte Consulting, взявшей на себя функции системного интегратора, инженеров World IT Systems, отвечавших за настройку и эксплуатацию рабочих окружений и специалистов департамента ИТ Банка. Авторский надзор и аудит проектных решений осуществляли представители компаний EMC/Greenplum и SAS Institute. Кураторами проекта выступили CTO и основатель компании EMC Greenplum Люк Лонерган и Директор SAS Global Technology Practice Марк Торр.

Кастомизация

В ходе проекта был осуществлен комплексный реинжиниринг более 350 процессов загрузки и преобразования данных, разработана библиотека ELT-трансформаций, оптимизированная для работы с Greenplum и SAS, создана инфраструктура прямого доступа бизнес-аналитиков Банка к детальному слою данных для проведения data mining исследований без привлечения ресурсов внутреннего ИТ, разработаны процедуры резервного копирования и аварийного восстановления данных.

Таким образом, Банк запустил платформу, готовую к загрузке данных в хранилище и обновлению аналитических витрин в режиме реального времени, что для компании, использующей знания о клиентах, как конкурентное преимущество, является приоритетным направлением. В дальнейшем Банк планирует развивать не только инструмент Greenplum , адаптированный для массивно-параллельных вычислений, но также и Hadoop, предназначенный для обработки неструктурированных данных, и платформу Chorus, которая предоставляет возможность совместной работы с корпоративными данными, получаемыми из разных источников.

Вячеслав Цыганов, вице-президент, CIO, банк «Тинькофф Кредитные Системы», отметил: «Ценность выполненного проекта для Банка, несмотря на его явную технологическую направленность, заключается в развитии существующей в Банке культуры принятия решений на основе анализа информации. Умение превращать накопленные данные в знания давно является признаком конкурентоспособности Банка, а сами данные – стратегическим активом и потенциалом для будущего роста. В ближайшее время клиентами будут востребованы Банки, которые лучше понимают их поведение, привычки и максимально соответствуют им. Мы убеждены, что успешно запущенная аналитическая платформа данных EMC Greenplum, благодаря своим уникальным параметрам масштабируемости и производительности позволит повысить не только скорость принятия решений, но также ценность и актуальность наших знаний о клиентах».
«Мы рады, что один из самых продвинутых в технологическом отношении российских банков сделал выбор в пользу решения EMC Greenplum. Теперь специалисты банка могут без ущерба для производительности расширять хранилище данных, в том числе подключаться к новым источникам Больших Данных, например, к социальным сетям. Необходимый ресурс хранения выделяется автоматически и освобождается после решения конкретной задачи. По сути, аналитическая обработка больших объемов данных, структурированных или неструктурированных, после внедрения платформы хранения EMC стала для банка рядовым сервисом корпоративной информационной системы. Банк сделал важнейший шаг в направлении создания онлайн-хранилища данных, создав инфраструктуру, работоспособность которой не зависит ни от типов данных, ни от их объема и даже от темпов их роста», - сказал Коби Лиф, Директор по продажам в регионе Европа, Ближний Восток и Африка, Greenplum, подразделение EMC.