ADH
Arenadata Hadoop

Продукт
Название базовой системы (платформы): Apache Hadoop
Разработчики: Arenadata (Аренадата Софтвер)
Дата последнего релиза: 2023/10/25
Технологии: СУБД

Содержание

Основная статья: Система управления базами данных (СУБД)

Arenadata Hadoop (ADH) — это полноценный дистрибутив распределенной платформы хранения на базе Apache Hadoop, адаптированный для корпоративного использования.

  • Поисковые и контекстные механизмы поиска высоконагруженных веб-сайтов и интернет-магазинов
  • Хранение, сортировка и обработка огромных объемов неструктурированных данных

2024: Доступность из облака «Крок»

Крок Облачные сервисы и Arenadata заключили соглашение о партнёрстве, по которому продукты Arenadata стали частью услуг, предоставляемых заказчикам на базе Облака КРОК. В частности, клиентам облачного провайдера теперь доступно решение Arenadata Hadoop (ADH)). Об этом Крок сообщил 17 января 2024 года. Подробнее здесь.

2023

Arenadata Hadoop 3.1.2.1.b1 с сервисом Apache Impala

Arenadata 25 октября 2023 года представила релиз Arenadata Hadoop (ADH) 3.1.2.1.b1, в который вошёл сервис Apache Impala — распределённая система исполнения SQL-запросов в экосистеме Hadoop. Сервис предназначен для интерактивной обработки данных на сверхбольших объёмах данных, он открывает доступ к новым сценариям использования, требующим высокой скорости исполнения запросов.

Можно выделить следующие преимущества нового функционала ADH для пользователей:

  • Скорость обработки запросов в озере данных. Impala обеспечивает низкую задержку и высокий уровень параллелизма в экосистеме Hadoop. Это позволит эффективнее решать задачи self-service аналитики и ad-hoc запросов.
  • Простота внедрения в текущую инфраструктуру. Заказчикам, у которых уже был установлен Hive, не придётся переносить данные и таблицы, так как Impala использует те же метаданные, форматы файлов и драйверы подключения.
  • Масштабирование, независимое от основного кластера Hadoop. Arenadata Hadoop предоставляет возможность развёртывания Impala вне основного кластера. Это позволяет исключить конкуренцию за аппаратные ресурсы и отдельно масштабировать аналитическую нагрузку даже в существующих инсталляциях ADH.
  • Оптимизация использования оборудования. Сервис поможет сократить стоимость обработки данных за счёт оптимального использования аппаратного обеспечения. Помимо этого, больше не требуется тратить ресурсы на адаптацию SQL-кода и дополнительное обучение аналитиков при миграции с Cloudera Data Platform.
  • Оптимизация ландшафта заказчика. Отдельные сценарии ad-hoc и self-service аналитики, требующие массивно-параллельной обработки, теперь возможно реализовывать локально, не нагружая ими основное хранилище данных.

«
Включение еще одного сервиса в Arenadata Hadoop существенно повысило производительность продукта для ряда бизнес-сценариев. Он в значительной мере отвечает требованиям заказчиков в части скорости исполнения запросов, что позволяет внедрять новые сценарии использования. В грядущих релизах ADH мы планируем расширять функциональность данного сервиса: его безопасность, доступность и интеграцию с другими компонентами, например, такими, как Arenadata Platform Security (ADPS), — прокомментировал Александр Ермаков, технический директор Arenadata.
»

Обновленный релиз Arenadata Hadoop включил и другие изменения: представлено автоматическое управление высокой доступностью сервисов Hadoop, добавлен ADB Spark Connector с поддержкой Spark3, улучшен функционал керберизации кластера, позволяющий производить более детальную настройку.

Доступность в облаке Cloud.ru

Провайдер облачных и AI-технологий Cloud.ru стал стратегическим партнёром российского вендора ПО для хранения и обработки данных Arenadata. Теперь продукты Arenadata можно использовать в облаке Cloud.ru. Об этом Arenadata сообщила 29 августа 2023 года.

Как уточнили TAdviser представители Arenadata, в облаке Cloud.ru доступны следующие продукты компании: ADB - Arenadata DB, ADH (Arenadata Hadoop), ADQM (Arenadata QuickMarts) и ADS (Arenadata Streaming). Подробнее здесь.

Доступность в beeline cloud

Экосистема продуктов Arenadata теперь доступна клиентам облачного провайдера beeline cloud. Об этом компания Arenadata сообщила 3 августа 2023 года. Как уточнили TAdviser представители Arenadata, в числе продуктов, доступных через beeline cloud: Arenadata DB, Arenadata Hadoop, Arenadata Streaming, Arenadata Postgres, Arenadata QuickMarts и Arenadata Cluster Manager. Подробнее здесь.

Совместимость с платформой Rubbles MLOps Suite

ИТ-компании Rubbles и Arenadata обеспечили совместимость своих программных продуктов. Теперь платформа Rubbles MLOps Suite и решения для хранения и обработки данных Arenadata могут работать бесшовно в едином программном комплексе. Об этом компания Arenadata сообщила 19 июля 2023 года.

Единый программный комплекс объединяет MLOps-решения Rubbles и продукты Arenadata, в том числе и Arenadata Hadoop. Подробнее здесь.

Arenadata Hadoop 2.1.7_b1 с компонентами Hbase, Flink и Zookeeper

24 января 2023 года компания Arenadata сообщила о выпуске версии дистрибутива на базе Apache Hadoop, адаптированного для корпоративного использования, — Arenadata Hadoop (ADH) 2.1.7_b1. Релиз включил обновление версий компонент Hbase, Flink и Zookeeper. Также в него добавлен сервис Airflow2 и компонент Livy версии 0.7.1 c поддержкой работы со Spark версии 3.3.0 на Scala 2.13.

Arenadata Hadoop 2.1.7_b1 включил следующие улучшения и обновленный функционал:

  • возможность установить версию сервиса Flink 1.15.1, а также «по кнопке» обновиться с предыдущей версии. Пользователи смогут воспользоваться функционалом данной версии и исправить проблемы предыдущей;
  • возможность установить данную версию сервиса Hbase 2.0.4 и «по кнопке» обновиться с предыдущей версии, исправив проблемы старой версии;
  • возможность установить данную версию сервиса Zookeeper 3.5.10, а также «по кнопке» обновиться с предыдущей версии. Данная версия позволит исправить проблемы предыдущей;
  • возможность установить новый компонент сервиса Spark3 — Livy 0.7.1 c поддержкой Spark 3.3.0 на Scala 2.13 в качестве отдельного компонента параллельно Livy для Spark версии 2.3.2. В компонент добавлена возможность поддержки Spark 3.3.0 и Scala 2.13;
  • обновленный сервис Airflow версии 2.3.3. Он устанавливается параллельно Airflow версии 1.10.11. Это даёт возможность перенести настройки и задания с предыдущей версии;
  • поддержка кастомизации krb5.conf и ldap.conf через интерфейс Arenadata Cluster Manager (ADCM). Это даёт возможность пользователю самостоятельно средствами ADCM изменить содержимое конфигурационных файлов krb5.conf и ldap.conf. Этот функционал позволит настраивать более сложные и тонкие конфигурации керберизации и авторизации в зависимости от сложности инфраструктуры;
  • добавлена возможность принудительно отключить политики доступа HDFS ACL, если включен плагин Ranger. Это позволит использовать единую «точку правды» для организации доступа пользователей.

«
Arenadata стремится предоставить заказчикам возможность получать последние версии компонентов Hadoop. Важно, чтобы у пользователей была возможность обновить их автоматически "по кнопке". Специалисты, работая над обновленными версиями Arenadata Hadoop, заботятся о том, чтобы продукт был безопасен, а его компоненты совместимы друг с другом и стабильно работали в рамках всей платформы,
рассказал Александр Большаков, директор по продуктам Arenadata.
»

2022

Тестирование на совместимость с серверами и дисковыми массивами Gagar>n

Производитель серверного оборудования GAGAR>N совместно с российским разработчиком платформы для работы с данными Arenadata и ИТ-компанией "Т1 Консалтинг" провели тестирование оборудования для работы с Big Data и подтвердили эффективность его использования для создания отечественных комплексов хранения и обработки больших данных. Об этом 26 июля 2022 года сообщили представители "Т1 Консалтинг".

В связи с возросшей потребностью заказчиков в построении ИТ-инфраструктуры на базе российских программно-аппаратных комплексов "T1 Консалтинг" выступил организатором разработки ПАК с использованием ПО Arenadata DB и Arenadata Hadoop на серверной платформе х86 и дисковых массивах GAGAR>N. Перед формированием готового предложения специалисты провели тестирование с целью проверки совместимости вычислительного оборудования с программными решениями. Подробнее здесь.

Kerberos-авторизация для предотвращения несанкционированного доступа

24 февраля 2022 года компания Arenadata сообщила, что предоставила пользователям трёх своих продуктов - Arenadata Hadoop (ADH), Arenadata Streaming (ADS) и Arenadata Platform Security (ADPS) - возможность предотвращать несанкционированный доступ к сервисам и данным кластеров. Теперь достаточно включить Kerberos-авторизацию для всех компонентов, которая позволит хранить авторизационные данные в Active Directory. Подробнее здесь.

2021

Доступность на платформе Mail.ru Cloud Solutions

Mail.ru Cloud Solutions 21 июля 2021 года сообщила о запуске Hadoop 3.0 как сервис на базе решения Arenadata. Подробнее здесь.

Arenadata Hadoop 2.1 с модулем Platform Security

18 января 2021 года компания Arenadata сообщила о завершении финального тестирования обновленного компонента для обеспечения централизованного управления политиками безопасности кластера — модуля Arenadata Platform Security.

Arenadata Platform Security

По информации компании, сервис позволит бизнесу обеспечить комплексный подход к организации безопасности в следующих ключевых областях: безопасность периметра, аутентификация и авторизация пользователей, аудит действий пользователя, защита данных. Даст возможность создать единую систему обеспечения безопасности данных одновременно для нескольких инсталляций, кластеров и гетерогенных инфраструктур.

Первый релиз Platform Security (1.0.) поставляется как бесплатное дополнение к Enterprise-редакции последних версий дистрибутива Arenadata Hadoop 2.1 (на базе Hadoop 3.x). Начиная с текущего релиза все компоненты необходимые для организации и настройки безопасности будут поставляться в рамках отдельного модуля ADPS.Интервью TAdviser: Вячеслав Касимов, ИБ-директор МКБ — о применении DevSecOps при разработке веб-приложений 8.1 т

Arenadata Hadoop — дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования в рамках единой корпоративной платформы Arenadata EDP. Является дистрибутивом Hadoop с открытым кодом, начиная с ADH 2.1.2.3 доступен в Enterprise-редакции.

В корпоративную версию Arenadata Hadoop 2.1 включены все обновленные релизы компонентов Apache Ranger — компонента для мониторинга и управления комплексной безопасностью данных на платформе Arenadata Hadoop. Этот сервис отвечает за администрирование задач, связанных с безопасностью, мониторинг запросов доступа к системе и различные методы авторизации для всех компонентов и инструментов Hadoop.

В функционале Arenadata Hadoop 2.1 с модулем Platform Security появится ряд обновлений:

  • Обновление Ranger для поддержки Apache Hadoop 3.1.
  • Обновление Ranger для поддержки Hive 3.0.
  • Обновление Ranger для поддержки Hbase 2.0.
  • Поддержка Ranger для Apache Kafka 2.0.0.
  • Поддержка плагина для включения, мониторинга и управления Elasticsearch.
  • Зоны безопасности в Apache Ranger.
  • Поддержка доверенного прокси.
  • Обновление Ranger для поддержки Ozone.
  • Интеграция KeySecure HSM.
  • Поддержка пользовательских условий на уровне политики.
  • Улучшения для поддержки ролей в политиках Ranger.
  • Улучшения плагина Hive для поддержки команд SQL.

«
Первый релиз Arenadata Platform Security позволит нашим пользователям централизованно управлять безопасностью данных при работе с множеством сервисов и кластеров Arenadata Hadoop последних версий. Данное решение позволит снизить эксплуатационные издержки и будет особенно актуально в работе с большими массивами чувствительных данных, а именно в таких отраслях, как банки, финтех, телеком, медицина, страхование и ритейл.

рассказал Александр Ермаков, технический директор Arenadata
»

Функциональными возможностями любого продукта на базе платформы Arenadata EDP являются нативная интеграция с другими решениями Arenadata и полностью автоматизированный процесс инсталляции других продуктов. В случае Platform Security у владельцев появится отдельный бандл, в поставку которого входят все решения для безопасности. С помощью стандартного визуального интерфейса в оркестраторе Arenadata Cluster Manager клиент разворачивает его в своей системе. Полностью автоматизированы любые процессы, связанные с инсталляцией, конфигурацией и другими действиями, необходимыми для интегрирования продуктов в корпоративную платформу.

В ближайших планах развития продукта — подключение других компонентов платформы Arenadata EDP, в частности, реализация поддержки Apache Ranger для кластеров Arenadata Streaming. В перспективе Arenadata Platform Security станет отдельной зонтичной надстройкой для управления безопасностью всех компонентов корпоративной платформы сбора и хранения данных Arenadata Enterprise Data Platform (EDP).

2020

Arenadata Hadoop 2.1.2.4

26 октября 2020 года компания Arenadata сообщила о том, что корпоративный дистрибутив Arenadata Hadoop (ADH) теперь доступен в разных версиях — бесплатной для свободного скачивания и корпоративной версии c функционалом высокой доступности ключевого компонента системы Namenode High Availability для повышения отказоустойчивости HDFS.

Arenadata Hadoop — это полноценный open-source дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования и предназначенный для хранения и обработки как структурированных, так и неструктурированных данных.

В октябре вышел релиз ADH 2.1.2.4:

  • разделение версий — для свободного скачивания и платного продвинутого корпоративного варианта (с рядом собственных разработок и дополнительных преимуществ);
  • добавлен функционал высокой доступности ключевого компонента системы Namenode High Availability. Это повысит отказоустойчивость ключевого компонента решения — HDFS. Доступно в версии релиза Enterprise.

Начиная с версии ADH 2.1.2.3 свежий дистрибутив Arenadata Hadoop доступен в 2 версиях — Community и Enterprise: Community — полностью функциональная версия, которую можно свободно использовать как для разработки и тестов, так и для промышленной эксплуатации. Community-версия Arenadata Hadoop открыта для свободного скачивания. Enterprise — содержит продвинутую функциональность высокой доступности и, в скором будущем, информационной безопасности.

Ранее в случае падения мастер-сервера с NameNode требовалось вручную восстановить файловую систему с SecondaryNamenode, чтобы вернуть доступ к кластеру и сервисам. Теперь все действия по фейловеру производятся автоматически, а обслуживание не прерывается. Во время, пока производятся эти действия, кластер и сервисы были недоступны.

«
HighAvaliability для HDFS Namenode — важное требование для многих наших заказчиков. Наличие высокой доступности ключевого компонента системы позволит им перейти на более современную версию Hadoop 3.x, которая снижает накладные расходы на хранилище на 50–200% и предоставляет хранение с использованием кодов избыточности для обеспечения отказоустойчивости. Именно на версии Hadoop 3.x — сконцентрировано внимание сообщества, и все большие разработки от глобальных IT-вендоров идут в этой версии экосистемы. При этом сам продукт Arenadata Hadoop стал удобнее в обслуживании — для восстановления работоспособности в случае сбоев срочное вмешательство администратора больше не требуется,

— комментирует продакт менеджер Arenadata Hadoop Алексей Белозерский
»

До конца 2020 года планируется внедрение компонента Apache Ranger, который будет отвечать за импорт пользователей и групп из внешних источников и авторизацию во всех компонентах дистрибутива Hadoop. Это позволит создать единую точку авторизации пользователей, контролировать доступ к данным и проводить аудит доступа.

Где скачать

Arenadata Hadoop (ADH) — это полностью open-source дистрибутив Hadoop. Вы можете самостоятельно скачать Community-версию Arenadata Hadoop ADH 2.1.2.4, в том числе изучить исходные коды продукта.

Arenadata Hadoop 2.1.2

25 февраля 2020 года Arenadata представила минорную версию Arenadata Hadoop 2.1.2 (ADH 2.1.2), включающую два дополнительных сервиса Airflow и Solr, а также поддержку YARN on GPU с целью использования видеокарт для вычислений.

Благодаря этому пользователи Arenadata Hadoop получат возможность запускать задачи внутри Hadoop с использованием GPU-машин. Классический пример — это Spark. Внутри него можно писать код, который будет использовать CUDA ядра и быструю память GPU-машин.

«
Версия Arenadata Hadoop 2.1.2 позволит ускорить работу Spark с использованием аппаратного обеспечения видеокарт. При этом вся функциональность нашего продукта сохранится. Также мы внесли в обновленную версию несколько исправлений и изменений функционирования сервисов, добавили более глубокие чеки сервисов проверки работоспособности, их интеграционные проверки взаимодействия между собой,
рассказал Александр Ермаков, технический директор Arenadata
»

2019: Дистрибутив Arenadata Hadoop 2.1 на базе Hadoop 3

Компания Arenadata презентовала рынку в октябре 2019 года обновление дистрибутива распределённой платформы хранения Arenadata Hadoop (ADH) - Arenadata Hadoop 2.1, включающую такие компоненты, как Hadoop 3, Spark 2, Hive 3, YARN 3, HBase 2 и Phoenix 5.

Arenadata Hadoop 2.1 наполнена рядом новых функциональностей. Среди них:

  • новая система управления, развёртывания и мониторинга Arenadata Cluster Manager, позволяющая устанавливать и управлять сервисами Hadoop как on-premise, так и в облаке;
  • алгоритм восстановления данных Erasure Coding, способный до 40% снизить over-утилизацию дисковой системы в сравнении с классической репликацией HDFS;
  • СУБД Hive 3, позволяющая создавать реляционные таблицы, записывать в них данные, использовать транзакции и материализации представлений;
  • новая версия менеджера ресурсов YARN 3, позволяющая в данной версии контролировать распределение ресурсов нескольких кластеров между конкурирующими приложениями (YARN Federation);
  • использование статичного диапазона портов для сервисов Hadoop;
  • реляционная база данных Phoenix, позволяющая решить проблемы с потоковой загрузкой данных и их чтением.



2018

Доступность в Казахстане

14 ноября 2018 года компания Arenadata, российский разработчик многоцелевой платформы данных, сообщила о доступности на рынке Казахстана российского дистрибутива Arenadata Hadoop (ADH), а также аналитической массивно-параллельной СУБД Arenadata DB.

«
Техническую поддержку решений Arenadata будут обеспечивать специалисты DIS Group, — уточнил Канат Абиров, генеральный директор DIS Group KZ. — В России наши специалисты уже успели приобрести опыт работы с продуктами Arenadata. При этом мы работаем на рынке Казахстана в течение многих лет и хорошо знаем специфику региона.
»

Приобрести Arenadata Hadoop и Arenadata BD казахские компании смогут через офис DIS Group в Алматы — DIS Group KZ. Также стали доступны промышленные модули для расширения функционала платформы Arenadata в области интеграции данных, обеспечения их качества, каталогизации и самостоятельной работы бизнес-пользователе. Модули — на базе инструментов компании Informatica.

Дистрибутив Arenadata Hadoop 1.5.2

Во втором квартале 2018 года вышел релиз версии 1.5.2 Arenadata Hadoop.

Данная версия дистрибутив включает следующий состав компонентов:

В отличие от других корпоративных дистрибутивов, представленных на рынке, Arenadata Hadoop обладает рядом особенностей:

  • вся поддержка и непосредственно экспертиза доступна в России и на русском языке;
  • есть пакет утилит для полной оффлайн-установки (без доступа к сети интернет);
  • вся сборка выполнена на базе открытых проектов Apache, нет проприетарных компонентов;
  • российское программное обеспечение;
  • поддержка доступна как удаленно, так и on-site;
  • есть набор доступных типовых пакетных сервисов по планированию, установке и аудиту системы.

Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматического развертывания компонентов как на «голом железе», так и на виртуальных машинахоблаке). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы. Apache Ambari обеспечивает интерфейсы для интеграции с существующими системами управления, например, Microsoft System Center и Teradata ViewPoint.

Оригинальная документация на русском языке позволяет облегчить процесс планирования и разворачивания кластера Hadoop.

В состав дистрибутива Arenadata Hadoop входят последние актуальные версии всех наиболее популярных инструментов, некоторые из которых были существенно доработаны, что гарантирует минимальное количество ошибок ПО, полный существующий функционал каждого инструмента и корректную интеграцию инструментов между собой. Кроме того, в состав Arenadata Hadoop включены инструменты для реализации корпоративных моделей безопасности (Apache Knox, Apache Ranger), управления данными и метаданными кластера (Apache Atlas), реализации ETL\ELT-потоков данных (Apache Flink, Apache NiFi).

Состав и версии компонентов ADH 1.5.2:

  • Apache Ambari 2.6.1
  • Apache HDFS 2.8.1
  • Apache YARN 2.8.1
  • Apache MapReduce 2.8.1
  • Apache Zookeeper 3.4.10
  • Apache Tez 0.9.0
  • Apache Hive 2.3.0
  • Apache HBase 1.3.1
  • Apache Phoenix 4.11.0
  • Apache Pig 0.17.0
  • Apache Sqoop 1.4.6
  • Apache Flume 1.8.0
  • Apache Oozie 4.3.0
  • Apache Atlas 0.8.1
  • Apache NiFi 1.3.0
  • Apache Apex 3.6.0
  • Apache Flink 1.3.2
  • Apache Kafka 1.0.0
  • Apache Knox 0.12.0
  • Apache Mahout 0.13.0
  • Apache Ranger 0.7.1
  • Apache Ranger KMS 0.7.1
  • Apache Solr 6.6.0
  • Apache Spark 2.2.0
  • Apache Zeppelin 0.7.3
  • Apache Giraph 1.1.0
  • Apache Slider 0.92.0

Дополнительные компоненты, включенные в состав дистрибутива:

  • Hue 3.11.0
  • Bigtop-groovy 2.4.10
  • Bigtop-jsvc 1.10.15
  • Bigtop-tomcat 6.0.45
  • Bigtop-utils 1.3.0
  • extjs 2.2
  • fping 3.10
  • grafana 4.3.1
  • libconfuse 2.7
  • lzo 2.06
  • lzo-devel 2.06
  • lzo-minilzo 2.06
  • mysql-connector-java 5.1.25
  • net-tools 2.0
  • numactl-libs 2.0.9
  • pdsh 2.3.1
  • perl-Crypt-DES 2.05
  • perl-Net-SNMP 6.0.1
  • rrdtool 1.4.8
  • rrdtool-devel 1.4.8
  • snappy 1.1.0
  • snappy-devel 1.1.0

2016: Сертификация по стандартам Open Data Platform Initiative

В 2016 году дистрибутив Arenadata Hadoop 1.3.2 прошел сертификацию и получил подтверждение о полном соответствии стандартам Open Data Platform Initiative (ODPi). ODPi – мировое сообщество разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation.



ПРОЕКТЫ (6) ИНТЕГРАТОРЫ (2) СМ. ТАКЖЕ (27)


Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Oracle (44, 179)
  SAP SE (6, 175)
  Microsoft (23, 142)
  PostgreSQL Global Development Group (14, 118)
  Постгрес профессиональный (ППГ, Postgres Professional) (7, 37)
  Другие (253, 201)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год