Arenadata Hadoop получил единую точку простого и безопасного доступа к данным

Компания Arenadata включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) новый сервис Apache Kyuubi — распределённый...

Компания Arenadata включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) новый сервис Apache Kyuubi — распределённый многопользовательский SQL-шлюз для корпоративных хранилищ и озёр данных. Он расширяет возможности быстрой интерактивной аналитики в Arenadata Hadoop и обеспечивает простой и безопасный доступ к любому ресурсу кластера через единую точку входа.

Kyuubi предоставляет унифицированный интерфейс для доступа к вычислительным движкам через единую систему аутентификации и авторизации. Благодаря сервису дата-сайентисты и аналитики получают возможность обрабатывать данные с помощью привычного движка, поддерживаемого продуктом. В свою очередь, администраторам баз данных предоставляется единый интерфейс для конфигурации, обеспечения безопасности и управления доступом к данным.

«В контексте дистрибутива Arenadata Hadoop мы уже предоставили возможность работы Kyuubi со Spark SQL и Hive, в планах — расширить эту функциональность поддержкой Flink SQL. Кроме того, мы разработали и отдали в апстрим проекта возможность поддержки диалекта Impala для JDBC-движка, в нашем продукте она доступна, начиная с версии ADH 3.2.4.2», — комментирует Александр Анисимов, технический руководитель продукта Arenadata Hadoop. 

Новый сервис предоставляет SQL-интерфейс и поддержку JDBC/ODBC, что делает его удобным для пакетной обработки ETL/ELT, аналитики, ad-hoc-задач и интеграции с BI-системами. Kyuubi также предоставляет эффективное управление вычислительными ресурсами движка Spark SQL, давая возможность как объединять вычислительные ресурсы для группы пользователей в одной сессии, так и гарантировать изоляцию необходимых ресурсов для каждого пользователя или подключения. 

Функции обеспечения безопасности и высокой доступности — фундаментальные требования для корпоративного использования. В рамках этой тенденции в Kyuubi внедрена поддержка LDAP-аутентификации для клиентов, а также добавлен плагин Kyuubi AuthZ для Spark 3, обеспечивающий управление доступом к данным, — функциональность доступна, начиная с версии ADH 3.2.4.3. В контексте улучшения высокой доступности команда Arenadata разработала и отдала в апстрим проекта возможность использовать PostgreSQL в качестве хранилища метаданных (metastore).

Помимо базового варианта использования, Kyuubi позволяет расширить возможности сервера и вычислительных движков. Для сервера доступно внедрение пользовательских функций в модули, отвечающие за аутентификацию, конфигурацию и др. Для вычислительных движков можно добавить новые возможности путём разработки собственных плагинов и применения сторонних. 

«Kyuubi отвечает требованиям наших заказчиков к проектам уровня enterprise. Сервис расширяет возможности Arenadata Hadoop в части интерактивного доступа, изоляции вычислительных ресурсов, поддержки нескольких рабочих нагрузок и безопасности данных», — комментирует Екатерина Ульяшова, менеджер по продуктовому маркетингу Arenadata.

Детальное описание сервиса Kyuubi доступно по ссылке

Возможности Arenadata Hadoop

Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Решаемые задачи:

  • Хранение и обработка больших объёмов слабоструктурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД).
  • Распределённая обработка информации. 
  • Построение озёр и фабрик данных (единый центр всех данных компании, быстрое развёртывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде).
  • Машинное обучение и искусственный интеллект.
  • Источник данных для КХД.
  • Импортозамещение западных систем.

На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин и баз данных.