
Arenadata Catalog расширяет возможности управления данными в экосистеме Arenadata Hadoop
Компания «ДатаКаталог» (входит в Группу Arenadata) протестировала коннектор, обеспечивающий совместимость продукта Arenadata Catalog (ADC) и сервиса Apache Impala, являющегося частью корпоративного дистрибутива Arenadata Hadoop (ADH). Коннектор позволяет импортировать описания объектов Impala в каталог, выполнять профилирование данных и настраивать пользовательские проверки качества данных в Impala. Это не первый модуль, обеспечивающий интеграцию с экосистемой Hadoop, ранее заказчикам был представлен коннектор для сервиса Hive.
Экосистема Hadoop — де-факто стандарт в бизнес-сценариях, связанных с хранением, обработкой и анализом больших объёмов данных произвольных типов. Устойчивый спрос на системы этого класса поддерживается трендом на цифровизацию и ростом объёмов неструктурированных данных и количество связанных с ними проектов.
Отвечая на потребность заказчиков в высокопроизводительном анализе больших данных, хранящихся в системах, развёрнутых на Arenadata Hadoop, Arenadata включила в состав очередного обновления Apache Impala — распределённый сервис исполнения SQL-запросов. Он предназначен для массивно-параллельной обработки (МРР) сверхбольших объёмов данных. Impala разработана как более быстрый и эффективный механизм выполнения SQL-запросов в сравнении с традиционными компонентами SQL-on-Hadoop (Hive, Spark SQL). Поддержка нового сервиса существенно повысила производительность продукта для ряда бизнес-сценариев, в том числе так называемых песочниц данных для внерегламентной обработки информации аналитиками.

Особенность применения коннектора Impala
Метаданные объектов интегрируемых систем являются основой каталога данных. Интеграция метаданных объектов Impala позволяет пользователям Arenadata Catalog получать актуальное и полное представление об объектах сервиса, чтобы включить их в граф обработки данных (lineage), исследовать связи с объектами других систем-источников, а также связать с задействованными бизнес-сущностями организации. Администратор Arenadata Catalog может дополнить автоматически собранные метаданные Impala расширенным описанием, сопроводив их пользовательскими атрибутами. Точно так же, как остальные объекты в Arenadata Catalog, объекты сервиса Impala могут иметь владельца и быть классифицированы по уровню бизнес-критичности.

Для данных Impala, интегрированных в каталог, настраиваются пользовательские проверки качества и автоматический сбор метрик профилирования данных. Например, можно создать проверку на определение повторяющихся значений в таблице базы данных или на ненулевое значение в столбце. По результатам проверок формируется итоговый отчёт о качестве данных.
Для Apache Impala возможно сформировать визуальное происхождение данных (Data Lineage) между таблицами и представлениями, в том числе поколоночный lineage.
Теперь, просматривая аналитический отчёт, можно с лёгкостью отследить путь преобразования данных между системами: какие атрибуты каких таблиц какой базы данных передали информацию, как в свою очередь они её получили, какие другие информационные системы причастны.
Возможности Arenadata Hadoop
Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных. Решаемые задачи:
- Хранение и обработка больших объёмов слабоструктурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД).
- Распределённая обработка информации.
- Построение озёр и фабрик данных (единый центр всех данных компании, быстрое развёртывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде).
- Машинное обучение и искусственный интеллект.
- Источник данных для КХД.
- Импортозамещение западных систем.
На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин и баз данных.
Источник: Arenadata