Новая версия опенсорсного коннектора Spark-Greenlum от ITSumma стала быстрее в 20 раз
До марта 2024 г. решение поддерживало работу только с Apache Spark 2.0, теперь же коннектор совместим c Apache Spark версии 3.0 и выше.
Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему, дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.
По сравнению с предыдущей версией решения производительность выросла в 10-20 раз — с 1 до 10-20 Мбит/с. Это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк. Об этом CNews сообщили представители компании ITSumma.
«Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность», — отметил Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.
На основе коннектора можно строить ETL-решения и анализировать качество данных. Он отличается гибкостью в настройке и обладает всем необходимым для интеграции в платформы больших данных функционалом.
Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.