Перейти к основному содержимому
Перейти к основному содержимому

Интеграция Azure Synapse с ClickHouse

ClickHouse Supported

Azure Synapse — это интегрированный аналитический сервис, который объединяет большие данные, data science и хранилища данных, позволяя быстро анализировать большие объемы данных. В Synapse пулы Spark предоставляют масштабируемые по требованию кластеры Apache Spark, которые позволяют выполнять сложные преобразования данных, машинное обучение и интеграцию с внешними системами.

В этой статье показано, как интегрировать коннектор ClickHouse Spark при работе с Apache Spark в Azure Synapse.

Добавьте зависимости коннектора

Azure Synapse поддерживает три уровня управления пакетами:

  1. Пакеты по умолчанию
  2. Уровень пула Spark
  3. Уровень сеанса

Следуйте руководству Manage libraries for Apache Spark pools и добавьте в приложение Spark следующие обязательные зависимости:

Ознакомьтесь с документацией Spark Connector Compatibility Matrix, чтобы определить, какие версии подходят для ваших задач.

Добавьте ClickHouse как каталог

Есть несколько способов добавить конфигурации Spark в ваш сеанс:

  • Пользовательский файл конфигурации, загружаемый вместе с сеансом
  • Добавьте конфигурации через интерфейс Azure Synapse
  • Добавьте конфигурации в ноутбуке Synapse

Следуйте инструкции Управление конфигурацией Apache Spark и добавьте конфигурации Spark, необходимые для коннектора.

Например, вы можете настроить сеанс Spark в ноутбуке, указав следующие параметры:

%%configure -f
{
    "conf": {
        "spark.sql.catalog.clickhouse": "com.clickhouse.spark.ClickHouseCatalog",
        "spark.sql.catalog.clickhouse.host": "<clickhouse host>",
        "spark.sql.catalog.clickhouse.protocol": "https",
        "spark.sql.catalog.clickhouse.http_port": "<port>",
        "spark.sql.catalog.clickhouse.user": "<username>",
        "spark.sql.catalog.clickhouse.password": "password",
        "spark.sql.catalog.clickhouse.database": "default"
    }
}

Убедитесь, что в первой ячейке указано следующее:

Настройка конфигурации Spark через notebook

Дополнительные параметры см. на странице конфигураций ClickHouse Spark.

Ссылки

При работе с ClickHouse Cloud обязательно задайте необходимые параметры Spark.

Проверка настройки

Чтобы убедиться, что зависимости и параметры конфигурации заданы успешно, откройте Spark UI для вашего сеанса и перейдите на вкладку Environment. Там найдите настройки, связанные с ClickHouse:

Проверка настроек ClickHouse в Spark UI

Дополнительные ресурсы