Senior Data Engineer/Architect
Sapa Digital Communications
- Алматы
- Постоянная работа
- Полная занятость
- Проектирование, реализация и оптимизация DWH/Data Lakehouse архитектуры, включая слои данных (STG, DDS, Marts, Bronze/Silver/Gold).
- Разработка и поддержка сложных ETL/ELT пайплайнов с использованием Apache Airflow и Python/SQL.
- Администрирование и глубокая оптимизация производительности MPP-хранилища Greenplum (анализ планов запросов, управление ресурсами, настройка сжатия и партиционирования).
- Проектирование и внедрение стратегии тиеринга данных (перенос "холодных" данных в S3-хранилище с доступом через PXF).
- Участие в пилотных проектах по внедрению Apache Kafka, Data Catalog и MDM.
- Взаимодействие с бизнес-заказчиками для сбора требований и проектирования витрин данных.
Обязательный опыт:
- 5+ лет в инженерии данных, из них не менее 2-х лет на позиции Senior Data Engineer или аналогичной.
- Подтвержденный опыт проектирования и внедрения DWH с нуля или значительного рефакторинга существующего. Вы должны на практике построить полноценную слоистую архитектуру (Staging, DDS/Core, Marts).
- Экспертное владение SQL: знание оконных функций, CTE, опыт оптимизации сложных запросов на сотни строк.
- Глубокий опыт работы с MPP-хранилищами: Greenplum (предпочтительно), Teradata, Vertica или аналоги. Понимание принципов сегментации, дистрибуции данных и параллельного выполнения запросов.
- Промышленный опыт с Apache Airflow: вы не просто запускали DAG'и, а писали сложные пайплайны, создавали кастомные операторы и понимаете его внутреннее устройство.
- Уверенное владение Python как основным инструментом для разработки ETL/ELT и автоматизации.
- Фундаментальные знания архитектурных подходов: методологии Кимбалла и Инмона, плюсы и минусы Data Lake и Data Lakehouse.
- Глубокое понимание техник мерно-ориентированного моделирования (схема "звезда", "снежинка") и управления историчностью (SCD).
- Знание принципов работы и форматов хранения данных в Big Data экосистеме (Parquet, Avro).
- Опыт работы с колоночными СУБД для интерактивной аналитики (ClickHouse).
- Опыт работы с технологиями потоковой обработки данных (Apache Kafka, Spark Streaming, Flink).
- Практический опыт с Apache Spark для batch-обработки.
- Понимание принципов IaC (Terraform, Ansible) и опыт работы с контейнеризацией (Docker, Kubernetes).
- Опыт внедрения или работы с инструментами Data Governance (Data Catalog, MDM).
- Опыт использования dbt для моделирования данных.
- Прагматизм и фокус на бизнес-ценности.
- Системное мышление и умение находить корень проблемы.
- Высокий уровень самостоятельности и ответственности за результат.
- Чётко сформулированный проект с конкретными результатами.
- Работа с высоконагруженной инфраструктурой и современным стеком технологий.
- Оплата по итогам собеседования.
HeadHunter