Site Reliability Engineer (SRE)
- Алматы
- Постоянная работа
- Полная занятость
- Поддержка и развитие production-инфраструктуры на базе Kubernetes
- Настройка и оптимизация CI/CD пайплайнов в GitLab
- Мониторинг систем с использованием Prometheus, VictoriaMetrics, Grafana
- Централизованный сбор и анализ логов через Vector/Elasticsearch/Kibana
- Автоматизация рутинных задач с помощью Ansible и bash-скриптов
- Участие в расследовании инцидентов и проведении post-mortem анализа
- Настройка и поддержка системы алертинга
- Документирование инфраструктуры и процессов
Операционные системы и инструменты:
- Уверенное владение основными дистрибутивами Linux, навыки администрирования системы, управления процессами, файловой системой и правами доступа
- Умение писать shell-скрипты для автоматизации рутинных задач, понимание синтаксиса и базовых конструкций bash
- Понимание принципов работы DNS, диагностировать проблемы с разрешением имен
- Умение работать с Docker-контейнерами, создавать Dockerfile, собирать образы и управлять контейнерами в продакшн-окружении
- Понимание архитектуры Kubernetes, опыт деплоя и управления приложениями в кластере, знание основных объектов (pods, deployments, services)
- Уверенное владение kubectl для управления Kubernetes-кластером, диагностики проблем и работы с ресурсами
- Базовые навыки работы с Helm для управления Kubernetes-приложениями, понимание структуры charts и умение устанавливать релизы
- Владение основными командами git (clone, commit, push, pull, merge, branch), понимание workflow и умение работать в команде через систему контроля версий
- Опыт настройки и поддержки CI/CD пайплайнов в GitLab, понимание принципов непрерывной интеграции и доставки
- Базовые навыки написания Ansible playbooks для автоматизации конфигурирования и управления инфраструктурой
- Понимание принципов сбора и хранения метрик в Prometheus, опыт написания PromQL-запросов для анализа данных мониторинга
- Умение создавать дашборды для визуализации метрик, настраивать data sources и интерпретировать графики для мониторинга систем в Grafana
- Базовые навыки работы с ELK-стеком для централизованного сбора и анализа логов, умение писать простые запросы в Kibana
- Опыт настройки alerting rules и уведомлений на основе метрик и логов, понимание принципов эскалации инцидентов
- Опыт настройки Nginx в качестве веб-сервера и reverse proxy, понимание конфигурации виртуальных хостов и load balancing
- Базовые навыки написания SQL-запросов для чтения и анализа данных, понимание принципов работы реляционных баз данных
- Понимание на уровне чтения кода одного из языков программирования из списка PHP/Go/Python
- Опыт работы с HashiCorp Vault для управления секретами, понимание принципов безопасного хранения credentials и токенов
- Знакомство с GitOps-подходом и умение настраивать автоматический деплой приложений через ArgoCD
- Базовое понимание возможностей применения ИИ-инструментов для автоматизации задач SRE и повышения эффективности работы
- Навыки создания инфраструктурных диаграмм и схем с помощью инструментов diagram-as-code (например, Mermaid, PlantUML, D2 Diagrams)
- Понимание концепций SLI/SLO/SLA и error budget
- Работу с современным технологическим стеком
- Возможность влиять на архитектурные решения
- Профессиональное развитие и обучение
- Комфортные условия работы