DevOps-инженер/k8s инженер

TTM Dev KZ

  • Алматы
  • Постоянная работа
  • Полная занятость
  • 2 д. назад
Tothemoon — международная криптофинтех-компания, которая уже более 8 лет развивает продукты на стыке финтех и блокчейн-инфраструктуры.Мы строим экосистему, где технологии работают на грани производительности — от децентрализованных бирж и платёжных решений до вычислительных платформ нового поколения.Сейчас мы запускаем новый проект — высокопроизводительную ML-инфраструктуру для AI-обучения и GPU-майнинга.Проект сочетает низкоуровневое GPU-железо, кластер Kubernetes, и AI-таски, которые требуют стабильности, производительности и контроля за ресурсами.Чтобы всё это работало без перебоев, мы ищем k8s инженера с сильным Linux, который любит железо, знает, как из него выжать максимум, и способен выстроить надёжную инфраструктуру вместе с нашей командой.Что предстоит делать:90% - эксплуатация и развитие продакшн-инфраструктуры:сопровождение managed k8s(контроль-плейн, нод-пулы, autoscaling, PDB, network policies);поддержка API-и ML-флотанастройка мониторинга, алертинга, логирования, backup’ов, DR-сценариев;разбор и устранение инцидентов в т.ч on-call10% - R&D и автоматизация текущего сетапаНаш стек/Ядро проекта:Cloud: (managed Kubernetes, GPU bare metal)Orchestration: Kubernetes (multi-pool, autoscaling, GPU workloads)GPU / ML: H100, NVIDIA stack (CUDA, драйверы, nvidia-device-plugin)Нам важно:Глубокий опыт с Kubernetes ( > 3 лет):проектирование и эксплуатация продакшн-кластеров (желательно с autoscaling, PDB, network policies);уверенное владение Deployments, StatefulSets, Ingress, RBAC, StorageClass, Helm/Kustomize;опыт интеграции k8s с облачными провайдерами (EKS/GKE/AKS/GCore и др.)Сильный Linux:понимание работы ядра, сетевого стека, cgroups, namespaces;диагностика performance-проблем (CPU, память, IO, сеть).GPU и high-load ML/LLM - как большой плюс:деплой и эксплуатация приложений на GPU в k8s;базовое понимание CUDA / NVIDIA драйверов / nvidia-device-plugin;опыт с monitoring’ом GPU (utilization, memory, thermals, errors).Интеграционный и эксплуатационный опыт:интеграция внешних сервисов в k8s (логирование, мониторинг, security, storage);построение мониторинга/алертинга под SLO/SLA, разбор инцидентов end-to-end;умение писать runbook’и и автоматизировать рутинуУсловияФормат: офис, Алматы/БЦ КуланКомфортный офис, обеды для сотрудников.Конкурентное вознаграждение в USDT / фиатс оплатой больничных, отпусковКоманда уровня senior+, дружелюбная атмосфера и реальный технический вызов.IT компания

HeadHunter