Senior HPC / GPU Infrastructure Engineer

Small, ТМ (Скиф Трейд, ТОО)

  • Алматы
  • Постоянная работа
  • Полная занятость
  • 10 д. назад
On-prem GPU-кластер для training/R&D (8× NVIDIA H200, 2 TB RAM/node, HPE, Slurm, Lustre, InfiniBand).Ищем инженера в полное ownership, который сам спроектирует и выстроит архитектуру эксплуатации: стандарты, наблюдаемость, безопасность, производительность.
Мы строим ML-платформу практически с нуля и можем предложить максимальную свободу по решениям — важно, чтобы платформа работала и была удобной для ML-команды.Задачи:
  • Workload orchestration (Slurm / HPC) — очереди/partitions, политики приоритетов и лимитов, fair-share, GRES, сопровождение multi-node training.
  • Compute runtime (GPU + контейнеры) — NVIDIA drivers, CUDA/driver compatibility, стабильные и воспроизводимые контейнерные окружения (в т.ч. под training).
  • Data plane (Storage) — эксплуатация Lustre, права/квоты/striping, I/O tuning и работа с локальными NVMe (scratch/cache).
  • Network fabric (Connectivity + InfiniBand) — routing/VLAN/DNS, связность кластера с внутренними сервисами, базовая эксплуатация и диагностика InfiniBand.
  • Identity, access & multi-tenancy (Security) — централизованная аутентификация (FreeIPA/LDAP), разграничение доступа к ресурсам/данным, sudo policies.
  • Reliability & operations (Observability + инциденты + perf debugging) — мониторинг/алерты (Prometheus/Grafana), runbooks, инцидент-менеджмент, системный troubleshooting и поиск узких мест (Slurm/GPU/Storage/Network), capacity planning.
Ближайшие задачи:
  • Стабилизировать и стандартизировать эксплуатацию (процессы, мониторинг, типовые сценарии).
  • Развести training и inference workloads (политики, изоляция, ресурсные границы).
  • Спроектировать inference-слой (Kubernetes-based) и план внедрения.
Требования:
  • Senior Linux (storage/FS/ACL, perf troubleshooting).
  • Практический опыт эксплуатации Slurm.
  • Опыт с NVIDIA GPU-серверами (drivers/CUDA/runtime, диагностика).
  • Понимание HPC и распределённых задач.
  • Сильная сеть: routing / VLAN.
Будет плюсом:
  • Lustre, InfiniBand.
  • FreeIPA/LDAP.
  • HPE (iLO/BIOS/firmware — если приходилось).
  • Kubernetes (особенно on-prem).
SMALL — казахстанская розничная торговая компания, владеющая собственной сетью магазинов, складов, распределительных центров, производств (фабрик-кухонь) и логистической инфраструктурой.Сейчас в компании работают более 12,000 сотрудников, количество магазинов превышает 140, а нашими клиентами являются более 7 миллионов человек.

HeadHunter

Похожие вакансии

  • Middle / Senior ML Engineer

    • Алматы
    Мы Kaspi.kz - крупнейшая технологическая компания в Казахстане, миссия которой - улучшать людям жизнь. Ежемесячно нашим супер приложением пользуются более 14 млн казахстанцев. Се…
    • 12 ч. назад
  • Application Security Engineer (Middle+, Senior)

    • Алматы
    Kaspi.kz — крупнейшая технологическая компания в Казахстане. Ежемесячно нашим суперприложением пользуются более 12 млн казахстанцев. Сейчас мы ищем Application Security Engineer …
    • 12 ч. назад
  • Senior AI/ML Engineer

    Arbuz.kz

    • Алматы
    Freedom Lifestyle — экосистема цифровых продуктов: Arbuz.kz, Freedom Travel, Freedom Ticketon и новые направления в AI и робототехнике. Мы создаём сервисы, которыми люди пользуются…
    • 18 д. назад