Аналитик чековых данных

SAUDATA

  • Нур-Султан
  • Постоянная работа
  • Полная занятость
  • 24 д. назад
Мы ищем Аналитика данных в команду Data. Ваша основная задача — вести подготовку товарных категорий по чековым данным: выделение категорий через регулярные выражения (Regex), чистка, контроль качества, сбор витрин и базовой статистики.Важно: Это аналитическая роль с фокусом на качество данных (Data Quality) и работу с текстом. Вакансия не подойдет тем, кто ищет развитие в Data Engineering, инфраструктуре, DWH или ETL/ELT процессах.ЗадачиВыделять товарные категории из массива чеков по неструктурированным названиям товаров через регулярные выражения на казахском, русском и английском языках.Проводить итеративную чистку данных, работать со словарями, снижать долю мусора и не терять важные строки (разбор пограничных кейсов).Писать SQL-запросы в Doris, собирать итоговые таблицы в хранилище, готовить SQL-скрипты и Jupyter-ноутбуки для проверки качества и расчёта метрик.Собирать базовые отчёты по категории: динамика, доли, распределения, контрольные срезы, краткие выводы.При необходимости упаковывать расчёты в Airflow DAG или поддерживать существующие DAG.Ожидаемый результат через 2 месяцаВы самостоятельно собираете новую категорию за 2 рабочих дня: правило выделения, контроль качества, итоговая таблица в хранилище и ноутбук с проверками.Требования (Must Have)Уверенный SQL и опыт работы с большими данными. Умение писать сложные запросы и проверки, любовь к контролю качества (QA данных).Отличное владение регулярными выражениями. Практический опыт построения правил выделения сущностей из текста: категории, бренды, словари, нормализация.Python для анализа данных: обработка таблиц, проверки качества, работа с текстом.Готовность к монотонной, скрупулезной работе и повторяющимся задачам. Умение доводить процесс до стабильного состояния без потери качества.Строгое соблюдение конфиденциальности: готовность работать с чувствительными данными локально, без выноса во внешние контуры и без использования внешних сервисов (включая ChatGPT и другие ИИ-инструменты).Самостоятельность: умение разбирать задачу, предлагать план и фиксировать критерии качества.Языки: Русский — свободно. Казахский и английский — на уровне уверенного чтения и понимания типовых слов в товарных названиях.Требования (Nice to Have)Опыт с чековыми данными, ритейлом, товарными категориями, корзинами, ценами, промо.Опыт с Airflow. Умение писать DAG, разбираться с логами.Опыт работы с Doris или близкими по смыслу БД.Опыт работы с Power BI.Привычка документировать правила выделения категорий и поддерживать их в виде понятного справочника.Что точно НЕ подойдёт (Стоп-факторы)Ваша главная цель — позиция Data Engineer, и вам интереснее инфраструктура, пайплайны и DWH, чем аналитика и метрики.Вам критически важно постоянное разнообразие задач, и вы быстро выгораете от рутины, словарей и скрупулёзной работы с текстом.Сложно принимать правки, менять решение после проверки на данных или разбирать ошибки.Нет примеров самостоятельной работы с SQL и чисткой текстовых полей.Часто теряются сроки или задача уходит в бесконечную шлифовку.Формат и процессРабота удалённая, стандартный рабочий день.Как откликнутьсяВ этой роли критически важна внимательность к деталям. Чтобы мы могли быстро рассмотреть вашу кандидатуру, пожалуйста, вместо стандартного сопроводительного письма ответьте на 5 вопросов:Какой диапазон зарплаты для вас приемлем и какой формат работы рассматриваете?Сколько процентов рабочего времени вы готовы уделять рутинной работе с правилами, словарями и проверками качества?Приведите пример вашей монотонной задачи, которая длилась 2–4 недели: в чем она заключалась и как вы поддерживали высокое качество результатов?Куда вы хотите расти профессионально: в аналитику качества данных (Data Quality / Analytics) или в инженерию и инфраструктуру (Data Engineering)?Как вы относитесь к запрету на использование внешних сервисов (включая ИИ-чаты) при обработке данных из-за строгой конфиденциальности? Был ли у вас опыт работы в таких закрытых контурах?НАШ САЙТ https://saudata.kzSAUDATA
Анализ товарного рынка на базе фискальных данныхSAUDATA – это инструмент для анализа рынка, который основан на фактах продаж и глубоком видении рынка в различных индустриях, опираясь на большие данные и технологии.SAUDATA поможет любому FMCG-игроку получить независимую оценку: объемов продаж товаров повседневного спроса (что, где и когда было куплено) информацию о доле рынка информацию о ценах состоянии дистрибуции и многих других бизнес-показателях чтобы сравнивать собственные результаты с конкурентами и корректировать стратегию продаж в зависимости от того, как меняется конъюнктура рынка, спрос и покупательские предпочтения.Наш источник данных – верифицированные данные фактических покупок с фискальных чеков контрольно-кассовых аппаратов розничной торговли, передаваемые в Комитет государственных доходов РК аккредитованным оператором фискальных данных (ОФД).Клиенты:ДистрибьюторыПроизводителиОнлайн-торговля (E-comm)Современная торговляТрадиционная торговляОптовая торговляHoReCa

HeadHunter

Похожие вакансии

  • Аналитик данных (BI, макроэкономическое направление)

    Elite Business Group

    • Нур-Султан
    Крупная финансовая организация, осуществляющая деятельность в сфере развития агропромышленного комплекса и реализующая программы кредитования по приоритетным направлениям сельскохо…
    • 26 д. назад
  • Аналитик данных/Data Scientist

    КАЗГИСА

    • Нур-Султан
    • 300 000 тнг в месяц
    Обязанности: Участие в разработке, внедрении ИАС в государственных органах и акиматах, создание архитектуры настройку и мониторинг работы Анализ и обработка данных, создание ана…
    • 27 д. назад
  • Старший аналитик данных

    BI Group

    • Нур-Султан
    Обязанности: Сбор, очистка и структурирование данных из различных систем (1С, CRM, Opera, Cognos, чаты, IVR и др.) Интеграция данных из нескольких источников и выстраивание еди…
    • 27 д. назад