Аналитик чековых данных

SAUDATA

  • Нур-Султан
  • Постоянная работа
  • Полная занятость
  • 1 д. назад
РольАналитик данных в команду Data. Задача — вести подготовку товарных категорий по чековым данным: выделение категорий через регулярные выражения, чистка, контроль качества, сбор витрин и базовой статистики. Работа удалённаяЗадачиВыделять товарные категории из массива чеков по неструктурированным названиям товаров через регулярные выражения на казахском, русском и английском языках.Проводить итеративную чистку данных, снижать долю мусора и не терять важные строки.Писать SQL-запросы в Doris, собирать итоговые таблицы в хранилище, готовить SQL-скрипты и Jupyter-ноутбуки для проверки качества и расчёта метрик.При необходимости упаковывать расчёты в Airflow DAG или поддерживать существующие DAG.Собирать базовые отчёты по категории: динамика, доли, распределения, контрольные срезы, краткие выводы.Ожидаемый результат через 2 месяцаВы самостоятельно собираете новую категорию за 2 рабочих дня: правило выделения, контроль качества, итоговая таблица в хранилище и ноутбук с проверками.Требования Must HaveУверенный SQL и опыт работы с большими данными. Умение работать с регулярными выражениями, писать сложные запросы и проверки.Python для анализа данных: обработка таблиц, проверки качества, работа с текстом, построение графиков.Практический опыт построения правил выделения сущностей из текста или неструктурированных полей: категории, бренды, словари, правила классификации.Аккуратность и внимательность к деталям при работе с данными. Умение доводить до результата без потери качества.Самостоятельность. Умение разбирать задачу, предлагать план, фиксировать критерии качества и доводить до готового результата.Готовность работать с неопределённостью и быстро делать итерации по данным.Русский язык. Казахский и английский языки на уровне уверенного чтения и понимания типовых слов в товарных названиях.Требования Nice to HaveОпыт с чековыми данными, ритейлом, товарными категориями, корзинами, ценами, промо.Опыт с Airflow. Умение писать DAG, разбираться с логами и отладкой.Опыт работы с Doris или близкими по смыслу БД.Опыт работы с Power BI.Привычка документировать правила выделения категорий и поддерживать их в виде понятного справочника.Опыт коротких презентаций результатов.Что не подойдётЕсли не нравится рутина и скрупулёзная работа с текстом и данными.Если сложно принимать правки и менять решение после проверки на данных.Если часто теряются сроки или задача уходит в бесконечную шлифовку.Если не хватает внимательности и дотошности при разборе пограничных случаев.Формат и процессРабота удалённая, стандартный рабочий день, часовой пояс Астана. Процесс найма: тестовое задание, созвон с техническим собеседованием.В этой роли критически важна внимательность к деталям и работа с регулярными выражениями. Чтобы перейти к следующим шагам, пожалуйста, заполните сопроводительное при отклике, в нем кратко расскажите о вашем опыте написания сложных регулярных выражений: для какой задачи вы их применяли и с какими трудностями столкнулись при обработке русского/английского/казахского текста. Или ваш самый интересный или сложный кейс по обработке неструктурированных текстовых данных (парсинг, очистка, классификация). Какую задачу решали, какие инструменты/Regex использовали и какого результата добились?НАШ САЙТ https://saudata.kzSAUDATA
Анализ товарного рынка на базе фискальных данныхSAUDATA – это инструмент для анализа рынка, который основан на фактах продаж и глубоком видении рынка в различных индустриях, опираясь на большие данные и технологии.SAUDATA поможет любому FMCG-игроку получить независимую оценку: объемов продаж товаров повседневного спроса (что, где и когда было куплено) информацию о доле рынка информацию о ценах состоянии дистрибуции и многих других бизнес-показателях чтобы сравнивать собственные результаты с конкурентами и корректировать стратегию продаж в зависимости от того, как меняется конъюнктура рынка, спрос и покупательские предпочтения.Наш источник данных – верифицированные данные фактических покупок с фискальных чеков контрольно-кассовых аппаратов розничной торговли, передаваемые в Комитет государственных доходов РК аккредитованным оператором фискальных данных (ОФД).Клиенты:ДистрибьюторыПроизводителиОнлайн-торговля (E-comm)Современная торговляТрадиционная торговляОптовая торговляHoReCa

HeadHunter