Data Scientist

Прямой работодатель  Леруа Мерлен  ( leroymerlin.ru )
Москва, Россия
Джуниор • Миддл
Аналитика, Data Science, Big Data • ML/AI • Логистика и транспорт
25 января
Работа в офисе
Опыт работы от 1 года до 3х лет
от 200 000 ₽
Работодатель  Леруа Мерлен 
Описание вакансии

Задачи позиции: 

• Создание модели по поиску заказов, прибывших в магазины, с потенциальными расхождениями от поставщиков. Каждый день во все магазины компании прибывает большое количество товаров от поставщиков. Для проверки качества поставок заказы пересчитываются при приемке от поставщиков, на что тратиться большое количество ресурсов. Задача данной модели – формировать предложения по проверке заказов с наибольшей вероятностью ошибок от поставщиков, основываясь на деталях истории прошлых проверок и других возможных факторах. 

• Создание модели по поиску потенциальных ошибок в паллетах, собираемых на распределительных центрах. 5 распределительных центров компании ежедневно собирают заказы, которые размещают магазины. В процессе сборки заказов могут быть совершены ошибки из-за человеческого фактора и/или несовершенства процесса. Для обеспечения качества работает процесс контроля уже собранных заказов, на который тратится большое количество ресурсов. Задача данной модели – формировать предложения по проверке заказов с наибольшей вероятностью ошибок, основываясь на деталях истории прошедших контролей и других возможных факторах. 

• Тюнинг и поддержка модели по поиску заказов, прибывших на распределительные центры, с потенциальными расхождениями от поставщиков. 

• Участие в смежных активностях команды (ad-hoc запросы по анализу данных, участие в проекте по прогнозированию объемов и ресурсов распределительных центров и т.д.)

Обязанности:

  • Формализация требований к сбору обучающей выборки;
  • Генерация и проверка гипотез;
  • Проведение исследований алгоритмов машинного обучения;
  • Дизайн, разработка и тюнинг моделей машинного обучения;
  • Построение и оптимизация пайплайнов от признаков до обучения моделей;
  • Продуктивизация ML-решений;
  • Проведение аналитических исследований и R&D на больших данных с применением ML.
  • Автоматизация процесса обработки больших данных с использованием ML для решения задач компании.
  • Обсуждение потребностей, целей и методов решений с бизнесом и data командой.
  • Нахождение оптимального архитектурного решения для продуктивизации решений.
  • Поддержка работоспособности решений, контроль качества получаемых данных.
  • Взаимодействие с заказчиками, data инженерами и архитекторами в рамках задач по разработке и внедрению моделей.
  • Разработка моделей как с использованием алгоритмов ML так и без, их внедрение в бизнес процессы компании, повышение их точности прогнозирования

Требования:

  • Опыт работы в аналитике/ data science от 1 года
  • Знание Теории вероятности, Мат. анализа и линейной алгебры, достаточного для чтения научных статей и проведения экспериментов
  • Умение проверять статистические гипотезы, знание основных критериев
  • Знание и понимание основных метрик и принципов оценки качества моделей и получаемого с их помощью результата, способов валидации моделей
  • Уверенное знание python (+ классический набор библиотек для анализа данных/ машинного обучения: scikit-learn, numpy, pandas, plotly/ matplotlib/ seaborn)
  • Опыт обучения моделей градиентного бустинга, использования одной из библиотек (Catboost, LightGBM, XGBoost)
  • Знание основ SQL, опыт работы с реляционными СУБД на уровне пользователя
  • Умение работать с Git

Несомненными плюсами будут:

  • Опыт продуктивизации моделей, поддержки ML-решений
  • Опыт fullstack/ backend разработки на python
  • Навыки работы с Linux, bash
  • Опыт работы с docker, kubernetes, jenkins, airflow, kafka, prometheus, grafana
  • Опыт работы с нереляционными БД
  • Опыт использования Pytorch / Tensorflow
  • Опыт успешного участия в соревнованиях по машинному обучению
  • Опыт написания ETL/ построения витрин

Технологический стэк:

Базовый стек, который мы используем в части ML:

XGBoost, CatBoost, ElasticSearch, scikit-learn, ClickHouse, Hive, Spark, Greenplum.

С задачами работаем в Jira, в качестве базы знаний используем Confluence.


Специализация
Аналитика, Data Science, Big Data
Отрасль и сфера применения
ML/AIЛогистика и транспорт
Уровень должности
ДжуниорМиддл
Загрузка формы отклика...