Data engineer

Прямой работодатель  Леруа Мерлен  ( leroymerlin.ru )
Москва, Россия
Джуниор • Миддл • Сеньор
Аналитика, Data Science, Big Data • Apache Spark • Hadoop • Data Analysis • ML/AI • Логистика и транспорт
25 января
Работа в офисе
Опыт работы любой
от 160 000 ₽
Работодатель  Леруа Мерлен 
Описание вакансии

Мы – новая команда Даты в логистике, которой предстоит развить культуру работы с данными и их применения для принятия ключевых стратегических и операционных решений. И для этого нам нужен опытный дата инженер. В команде есть 3 ключевых направления:

  • Техническое развитие даты. Функции этого направления - обеспечить наличие и консистетность данных из систем источников в едином месте для создания аналитической отчетности
  • Прозрачность - сделать логистику прозрачной для её сотрудников и сотрудников других отделов, а также дать возможность сотрудникам принимать решения базируясь на данных, а не на интуиции. Команда работает над разработкой онлайн дашбордов на базе оперативных данных и разработкой системы контроля ключевых операционных и финансовых метрик на базе аналитических данных.
  • Реализация ML проектов – в этом блоке мы планируем работать над проектами по оптимизации логистических процессов (склада, транспортировки, контроля поставок..) разрабатывая ML инструменты для улучшения алгоритма выбора просчета логистических объектов.

Задачи, которые могут стать твоими:

  • Развертывание DWH для near-real-time данных
  • Интеграция данных из логистических систем (WMS, TMS, SWP, YMS и т.д.) в DataLake (GreenPlum)
  • Организация процесса поддержки интеграционных решений и хранилищ исторических и оперативных данных
  • Создание масштабных витрин под систему логистических метрик.

 

Обязанности:

  • Обеспечить сбор и организовать процесс загрузки данных в аналитические системы, включая получение структурированных и не структурированных данных из различных источников, подготовку, очистку и предобработку данных из внешних источников, построение агрегатов
  • Создавать и улучшать процессы обработки данных
  • Разрабатывать схемы подключения новых источников в DataLake
  • Принимать участие в архитектурных решениях
  • Разрабатывать процедуры формирования детального слоя данных и слоя витрин DataLake
  • Реализовывать процессы CI/CD и мониторинга разработанных процессов обработки данных (Grafana, Prometheus)
  • Писать manual и automated DQ тесты
  • Документировать свою работу в Confluence
  • Работать в Jira

Требования:

  • Знания принципов работы БД, построения ХД;
  • Опыты работы разработки ETL процессов (SSIS, NiFi, Pentaho, Informatica, Spark);
  • Имеет опыт работы с системами контроля версий (Git);
  • Опыт работы с высоконагруженными распределенными системами хранения и обработки данных;
  • Отличное знание SQL, опыт оптимизации запросов;
  • Опыт самостоятельного ведения проектов, прямого общения с бизнесом;
  • Желание обучаться и развиваться;
  • Опыт разработки на Python/Scala или Java будет большим плюсом.

 

Технологический стэк

  • SQL
  • Git
  • Python/Scala
  • Apache Apache Nifi, Superset, Spark
  • Kafka
  • GreenPlum
  • Airflow

Специализация
Аналитика, Data Science, Big DataApache SparkHadoop
Отрасль и сфера применения
Data AnalysisML/AIЛогистика и транспорт
Уровень должности
ДжуниорМиддлСеньор
Загрузка формы отклика...