⚠︎ Архивная вакансия
Эта вакансия была перемещена в архив. Возможно она уже не актуальна и рекрутер больше не принимает отклики на эту вакансию. Вы можете  найти актуальные похожие вакансии

Middle/Senior Data engineer

Прямой работодатель  ЦИАН ГРУПП ( cian.ru )
Москва, Россия
Миддл • Сеньор
Аналитика, Data Science, Big Data • Apache Spark • Hadoop • Cassandra • Hive • Spark • Desktop • ML/AI • WEB
6 апреля 2022
Удаленная работа
Опыт работы любой
Работодатель  ЦИАН ГРУПП
Описание вакансии

Циан — публичная IT-компания, крупнейший в России сервис для поиска недвижимости, входит в мировой топ-10.

Больше 20 лет мы помогаем быстрее решать вопросы с жилой и коммерческой недвижимостью: найти, оценить, купить, снять, продать, сдать и оформить сделку без рисков. Мы делаем сервисы, которые помогают владельцам недвижимости, застройщикам, агентам и обычным людям оптимизировать рутину поиска и продаж.

Ежемесячная аудитория около 18,7 млн. человек.

О команде

Все команды, работающие с данными, объединены в большое Machine Learning направление в Циан. Сейчас в нем 23 человека, это DS, DE, MLOps, DA и др.

Мы расширяем команду ML, поэтому открыли две новые позиции: Senior и Middle DE.

Задачи

  • Налаживание регулярных процессов подготовки и поставки данных для продуктовых команд и data scientist-ов
  • Real-time обработка и поставка больших данных в различные хранилища для быстрого доступа
  • Участие в разработке фреймворков и библиотек для пайплайнов обработки данных
  • Участие в проектировании архитектуры и выборе технологий
  • Участие в разработке Feature Store для команды Data Science. Это витрина данных, на которую потом DS собирают данные и строят модели. Сейчас есть батчовый и стриминговый фича стор

Стек

  • Большой Hadoop кластер (>1.5 Пбайт)
  • Python, PySpark для написания тулинга и пайплайнов
  • Airflow для шедулинга джоб
  • Kafka для доставки данных из продовых баз в кластер
  • Trino для ad-hoc запросов
  • Java/Scala для фича стора
  • Spark Streaming для доставки самых свежих данных на вход реалтайм моделям

Мы видим на этой позиции человека, который

  • Имеет опыт работы с Hadoop стеком от 2х лет
  • Верхнеуровнево понимает архитектуру работы HDFS: какие типы нод за что отвечают, как работает Erasure Coding
  • Имеет опыт работы со Spark: может объяснить что такое драйвер и экзекьюторы, пояснить за ленивость и actions, как связаны RDD и Dataframe, имел опыт тюнинга джоб: dynamic vs static allocation, cores & memory, memory vs memoryOverhead, понимает как устроен pyspark, взаимодействие между jvm и python процессами
  • Spark Streaming: написание работающих streaming пайплайнов, может рассказать, что такое Structured Streaming
  • Кодит на Python (не ниже middle): основные типы и структуры данных, понимание концепций работы async кода и его отличий от классической модели, OOP, декораторы/Генераторы/Итераторы/context manager
  • Работал с Kafka

Что мы предлагаем

  • Удаленную работу с возможностью приходить в офис в Москве, Санкт-Петербурге и Новосибирске. В офисе – кухни, оборудованные всем необходимым, а также снеки, фрукты, кофе и чай, бесплатная авто и вело парковки;
  • Рост и развитие: в первые месяцы у каждого сотрудника есть ментор, после появляется личный план развития и возможность прокачивать soft/ hard skills на практике, обучении, конференциях;
  • Плюшки: ДМС с первых дней (стоматология, госпитализация, полис ВЗР), ежегодная компенсация спорта, 5 day off в год, помимо основного отпуска.

Специализация
Аналитика, Data Science, Big DataApache SparkHadoopCassandraHiveSpark
Отрасль и сфера применения
DesktopML/AIWEB
Уровень должности
МиддлСеньор