Эта вакансия была перемещена в архив. Возможно она уже не актуальна и рекрутер больше не принимает отклики на эту вакансию. Вы можете найти актуальные похожие вакансии

Middle/Senior Data engineer

Прямой работодатель ЦИАН ГРУПП ( cian.ru )

Москва, Россия

Миддл • Сеньор

Аналитика, Data Science, Big Data • Apache Spark • Hadoop • Cassandra • Hive • Spark • Desktop • ML/AI • WEB

6 апреля 2022

Удаленная работа
Опыт работы любой

Работодатель ЦИАН ГРУПП

Короткая ссылка: gkjb.ru/hXp6

Описание вакансии

Циан — публичная IT-компания, крупнейший в России сервис для поиска недвижимости, входит в мировой топ-10.

Больше 20 лет мы помогаем быстрее решать вопросы с жилой и коммерческой недвижимостью: найти, оценить, купить, снять, продать, сдать и оформить сделку без рисков. Мы делаем сервисы, которые помогают владельцам недвижимости, застройщикам, агентам и обычным людям оптимизировать рутину поиска и продаж.

Ежемесячная аудитория около 18,7 млн. человек.

О команде

Все команды, работающие с данными, объединены в большое Machine Learning направление в Циан. Сейчас в нем 23 человека, это DS, DE, MLOps, DA и др.

Мы расширяем команду ML, поэтому открыли две новые позиции: Senior и Middle DE.

Задачи

Налаживание регулярных процессов подготовки и поставки данных для продуктовых команд и data scientist-ов
Real-time обработка и поставка больших данных в различные хранилища для быстрого доступа
Участие в разработке фреймворков и библиотек для пайплайнов обработки данных
Участие в проектировании архитектуры и выборе технологий
Участие в разработке Feature Store для команды Data Science. Это витрина данных, на которую потом DS собирают данные и строят модели. Сейчас есть батчовый и стриминговый фича стор

Стек

Большой Hadoop кластер (>1.5 Пбайт)
Python, PySpark для написания тулинга и пайплайнов
Airflow для шедулинга джоб
Kafka для доставки данных из продовых баз в кластер
Trino для ad-hoc запросов
Java/Scala для фича стора
Spark Streaming для доставки самых свежих данных на вход реалтайм моделям

Мы видим на этой позиции человека, который

Имеет опыт работы с Hadoop стеком от 2х лет
Верхнеуровнево понимает архитектуру работы HDFS: какие типы нод за что отвечают, как работает Erasure Coding
Имеет опыт работы со Spark: может объяснить что такое драйвер и экзекьюторы, пояснить за ленивость и actions, как связаны RDD и Dataframe, имел опыт тюнинга джоб: dynamic vs static allocation, cores & memory, memory vs memoryOverhead, понимает как устроен pyspark, взаимодействие между jvm и python процессами
Spark Streaming: написание работающих streaming пайплайнов, может рассказать, что такое Structured Streaming
Кодит на Python (не ниже middle): основные типы и структуры данных, понимание концепций работы async кода и его отличий от классической модели, OOP, декораторы/Генераторы/Итераторы/context manager
Работал с Kafka

Что мы предлагаем

Удаленную работу с возможностью приходить в офис в Москве, Санкт-Петербурге и Новосибирске. В офисе – кухни, оборудованные всем необходимым, а также снеки, фрукты, кофе и чай, бесплатная авто и вело парковки;
Рост и развитие: в первые месяцы у каждого сотрудника есть ментор, после появляется личный план развития и возможность прокачивать soft/ hard skills на практике, обучении, конференциях;
Плюшки: ДМС с первых дней (стоматология, госпитализация, полис ВЗР), ежегодная компенсация спорта, 5 day off в год, помимо основного отпуска.

Специализация
Аналитика, Data Science, Big Data Apache Spark Hadoop Cassandra Hive Spark
Отрасль и сфера применения
Desktop ML/AI WEB
Уровень должности
Миддл Сеньор

Middle/Senior Data engineer

Прямой работодатель ЦИАН ГРУПП ( cian.ru )

Вакансии от "ЦИАН ГРУПП"

Еще интересные вакансии