Middle/Senior Data engineer
Прямой работодатель ЦИАН ГРУПП ( cian.ru )
Опыт работы любой
Циан — публичная IT-компания, крупнейший в России сервис для поиска недвижимости, входит в мировой топ-10.
Больше 20 лет мы помогаем быстрее решать вопросы с жилой и коммерческой недвижимостью: найти, оценить, купить, снять, продать, сдать и оформить сделку без рисков. Мы делаем сервисы, которые помогают владельцам недвижимости, застройщикам, агентам и обычным людям оптимизировать рутину поиска и продаж.
Ежемесячная аудитория около 18,7 млн. человек.
О команде
Все команды, работающие с данными, объединены в большое Machine Learning направление в Циан. Сейчас в нем 23 человека, это DS, DE, MLOps, DA и др.
Мы расширяем команду ML, поэтому открыли две новые позиции: Senior и Middle DE.
Задачи
- Налаживание регулярных процессов подготовки и поставки данных для продуктовых команд и data scientist-ов
- Real-time обработка и поставка больших данных в различные хранилища для быстрого доступа
- Участие в разработке фреймворков и библиотек для пайплайнов обработки данных
- Участие в проектировании архитектуры и выборе технологий
- Участие в разработке Feature Store для команды Data Science. Это витрина данных, на которую потом DS собирают данные и строят модели. Сейчас есть батчовый и стриминговый фича стор
Стек
- Большой Hadoop кластер (>1.5 Пбайт)
- Python, PySpark для написания тулинга и пайплайнов
- Airflow для шедулинга джоб
- Kafka для доставки данных из продовых баз в кластер
- Trino для ad-hoc запросов
- Java/Scala для фича стора
- Spark Streaming для доставки самых свежих данных на вход реалтайм моделям
Мы видим на этой позиции человека, который
- Имеет опыт работы с Hadoop стеком от 2х лет
- Верхнеуровнево понимает архитектуру работы HDFS: какие типы нод за что отвечают, как работает Erasure Coding
- Имеет опыт работы со Spark: может объяснить что такое драйвер и экзекьюторы, пояснить за ленивость и actions, как связаны RDD и Dataframe, имел опыт тюнинга джоб: dynamic vs static allocation, cores & memory, memory vs memoryOverhead, понимает как устроен pyspark, взаимодействие между jvm и python процессами
- Spark Streaming: написание работающих streaming пайплайнов, может рассказать, что такое Structured Streaming
- Кодит на Python (не ниже middle): основные типы и структуры данных, понимание концепций работы async кода и его отличий от классической модели, OOP, декораторы/Генераторы/Итераторы/context manager
- Работал с Kafka
Что мы предлагаем
- Удаленную работу с возможностью приходить в офис в Москве, Санкт-Петербурге и Новосибирске. В офисе – кухни, оборудованные всем необходимым, а также снеки, фрукты, кофе и чай, бесплатная авто и вело парковки;
- Рост и развитие: в первые месяцы у каждого сотрудника есть ментор, после появляется личный план развития и возможность прокачивать soft/ hard skills на практике, обучении, конференциях;
- Плюшки: ДМС с первых дней (стоматология, госпитализация, полис ВЗР), ежегодная компенсация спорта, 5 day off в год, помимо основного отпуска.