ETL разработчик
Прямой работодатель Философия ИТ ( www.fil-it.ru )
Опыт работы любой
Наша команда создает высоконагруженную информационную платформу для решения аналитических и исследовательских задач в области создания продуктов и услуг на мировых финансовых рынках: торговля валютой, ценными бумагами, производными финансовыми инструментами. Мы используем последние достижения в области Big Data, Highload и Machine Learning. Этот бизнес потребляет и порождает огромное количество данных, которые должны обрабатываться c целью:
- Разработки устойчивых потоков данных и моделей машинного обучения;
- Визуализация данных с помощью BI инструментов;
- Поддержки регулярных бизнес-операций;
- Проведения Ad hoc анализа;
- Подготовки аналитической и управленческой отчетности.
Вы сможете изнутри посмотреть, как работает глобальный финансовый рынок и получить опыт работы, востребованный в финансовых организациях по всему миру. Дополнительная информация: В департаменте загружают хранилище данных, которое основано на гринплане, Делают загрузку репликаций данных для того, чтобы модели машинного обучения могли создавать прогнозы . 2-е направление постановка модели машинного обучения на поток. Все хранится в гринплане. Модели написаны на питоне. Модели хранят свои прогнозы на гринплане.
Требования:
Обязательно:
- Хорошее знание SQL: процедуры, транзакции, аналитические функции;
- Опыт работы с MPP-решениями класса Greenplum, Teradata, Hadoop (Spark) от 2-х лет;
- Опыт работы с ETL-решением класса Informatica, SAS DIS от 2-х лет.
Важное:
- Знание деталей реализации СУБД: план запроса, физические виды join, хинты, секционирование, индексы, блокировки, строковое и колоночное хранение, управление ресурсами;
- Знание принципов и подходов к моделированию баз данных: нормализация, Data Vault, Кимбалл, Инмон;
- Практические знания Python, предстоит работать с кодом на Python (рефакторинг);
- Опыт работы с хранилищами данных;
- Понимание кода моделей ML на Python.
Желательно:
- Опыт работы с CDL/CDP решениями на базе Jenkins и Bitbucket/Git;
- Сертификаты CCA Spark and Hadoop Developer, CCA Data Analyst, Java SE/EE Developer;
- Опыт работы с Flink/Kafka Streams/NiFi;
- Опыт работы с Python, PySpark, TensorFlow;
Нужны смешанные навыки – дата инженер + ML-инженер, т.к. предполагаются задачи вывода в ПРОД ДС-моделей
Обязанности:
- Рефакторинг прототипов моделей машинного обучения от команды DataScience – адаптация кода к пайплайну поставки моделей в промышленную эксплуатацию с сохранением результатов и оценки моделей в хранилище Greenplum (MLOps);
- Проектирование и разработка корпоративной аналитической платформы;
- Разработка процессов построения пакетной и near real time аналитики;
- Разработка, поддержка и оптимизация ETL на платформах Greenplum и Hadoop;
- Поддержание технической документации в актуальном состоянии.