ML инженер (middle)
Прямой работодатель Smartup ( smartup.ru )
Опыт работы от 1 года до 3х лет
Смартап - компания с международными корнями, специализирующаяся на заказной разработке технически сложных IT-решений более 19 лет. У нас за плечами большой опыт работы на глобальном рынке. Несем в себе преимущества культуры и процессов международной компании.
Реализуем проекты для таких компаний, как: Сбер, ВТБ, Газпромбанк, МТС, Яндекс, НЛМК и других.
Сейчас мы ищем ML-инженера для участия в проекте в сфере Charity Tеch (частичная занятость)
Рассматриваем кандидатов, которые фактически находятся на территории РФ.
Задачи:
- Разработка и поддержка отказоустойчивых ML-пайплайнов для классификации текстов (с использованием Airflow), включая этапы сбора данных, feature engineering, обучения, инференса и интеграции с системой разметки.
- Проектирование, обучение и дообучение моделей на основе BERT/RuBERT/Sentence Transformers для мультимаркерной классификации социального контента (мероприятия, меры поддержки, курсы и т.д.).
- Создание и поддержка высоконагруженного API (на FastAPI) для автоматической разметки контента с помощью каскадной системы: ML-модель → LLM-верификация → human-in-the-loop.
- Внедрение и настройка процесса Active Learning для итеративной разметки данных и переобучения моделей.
- Интеграция с LLM-провайдерами (YandexGPT, OpenAI) для верификации предсказаний и промпт-инжиниринга.
- Автоматизация экспериментов, версионирования данных и моделей (с использованием DVC и MLflow).
- Подготовка и обработка датасетов из гетерогенных источников (ClickHouse, PostgreSQL, CSV).
Требования:
- Опыт коммерческой разработки на Python от 2-х лет.
- Уверенное знание фреймворков для ML/NLP: PyTorch, HuggingFace Transformers, scikit-learn, sentence-transformers.
- Опыт разработки и поддержки бэкенд-сервисов на FastAPI или аналогичных фреймворках.
- Практический опыт построения и оркестрации ML-пайплайнов с помощью Apache Airflow.
- Уверенное знание и опыт работы с PostgreSQL и/или ClickHouse.
- Опыт работы с облачной инфраструктурой Yandex Cloud (или аналогичной: AWS, GCP, Azure).
- Опыт версионирования данных и моделей (DVC) и логирования экспериментов (MLflow, Weights & Biases).
- Умение работать в команде и участвовать в сквозных проектах (бэкенд, данные, ML).
Будет плюсом:
- Опыт настройки процессов Active Learning и интерактивной разметки.
- Опыт интеграции с LLM-провайдерами (YandexGPT API, OpenAI и др.) и промпт-инжиниринга.
- Опыт построения гибридных систем (ML + LLM) и каскадных классификаторов.
- Знание принципов работы и опыт развертывания LLM с помощью vLLM или аналогичных фреймворков.
- Понимание RAG-архитектур и методов смыслового поиска на основе эмбеддингов.
Мы предлагаем:
- Участие в социально значимом проекте.
- Сотрудничество в формате частичной занятости.
- Полностью удаленную работу.
При отклике, пожалуйста, укажите, сколько часов в неделю готовы работать на проекте
