Аналитик-разработчик
Агентство / HR ресурс Team4you ( team4you.org )
Опыт работы от 3 до 5 лет
Мы ищем человека, который будет работать с большими объёмами неструктурированной текстовой информации. Основные задачи — собирать и исследовать текстовые данные из всех подразделений банка, формулировать и проверять гипотезы, а также готовить качественные датасеты для обучения, тестирования и промышленного запуска моделей NLP.
Что предстоит делать:
• Извлекать и объединять данные из HDFS и S3, из баз GreenPlum, OracleDB, PostgreSQL, а также из файловых хранилищ и сетевых дисков.
• Создавать понятные визуализации данных с помощью Superset и Streamlit.
• Разрабатывать и поддерживать пайплайны предобработки данных для тренировки и тестирования моделей.
• Проводить глубокий анализ данных, выдвигать гипотезы и проверять их на Python (pandas, polars) и SQL.
• Организовывать процесс разметки неструктурированных данных: от проектирования всей схемы разметки до контроля качества и валидации результатов.
• Анализировать эффективность текущих GenAI- и NLP-сервисов банка.
Что мы ожидаем от кандидата:
• Отличное владение SQL и уверенный опыт работы с реляционными СУБД и распределёнными хранилищами данных.
• Глубокие знания Python и стека анализа/визуализации: pandas, numpy, polars, matplotlib, seaborn, altair.
• Желательно понимание базовых принципов NLP и сильное желание развиваться в этой области.
• Практический опыт создания ETL/ELT-пайплайнов.
• Базовые знания Data Science будут существенным преимуществом.
