⚠︎ Архивная вакансия
Эта вакансия была перемещена в архив и исключена из общего списка. Она не актуальна на текущий момент. Вы можете найти актуальные похожие вакансии

Senior Data Scientist

Прямой работодатель  ПАО "СБЕРБАНК"
Санкт-Петербург, Россия
Сеньор
Аналитика, Data Science, Big Data • Data scientist • Data Science • Machine Learning • SQL • Python • Spark • Hive • Банковская и страховая сфера
20 сентября 2019 в 10:14
Работа в офисе
Опыт работы от 1 года до 3х лет
Работодатель  ПАО "СБЕРБАНК"
Описание вакансии

Мы ищем Senior Data Scientis’а, который готов взять на себя комплексную задачу и качественно довести её до результата. Сотруднику предстоит отвечать за аналитическую часть и прототипирование, также набрать и сплотить вокруг себе команду разработчиков исследователей.

Корпоративный блок отвечает за работу с юридическими лицами и индивидуальными предпринимателями от микро бизнеса до крупного. Основными продуктами являются банковские услуги (кредиты, РКО, депозиты и тд), а также аналитические услуги и юридическое сопровождение бизнеса.

Что нужно делать:

Основное направление - определять неблагонадежных клиентов (мошенников отмывающих деньги и помогающих терроризму). Она включает в себя следующие задачи:

• Построение скоринговой модели оценки благонадежности на внутренних данных Сбербанка
• Улучшение модели за счет связей на внешних данных по учредителям и руководителям (ИГРИП, ЕГРЮЛ)
• Улучшение модели за счет данных телеком операторов (связи по звонкам, смс, геолокации)
• Улучшение модели за счет связей и отношений в социальных сетях (френды, подписки, лайки, интересы)
• Улучшение модели за счет скорингово балла по активности в интернете ( модель мэйл.ру)
• Построение сегментации различных типов неблагонадежности
• ПОтроение сегментации различного уровня неблагонадежности
• Построение прогнозной модели имзенения благонадежности в будущем
• Построения модели "обеления" (снижения рисков со временм)
• Оценка влияния модели на финансовые результаты БАнка и оптимизация под бизнес цели
• Потроение процесса опитмизации проверок за для разных сегментов клиентов
• Оптимизация скорости проверки за счет проактивного сбора данных

Инфраструктура:

У нас есть лабораторный кластер, где довольно много возможностей, данных и различного программного обеспечения. В основном это - Spark (2.1 и 1.6), Hive, Python. Также есть возможность работать на локальных машинах с расширенным количеством оперативной памяти. Еще пользуемся SQL для работы с данными, которые лежат в DWH.

Требования:

  1. Постановка бизнес задачи:

• Анализ бизнес нужд и постановка задачи на построение модели;
• Анализ имеющихся/ доступных/ необходимых данных для построения модели;
• Понимание необходимых машинных мощностей и ПО для решения задачи;

  1. Моделирование:

• Анализ имеющихся данных
• Моделирование прототипа:
• Чистка данных
• Разметка обучающей выборки
• Формирование признаков (фичей)
• Обучение модели
• Оценка качества модели
• Согласование модели с бизнесом (заказчиком)
• Интерпретация результатов модели

  1. Построение решения:

• Описание процесса внедрения и поддержки модели
• Написание инструкций по реализации решения

Опыт:
• Более одного года в области Data Science
• Реализованные и внедренные решения
• Понимание базы алгоритмов машинного обучения
• Знание SQL

• Знание и опыт работы со стэком технологий и алгоритмов data science для Python (Pandas, numpy, scipy, scikit-learn, XGBoost)