О проекте что мы делаем и зачем
Наша agile-команда создает информационную платформу Gm Ta (Global Markets Trading Analytics) в интересах Департамента Глобальных Рынков (Дгр).
Дгр предоставляет корпоративным и розничным клиентам широкий спектр продуктов и услуг на локальных и зарубежных финансовых рынках. Ключевые направления бизнеса Fx trading, Commodities, Equity, Founding, Fixed Income, Rates, Credit Valuation Adjustment, Structured Products, Investment Banking.
Этот бизнес потребляет и порождает огромное количество данных, которые должны обрабатываться c целью:
-
поддержки регулярных бизнес-операций
-
проведения Ad hoc анализа
-
подготовки регулярной аналитической / управленческой отчетности
-
разработки моделей машинного обучения, направленных на решение широкого спектра прикладных задач прогнозирования, классификации, кластеризации, выявления поведенческих паттернов и отклонений от них, сентимент-анализ и т.д.
Разрабатываемая нами информационная платформа высоконагруженное решение, призванное обеспечить достижение всех этих целей.
Текущий инструментальный стек платформы:
-
Python-скрипты, Java
-
Kafka, AirFlow
-
Ms Sql, Greenplum, PostgreSql, InfluxDb
-
Grafana, Qlik Sense
-
Python Ml/Dl libraries, PySpark, PyTorch, TensorFlow
Вот примеры некоторых наших задач:
-
Анализ чатов трейдеров. Чаты трейдеров представляют собой поток текстовых сообщений (переписку), которыми обмениваются трейдеры в процессе проведения торгов. Переписка содержит много сокращений и аббревиатур, причем один и тот же объект может обозначаться по-разному. Необходимо анализировать этот поток в режиме near-real-time (не реже 1 раз в 5 секунд) и извлекать из полученных сообщений данные о торговых фактах, в том числе: инструменты, цены, объемы сделок, начало/конец аукционов, текущие котировки, факты продаж и любую другую информацию, которая может быть выделена и систематизирована. Полученные результаты должны быть обработаны и приведены к единому формату (инструменты, даты, факты) с целью профилирования и сегментации трейдеров, формирования объемного представления о рынке и принятия оптимальных решений о проведении сделок
-
Анализ новостного потока. Необходимо в приходящем из разных источников новостном потоке определять тематику каждой новости и ее эмоциональную окраску (позитив/негатив), выделять в контенте новости объекты, с которыми она связана компании, государства и т.п. Кроме того, необходимо отслеживать каждую тему во времени, находить дубликаты новостей, оценивать интенсивность новостного потока и его влияние на спрос и котировки финансовых инструментов, прямо или косвенно связанных с объектами новостей
-
Анализ отклонений в поведении клиентов. Клиенты, совершающие операции на валютном рынке, характеризуются определенными паттернами своих операций. Количество таких клиентов огромно, соответственно каждый день возникает значимый поток транзакций, связанных с ошибками/проблемами на стороне клиентов выбор не той валютной пары, ошибка в порядке суммы операции, несвойственное клиенту отсутствие активности (как правило, из-за проблем с доступом к торговому терминалу). Необходимо выявлять отклонения от паттернов клиентских операций и формировать сигналы, позволяющие нормализовать ситуацию
-
Сегментация клиентов для оптимизации продуктового предложения и цены. Клиенты характеризуются набором атрибутов, включающих принадлежность к отрасли, размер выручки, потребляемые финансовые продукты, паттерны движения денег на счетах, связанные с этим операции и т.д. Необходимо анализировать такие данные о клиентах с целью их сегментации и определения для сформированных сегментов перечней наиболее подходящих финансовых продуктов в допустимых ценовых диапазонах. Также необходимо выявлять факторы, сигнализирующие о наиболее подходящем моменте для предложения сделки клиенту
-
Выявление фрода. Клиенты на валютном рынке, могут совершать операции, характеризуемые как fraud в отношении банка. Необходимо выявлять паттерны таких операций и своевременно реагировать на их появление в клиентском профиле, регулируя, соответствующим образом, ценовое предложение для таких клиентов
-
Анализ данных аукционов. Во время проведения аукционов на различных торговых площадках необходимо, в режиме near-real-time (не реже 1 раз в 5 секунд), извлекать и анализировать данные об инструментах и ценах, опубликованных на этих торговых площадках с целью формирования объемного представления о рынке и принятия оптимальных решений о проведении сделок
-
Хеджирование риска курсовых разниц по карточным операциям. Риск курсовых разниц возникает при оплате товаров и услуг в валюте, отличной от валюты счета карты. Валютные куры на день авторизации платежа и день расчета с международной платежной системой (Мпс), как правило, разные, что может приводить к финансовым потерям. Необходимо в день авторизации прогнозировать объемы резервирования валют для будущих расчетов с Мпс и сроки такого резервирования, учитывая, что авторизуемые суммы и суммы фактических платежей отличаются разнонаправленно
Теоретические знания
-
Математика
-
Теория вероятностей и статистика
-
Машинное обучение
-
Прикладное программирование
Уверенные практические навыки (hand zone)
-
Иностранный язык. Понимание разговорного английского языка и свободное ведение деловой переписки
-
Языки программирования Ansi Sql и Python
-
Постановка задач, работа с бизнес-заказчиком
-
Разработка полнофункционального прототипа Ml/Dl модели
-
Операционализация модели и ввод ее в эксплуатацию (Оэ/Пэ)
Условия
-
Развитая It архитектура. Мощный Gpu кластер, возможность расчётов на суперкомпьютере top-30 в мире
-
Комфортный офис по ул. Вавилова, 19
-
Скидки на продукты банка и экосистемы
-
Постоянное развитие: обучающие курсы от лучших университетов и компаний, участие в международных конференциях
-
Развитое Ds community
Требуется middle data scientist (global markets)
Аналитик, data scientist, web-разработчик, web-программист, программист python, специалист по анализу данных, специалист по большим данным, специалист по обработке больших данных, специалист по работе с большими данными, разработчик, web-developer, программист, developer python, developer