Кого мы ищем?
Мы ищем опытного и неравнодушного Senior Ds, способного возглавить обучение моделей для Nlp-сервисов с применением самого современного технологического стека, в том числе больших языковых моделей (Llm).
Кто мы?
Наша междисциплинарная команда: юристов, лингвистов, разработчиков и исследователей данных создаёт семейство продуктов, позволяющих автоматизировать разнообразные правовые экспертизы. Мы накопили обширную экспертизу в области применения трансформерных моделей для решения иерархических Ner-задач, а сейчас одними из первых в мире реализуем семейство юридических сервисов на базе Llm.
Мы создаем банковские и экосистемные LegaTech-продукты и находимся на переднем крае разработки искусственного интеллекта в сфере повышенной ответственности юриспруденции.
Наш вызов
Научить искусственный интеллект анализировать правовые риски и выдавать проекты юридических заключений по документам, предоставленным клиентами банка, создавать выверенные и юридически корректные документы, осуществлять детализированный поиск по объектам внутри документов. Сложность задач заключается в том, что используемые Ml-алгоритмы должны уметь анализировать большой объем данных из разных источников.
У вас будет возможность участвовать во всех этапах реализации Nlp/Ai задач от поиска релевантных статей на Arxiv и проведения экспериментов до проверки моделей на реальных данных и вывода в production. Работа связана с внедрением больших лингвистических моделей Llm в наши процессы:
Анализ задач и подбор адекватных Sota-решений, быстрая оценка эффективности их применения, оценка необходимых ресурсов (данные, вычисления), проверка гипотез, выработка плана разработки.
Подготовка требований к составу, объему и форматам данных, необходимых для дообучения на примерах (Sft supervised fine-tuning) Llm на специализированном юридическом домене, взаимодействие с функциями Da/De.
Организация процесса превращение Gpt моделей в InstructGpt по методологии Rlhf (обучение с подкреплением по обратной связи от человека).
Участие в разработки инструментов разметки для целей тренировки Rm (модуля наград Rl-цикла тренировки Llm).
Автогенерация обучающих примеров для InstructGpt и другие способы уменьшения издержек в процессе адаптации Llm под требования пользователей (Human tasks Alignment)
Изучение, разработка и внедрение подходов, обеспечивающих высокий уровень честности (Honest) моделей, в том числе с самодиагностикой это важно для правовой экспертизы.
Улучшение уже применяющихся компонент, моделей и пайплайнов сегментации и классификации, извлечения и связывания сущностей в используемом нами подходе к решению задачи Ner, работа над ошибками моделей, доработка архитектуры.
Мы также рассчитываем на активное участие успешных кандидатов в подготовке пилотных решений и демонстрации Ai-продуктов перспективным клиентам вне Сбера.
Наш текущий технологический стек:
Модели: Mt0, T5, Bert (RuBert-Base), Llm (LlaMa-2 и, конечно же, GigaChat)
PyTorch, Ml Flow
pandas, numpy, scipy, matplotlib, seaborn
PostgreSql, MongoDb, Redis, Elasticsearch
Docker, Kubernetes,
Собственные инструменты и ресурс разметки
Наши ожидания от кандидатов:
Понимание архитектуры и принципов обучения больших лингвистических моделей (Llm) и генеративных трансформеров (Gpt-3 и выше).
Понимание принципов обучения и применения моделей обучения с подкреплением (Reinforced Learning).
Понимание принципов квантизации нейронных сетей.
Готовность работать в команде и применять Git, Jira, Confluence и другие средства командной работы.
Высокая степень самоорганизации.
Подробное написание документации к разработанным продуктам и поддержание её в актуальном состоянии.
Готовность браться за нестандартные, сложные задачи.
Что мы предлагаем
Работа среди сильных специалистов в своей области. В нашей команде работают выпускники Мфти, Мгу, Вшэ, Мгюа
Возможности саморазвития: оплата поездок на конференции, прохождение курсов, спортзал. Также приветствуется научная деятельность и публикации статей/тезисов конференций.
Дмс для сотрудника и его родственников.
Льготная ипотека в Сбере.
Требуется data scientist nlp
Аналитик, data scientist, разработчик, программист, developer, специалист по работе с большими данными, специалист по анализу данных, специалист по большим данным, специалист по обработке больших данных