Job 502 van 517

ОТКЛИКНУТСЯ



Data Scientist Nlp


Кого мы ищем?

Мы ищем опытного и неравнодушного Senior Ds, способного возглавить обучение моделей для Nlp-сервисов с применением самого современного технологического стека, в том числе больших языковых моделей (Llm).

Кто мы?

Наша междисциплинарная команда: юристов, лингвистов, разработчиков и исследователей данных создаёт семейство продуктов, позволяющих автоматизировать разнообразные правовые экспертизы. Мы накопили обширную экспертизу в области применения трансформерных моделей для решения иерархических Ner-задач, а сейчас одними из первых в мире реализуем семейство юридических сервисов на базе Llm.

Мы создаем банковские и экосистемные LegaTech-продукты и находимся на переднем крае разработки искусственного интеллекта в сфере повышенной ответственности юриспруденции.

Наш вызов

Научить искусственный интеллект анализировать правовые риски и выдавать проекты юридических заключений по документам, предоставленным клиентами банка, создавать выверенные и юридически корректные документы, осуществлять детализированный поиск по объектам внутри документов. Сложность задач заключается в том, что используемые Ml-алгоритмы должны уметь анализировать большой объем данных из разных источников.

Обязанности

Чем предстоит заниматься

У вас будет возможность участвовать во всех этапах реализации Nlp/Ai задач от поиска релевантных статей на Arxiv и проведения экспериментов до проверки моделей на реальных данных и вывода в production. Работа связана с внедрением больших лингвистических моделей Llm в наши процессы:

Анализ задач и подбор адекватных Sota-решений, быстрая оценка эффективности их применения, оценка необходимых ресурсов (данные, вычисления), проверка гипотез, выработка плана разработки.

Подготовка требований к составу, объему и форматам данных, необходимых для дообучения на примерах (Sft supervised fine-tuning) Llm на специализированном юридическом домене, взаимодействие с функциями Da/De.

Организация процесса превращение Gpt моделей в InstructGpt по методологии Rlhf (обучение с подкреплением по обратной связи от человека).

Участие в разработки инструментов разметки для целей тренировки Rm (модуля наград Rl-цикла тренировки Llm).

Автогенерация обучающих примеров для InstructGpt и другие способы уменьшения издержек в процессе адаптации Llm под требования пользователей (Human tasks Alignment)

Изучение, разработка и внедрение подходов, обеспечивающих высокий уровень честности (Honest) моделей, в том числе с самодиагностикой это важно для правовой экспертизы.

Улучшение уже применяющихся компонент, моделей и пайплайнов сегментации и классификации, извлечения и связывания сущностей в используемом нами подходе к решению задачи Ner, работа над ошибками моделей, доработка архитектуры.

Мы также рассчитываем на активное участие успешных кандидатов в подготовке пилотных решений и демонстрации Ai-продуктов перспективным клиентам вне Сбера.

Требования

Наш текущий технологический стек:

Модели: Mt0, T5, Bert (RuBert-Base), Llm (LlaMa-2 и, конечно же, GigaChat)

PyTorch, Ml Flow

pandas, numpy, scipy, matplotlib, seaborn

PostgreSql, MongoDb, Redis, Elasticsearch

Docker, Kubernetes,

Собственные инструменты и ресурс разметки

Наши ожидания от кандидатов:

Понимание архитектуры и принципов обучения больших лингвистических моделей (Llm) и генеративных трансформеров (Gpt-3 и выше).

Понимание принципов обучения и применения моделей обучения с подкреплением (Reinforced Learning).

Понимание принципов квантизации нейронных сетей.

Готовность работать в команде и применять Git, Jira, Confluence и другие средства командной работы.

Высокая степень самоорганизации.

Подробное написание документации к разработанным продуктам и поддержание её в актуальном состоянии.

Готовность браться за нестандартные, сложные задачи.

Условия

Что мы предлагаем

Работа среди сильных специалистов в своей области. В нашей команде работают выпускники Мфти, Мгу, Вшэ, Мгюа

Возможности саморазвития: оплата поездок на конференции, прохождение курсов, спортзал. Также приветствуется научная деятельность и публикации статей/тезисов конференций.

Дмс для сотрудника и его родственников.

Льготная ипотека в Сбере.

Требуется data scientist nlp

Аналитик, data scientist, разработчик, программист, developer, специалист по работе с большими данными, специалист по анализу данных, специалист по большим данным, специалист по обработке больших данных

ОТКЛИКНУТСЯ

Другие вакансии по поиску