Место нахождения

Москва
Москва
Россия

Дата публикации:

2024-03-14

Действительно до

2024-05-13
EUR 15.00 HOUR

Data Scientist Nlp

СБЕР
Москва
2 месяца тому назад

Кого мы ищем?

Мы ищем опытного и неравнодушного Senior Ds, способного возглавить обучение моделей для Nlp-сервисов с применением самого современного технологического стека, в том числе больших языковых моделей (Llm).

Кто мы?

Наша междисциплинарная команда: юристов, лингвистов, разработчиков и исследователей данных создаёт семейство продуктов, позволяющих автоматизировать разнообразные правовые экспертизы. Мы накопили обширную экспертизу в области применения трансформерных моделей для решения иерархических Ner-задач, а сейчас одними из первых в мире реализуем семейство юридических сервисов на базе Llm.

Мы создаем банковские и экосистемные LegaTech-продукты и находимся на переднем крае разработки искусственного интеллекта в сфере повышенной ответственности юриспруденции.

Наш вызов

Научить искусственный интеллект анализировать правовые риски и выдавать проекты юридических заключений по документам, предоставленным клиентами банка, создавать выверенные и юридически корректные документы, осуществлять детализированный поиск по объектам внутри документов. Сложность задач заключается в том, что используемые Ml-алгоритмы должны уметь анализировать большой объем данных из разных источников.

Обязанности

Чем предстоит заниматься

У вас будет возможность участвовать во всех этапах реализации Nlp/Ai задач от поиска релевантных статей на Arxiv и проведения экспериментов до проверки моделей на реальных данных и вывода в production. Работа связана с внедрением больших лингвистических моделей Llm в наши процессы:

Анализ задач и подбор адекватных Sota-решений, быстрая оценка эффективности их применения, оценка необходимых ресурсов (данные, вычисления), проверка гипотез, выработка плана разработки.

Подготовка требований к составу, объему и форматам данных, необходимых для дообучения на примерах (Sft supervised fine-tuning) Llm на специализированном юридическом домене, взаимодействие с функциями Da/De.

Организация процесса превращение Gpt моделей в InstructGpt по методологии Rlhf (обучение с подкреплением по обратной связи от человека).

Участие в разработки инструментов разметки для целей тренировки Rm (модуля наград Rl-цикла тренировки Llm).

Автогенерация обучающих примеров для InstructGpt и другие способы уменьшения издержек в процессе адаптации Llm под требования пользователей (Human tasks Alignment)

Изучение, разработка и внедрение подходов, обеспечивающих высокий уровень честности (Honest) моделей, в том числе с самодиагностикой это важно для правовой экспертизы.

Улучшение уже применяющихся компонент, моделей и пайплайнов сегментации и классификации, извлечения и связывания сущностей в используемом нами подходе к решению задачи Ner, работа над ошибками моделей, доработка архитектуры.

Мы также рассчитываем на активное участие успешных кандидатов в подготовке пилотных решений и демонстрации Ai-продуктов перспективным клиентам вне Сбера.

Требования

Наш текущий технологический стек:

Модели: Mt0, T5, Bert (RuBert-Base), Llm (LlaMa-2 и, конечно же, GigaChat)

PyTorch, Ml Flow

pandas, numpy, scipy, matplotlib, seaborn

PostgreSql, MongoDb, Redis, Elasticsearch

Docker, Kubernetes,

Собственные инструменты и ресурс разметки

Наши ожидания от кандидатов:

Понимание архитектуры и принципов обучения больших лингвистических моделей (Llm) и генеративных трансформеров (Gpt-3 и выше).

Понимание принципов обучения и применения моделей обучения с подкреплением (Reinforced Learning).

Понимание принципов квантизации нейронных сетей.

Готовность работать в команде и применять Git, Jira, Confluence и другие средства командной работы.

Высокая степень самоорганизации.

Подробное написание документации к разработанным продуктам и поддержание её в актуальном состоянии.

Готовность браться за нестандартные, сложные задачи.

Условия

Что мы предлагаем

Работа среди сильных специалистов в своей области. В нашей команде работают выпускники Мфти, Мгу, Вшэ, Мгюа

Возможности саморазвития: оплата поездок на конференции, прохождение курсов, спортзал. Также приветствуется научная деятельность и публикации статей/тезисов конференций.

Дмс для сотрудника и его родственников.

Льготная ипотека в Сбере.

Требуется data scientist nlp

Аналитик, data scientist, разработчик, программист, developer, специалист по работе с большими данными, специалист по анализу данных, специалист по большим данным, специалист по обработке больших данных

ОТКЛИКНУТСЯ

Data Scientist Nlp

Место нахождения

Дата публикации:

Действительно до

Data Scientist Nlp

Обязанности

Чем предстоит заниматься

Требования

Условия

Другие вакансии по поиску

Юрист

Помощник адвоката, Стажер адвоката

Личный ассистент отдела продаж на удаленную работу

Data Scientist Nlp

Специалист по работе с претензиями (физ лица)

Адвокат

Юрист

Data Scientist Nlp

Адвокат

государственный инспектор

Data Scientist Nlp

Адвокат

Data Scientist Nlp

Юрисконсульт

Специалист отдела кадров