Job 933 van 1000

ОТКЛИКНУТСЯ



Sre-инженер


Мы в поиске Sre.


Чем предстоит заниматься:

·       Делать так, чтобы наши клиенты получали высокий уровень сервиса, при этом обеспечивать продуктовые команды возможностью выводить новый функционал сколь угодно часто и в любое время суток;
·       Активным и проактивным поиском возможных проблем в архитектуре систем, их устранением, включая консультации на стадии дизайна, разработки, а также планированием
необходимых для работы сервиса ресурсов;
·       Используя практики Sre, управлять количеством нештатных ситуаций в проде таким образом, чтобы их количество не приводило к превышению error budget;
·       Автоматизацией и оптимизацией процессов, связанных с обслуживанием систем, усилением их отказоустойчивости, масштабированием - снижать операционную нагрузку на команду
·       Работой с инцидентами (анализ возникших инцидентов, поиск вариантов их решения,
устранение последствий, расследование причин возникновения инцидентов, предотвращение инцидентов и их последствий);
·       Диагностикой и решением проблем, включая кросс-системные;
·       Развитием системы мониторинга для активного и проактивного подхода к сопровождению
сервисов;
·       Настраивать мониторинг не только инфраструктуры, приложений и их производительности, но и бизнес показателей, разрабатывать дашборды, на которых будет видна их корреляция и baseline;
·       Участвовать в развитии системы сквозного трейсинга;
·       Настраивать получение и агрегацию метрик от всех слоёв приложений, начиная от браузера и заканчивая низкоуровневыми инфраструктурными компонентами;
Участвовать в определении Sli/Slo/Sla;
·       Быть частью продуктовых команд, находиться рядом с продуктами и фичами от момента их
планирования и дизайна, до разработки, тестирования, вывода в прод и обновления;
·       Участвовать в on-call дежурствах;
·       Разрабатывать тулинг, направленный на автоматизацию нашей работы и на решение нестандартных задач (экспортеры, операторы);
·       Формировать реестр рисков доступности и отказоустойчивости, участвовать в оценке таких
рисков, планировать и реализовывать мероприятия по их предотвращению;
·       Участвовать в выстраивании практик хаос-инжиниринга, в мероприятиях по регулярной проверке средств резервирования.

От тебя нам важно:

·       Опыт разработки/сопровождения микросервисных, высоконагруженных, отказоустойчивых
асинхронных многокомпонентных веб-, frontend-, backend- приложений;
·       Знание и понимание Sre подходов;
·       Kubernetes
Опыт развёртывания и эксплуатации, как в on-prem так и в managed вариантах (облака Aws / Yc / Mcs / SberCloud);
·       Опыт работы на позиции ведущего разработчика, ведущего инженера по автоматизации (DevOps), Sre от 3-х лет;
·       Хороший опыт работы со следующими инструментами (не обязательно со всеми!): Prometheus, Grafana, Elk, Jaeger, Loki, Zabbix, AppDynamics, Nginx, OpenResty, Haproxy, Envoy, keepalived, PostgreSql, ElasticSearch, Redis, Couchbase, MongoDb, Kafka, Git, Gitlab Ci, Jira, Confluence, Ansible, Terraform, Thanos, VictoriaMetrics, Helm, Harbor, SonarQube, Hashicorp Vault (почти всё из этого у нас так или иначе используется);
·       Опыт в системах observability;
·       Знания сетевых протоколов, понимание маршрутизации и фильтрации трафика;
·       Высшее образование (техническое).

Значительным преимуществом будет следующее:
·       Опыт продуктовой разработки (на любом стэке, но будет плюсом если это Java/Kotlin или Node.js);
·       Экспертиза по базам данных - настройка под высокую нагрузку, настройка высокой доступности, репликация, шардирование, эксплуатация - причём как поддержка, так работа с запросами и данными. У нас используются разные базы данных, но в основном это Postgres, Couchbase и Elasticsearch (как движок поиска, а не только как буква в Elk);
·       Kafka;
·       Наличие сертификации (или прохождение подготовки) по Cka/Ckad/Cks exams;
·       Опыт нагрузочного тестирования (у нас отдельная команда «нагрузочников», но полезно
понимать о чём тесты, и иногда мы можем взять их сценарии и самостоятельно прогнать, если коллеги заняты на другом подпроекте);
·      Опыт с OpenTelemetry/OpenTracing/OpenCensus;
·       Опыт настройки и эксплуатации L4/L7 балансировщиков под высоконагруженные задачи;
·       Понимание и опыт построения высоконагруженных распределённых систем;
·       Опыт построения Multicloud распределенных систем;
·       Service mesh (Istio);
·       Настройка автоскейлинга Stateful сервисов;
·       Опыт локализации проблем в больших и сложных системах;
·       GitOps;
·       Знания серверной виртуализации (Vmware, Kvm)

Что ты получишь:
·      Работу на удаленке или в офисе (Москва, м. Бауманская Бц “Новь”),
·      Дмс после испытательного срока
·      Официальное оформление в аккредитованную Ит компанию,
·      Корпоративные скидки и конкурентоспособную зарплату.
·      Сильную команду, нацеленную нa результaт и готовую поддержать в сложных ситуациях.
·      Огромное количество интересных проектов, в рамках которых ты сможешь развиваться

Требуется sre-инженер

ОТКЛИКНУТСЯ

Другие вакансии по поиску