Мы в поиске
Sre.
Чем предстоит заниматься:
· Делать так, чтобы наши клиенты получали высокий уровень сервиса, при этом обеспечивать продуктовые команды возможностью выводить новый функционал сколь угодно часто и в любое время суток;
· Активным и проактивным поиском возможных проблем в архитектуре систем, их устранением, включая консультации на стадии дизайна, разработки, а также планированием
необходимых для работы сервиса ресурсов;
· Используя практики Sre, управлять количеством нештатных ситуаций в проде таким образом, чтобы их количество не приводило к превышению error budget;
· Автоматизацией и оптимизацией процессов, связанных с обслуживанием систем, усилением их отказоустойчивости, масштабированием - снижать операционную нагрузку на команду
· Работой с инцидентами (анализ возникших инцидентов, поиск вариантов их решения,
устранение последствий, расследование причин возникновения инцидентов, предотвращение инцидентов и их последствий);
· Диагностикой и решением проблем, включая кросс-системные;
· Развитием системы мониторинга для активного и проактивного подхода к сопровождению
сервисов;
· Настраивать мониторинг не только инфраструктуры, приложений и их производительности, но и бизнес показателей, разрабатывать дашборды, на которых будет видна их корреляция и baseline;
· Участвовать в развитии системы сквозного трейсинга;
· Настраивать получение и агрегацию метрик от всех слоёв приложений, начиная от браузера и заканчивая низкоуровневыми инфраструктурными компонентами;
Участвовать в определении Sli/Slo/Sla;
· Быть частью продуктовых команд, находиться рядом с продуктами и фичами от момента их
планирования и дизайна, до разработки, тестирования, вывода в прод и обновления;
· Участвовать в on-call дежурствах;
· Разрабатывать тулинг, направленный на автоматизацию нашей работы и на решение нестандартных задач (экспортеры, операторы);
· Формировать реестр рисков доступности и отказоустойчивости, участвовать в оценке таких
рисков, планировать и реализовывать мероприятия по их предотвращению;
· Участвовать в выстраивании практик хаос-инжиниринга, в мероприятиях по регулярной проверке средств резервирования.
От тебя нам важно:
· Опыт разработки/сопровождения микросервисных, высоконагруженных, отказоустойчивых
асинхронных многокомпонентных веб-, frontend-, backend- приложений;
· Знание и понимание Sre подходов;
· Kubernetes
Опыт развёртывания и эксплуатации, как в on-prem так и в managed вариантах (облака Aws / Yc / Mcs / SberCloud);
· Опыт работы на позиции ведущего разработчика, ведущего инженера по автоматизации (DevOps), Sre от 3-х лет;
· Хороший опыт работы со следующими инструментами (не обязательно со всеми!): Prometheus, Grafana, Elk, Jaeger, Loki, Zabbix, AppDynamics, Nginx, OpenResty, Haproxy, Envoy, keepalived, PostgreSql, ElasticSearch, Redis, Couchbase, MongoDb, Kafka, Git, Gitlab Ci, Jira, Confluence, Ansible, Terraform, Thanos, VictoriaMetrics, Helm, Harbor, SonarQube, Hashicorp Vault (почти всё из этого у нас так или иначе используется);
· Опыт в системах observability;
· Знания сетевых протоколов, понимание маршрутизации и фильтрации трафика;
· Высшее образование (техническое).
Значительным преимуществом будет следующее:
· Опыт продуктовой разработки (на любом стэке, но будет плюсом если это Java/Kotlin или Node.js);
· Экспертиза по базам данных - настройка под высокую нагрузку, настройка высокой доступности, репликация, шардирование, эксплуатация - причём как поддержка, так работа с запросами и данными. У нас используются разные базы данных, но в основном это Postgres, Couchbase и Elasticsearch (как движок поиска, а не только как буква в Elk);
· Kafka;
· Наличие сертификации (или прохождение подготовки) по Cka/Ckad/Cks exams;
· Опыт нагрузочного тестирования (у нас отдельная команда «нагрузочников», но полезно
понимать о чём тесты, и иногда мы можем взять их сценарии и самостоятельно прогнать, если коллеги заняты на другом подпроекте);
· Опыт с OpenTelemetry/OpenTracing/OpenCensus;
· Опыт настройки и эксплуатации L4/L7 балансировщиков под высоконагруженные задачи;
· Понимание и опыт построения высоконагруженных распределённых систем;
· Опыт построения Multicloud распределенных систем;
· Service mesh (Istio);
· Настройка автоскейлинга Stateful сервисов;
· Опыт локализации проблем в больших и сложных системах;
· GitOps;
· Знания серверной виртуализации (Vmware, Kvm)
Что ты получишь:
· Работу на удаленке или в офисе (Москва, м. Бауманская Бц “Новь”),
· Дмс после испытательного срока
· Официальное оформление в аккредитованную Ит компанию,
· Корпоративные скидки и конкурентоспособную зарплату.
· Сильную команду, нацеленную нa результaт и готовую поддержать в сложных ситуациях.
· Огромное количество интересных проектов, в рамках которых ты сможешь развиваться
Требуется sre-инженер