Observability Engineer
SABIA ADMINISTRACAO LTDABelo Horizonte - MG
1 posição
Não informado
Integral
O processo seletivo será encerrado em 15/04/2026
PJ
Remoto
Especialista
Tecnologia
Buscamos um especialista em Observabilidade com perfil Software Engineer para liderar a estratégia de visibilidade da nossa plataforma. Sua missão será garantir que tenhamos monitoração preditiva e detalhada em ambientes multicloud, sendo o guardião da performance e da confiabilidade. Você não apenas configurará ferramentas, mas atuará diretamente no código-fonte (capacidade de ler e instrumentar código em linguagens comuns de backend (como Go, Node.js, Python, Java ou PHP). para implementar instrumentação via OpenTelemetry, criando uma cultura de telemetria nativa. Nossa plataforma processa um grande volume de transações de apostas em tempo real, exigindo alta disponibilidade, baixa latência e visibilidade completa do comportamento do sistema.
Responsabilidades e Foco Técnico
- Instrumentação Hands-on: Realizar alterações em código para implementar tracing distribuído, métricas customizadas e logs estruturados utilizando os SDKs do OpenTelemetry.
- Arquitetura de Dados (Time Series): Projetar e manter pipelines de métricas de alta performance, utilizando soluções modernas de armazenamento de métricas (time-series databases) capazes de lidar com grande volume e alta cardinalidade.Ecossistema de Visualização: Criar dashboards analíticos no Grafana e monitores avançados no Datadog, focando em Golden Signals (Latência, Erros, Tráfego e Saturação).
- Operação Multi-Cloud: Configurar a coleta de métricas e traces em ambientes AWS, GCP e Azure, garantindo uma visão unificada da infraestrutura.
- Monitoria de Negócio: Criar Time Series que reflitam a saúde da plataforma SaaS e o comportamento de apostas em tempo real (ex: volume de bets/segundo vs. latência de API).
- Cultura de Erro: Definir e implementar SLIs/SLOs técnicos, garantindo que o time de engenharia tenha alertas acionáveis e evite o "alert fatigue".
- Senioridade Técnica: Experiência sólida como SRE ou Engenheiro de Software com foco em infraestrutura e performance.
- Experiência prática construindo soluções de observabilidade para arquiteturas distribuídas, incluindo tracing distribuído, instrumentação de serviços, métricas de alta cardinalidade e monitoramento de microservices.
- Experiência com OpenTelemetry é desejável, mas o mais importante é domínio dos conceitos de telemetria e visibilidade de sistemas em larga escala.
- Proficiência em Cloud: Vivência prática na administração e monitoração de recursos em nuvens variadas (especialmente AWS e GCP).
- Power User de Datadog & Grafana: Capacidade de criar consultas complexas (PromQL/LogQL) e configurar APM avançado.
- Desenvolvimento: Capacidade de ler e alterar código em múltiplas linguagens para ajustes de performance e telemetria.
- Desejável: experiência com armazenamento e análise de dados de observabilidade em larga escala (ex: VictoriaMetrics, ClickHouse, Prometheus/Mimir, ou outras soluções de time-series e analytics).
- Histórico de redução de MTTR (Mean Time to Repair) através de melhorias na visibilidade de sistemas.
- Contribuições para projetos open-source de observabilidade ou ferramentas de automação.
- Experiência em migração de monitorias legadas para padrões de mercado modernos e agnósticos (vendor-neutral).
Diferente de um cargo de infraestrutura tradicional, aqui você terá "licença para codar". Você será o elo entre o time de DevOps e o time de Produto, garantindo que a nossa plataforma de Betting seja a mais estável e rápida do mercado através de dados reais.
Requisitos
Escolaridade
- Graduação
Habilidade Técnica
- Implementação de telemetria em sistemas distribuídos - Avançado
- Monitoramento e Performance de Sistemas - Avançado
- Proeficiência com Grafana - Avançado
- Cloud Computing - Amazon Web Services & Google Cloud Platform - Avançado
- Entendimento de sistemas de alta disponibilidade e escalabilidade - Avançado
- Capacidade de leitura e alteração de código em linguagens como: Go, Node.js, Python, Java ou PHP - Avançado
- Gestão de Incidentes - Avançado
- Experiência com bancos de dados de séries temporais (time-series) - Avançado
- Proeficiência com Datadog - Avançado
Localização
Avenida Francisco Sales, Floresta, Belo Horizonte - MG, Brasil, 30150-221