Ingeniero Sr. de Operaciones y Monitoreo
Hybrid · Mexico City, Mexico City, Mexico
Job Summary
Ingeniero Senior de Operaciones y Monitoreo responsable de asegurar la disponibilidad, estabilidad y correcto funcionamiento de los canales y servicios digitales mediante monitoreo continuo, detección oportuna de incidentes y coordinación de su resolución, minimizando el impacto en la experiencia del usuario y en la operación del negocio. Actúa como punto de control y coordinación entre equipos técnicos, la Mesa de Servicio y proveedores, identificando desviaciones, priorizando eventos críticos y asegurando tiempos de respuesta alineados a SLAs/OLAs. Principales actividades: monitorizar en tiempo real la disponibilidad y salud de aplicaciones web, móviles, APIs y servicios en la nube; supervisar dashboards operativos; detectar, clasificar y coordinar incidentes con equipos de Infraestructura, Desarrollo, DevOps y Seguridad; dar seguimiento end-to-end a incidents; mantener comunicación con stakeholders; generar reportes y dashboards ejecutivos; analizar incidentes recurrentes (Problem Management y RCA); proponer mejoras en monitoreo y automatización; asegurar integración operativa de nuevos servicios y releases. Competencias: trabajo en equipo, orientación a resultados, proactividad, comunicación efectiva y organización. Requisitos de privacidad: es indispensable leer y aceptar el Aviso de Privacidad para Candidatos.
Required Qualifications
- Licenciatura o Ingeniería terminada
- Experiencia 3-5 años en atención de incidentes de negocio
- Experiencia en herramientas de gestión de incidentes y tickets (Jira, ServiceNow o similares)
- Administración de Statuspage: configuración del sitio, gestión de incidentes, definición de suscripciones y creación de alertas
- Integración y automatización de notificaciones con Microsoft Teams
- Experiencia en herramientas de monitoreo y observabilidad (Elastic, Elasticsearch, APM, Logs)
- Experiencia en AWS CloudWatch (métricas, logs, alarmas y dashboards)
- Experiencia en APM para análisis de desempeño e RCA (drilldown desde alertas hacia trazas, logs y métricas)
- Conocimiento en diagnóstico de incidentes basado en códigos de error (HTTP 5xx)
- Experiencia en SQL Server: consultas y análisis para soporte operativo
Apply with one swipe on Sorce. We auto-fill applications and apply on your behalf — no cover letters, no 40-minute forms.
Hiring someone like this?
Get your role in front of qualified candidates on Sorce.