Road to SRE

Un viaje hacia la confiabilidad y escalabilidad

El rol de Site Reliability Engineer (SRE) combina ingeniería, operaciones y cultura de confiabilidad. No es solo administrar sistemas, sino diseñarlos, automatizarlos y mantenerlos resilientes y escalables.

Mi camino comenzó como SysAdmin, enfrentando la infraestructura día a día: servidores, redes, backups y resolución de problemas críticos bajo presión. Esta etapa enseña la base de la confiabilidad: disciplina, control y reacción ante incidentes.

Luego pasé a ser Cloud Engineer, donde la infraestructura física se transforma en código. Aprendí a construir sistemas en la nube, optimizar recursos, automatizar despliegues y diseñar servicios más resistentes y escalables.

Después, como DevOps Engineer, el enfoque se trasladó a la integración continua, entrega continua y monitorización. Conectar desarrollo y operaciones, automatizar pipelines y construir cultura colaborativa fueron aprendizajes esenciales.

Hace no mucho, me embarqué en el siguiente paso: convertirme en SRE. Se trata de aplicar toda la experiencia previa para:

Diseñar sistemas resilientes y auto-recuperables.
Medir y mejorar la fiabilidad con métricas y SLOs.
Automatizar la operación y reducir riesgos humanos.
Aprender constantemente de fallos y procesos para construir servicios más sólidos.

Este post marca el inicio de una serie donde compartiré aprendizajes, retos y consejos prácticos para avanzar hacia un rol de SRE, esperando inspirar a quienes también buscan crecer en operaciones y confiabilidad de sistemas.

El camino es largo, desafiante y lleno de aprendizaje constante.

¿Estás preparado? Suscribete al RSS y enterate el primero.

Si tienes cualquier duda, sugerencia o quieres que charlemos de algo, escribeme: blog[@]aletz[.]net