La ley de murphy dice que si algo puede fallar, fallara.
El dia de hoy en la chamba quedo demostrada la teoria:
- Oracle almacena sus archivos de "archive" en un filesystem X.
- Se ejecuta un proceso mensual que provoca que se generen "archives" mas alla de lo normal
- El sistema de respaldos (tsm) no alcanza a depurar este filesystem X por que otro filesystem (el de auditoria) estaba subiendo datos por que tambien se estaba empezando a llenar
- El filesystem se empieza a llenar
- El monitor (tivoli) no funciona
- Se llena el fs X y Oracle se pasma
- Como no hubo alarma solo se enteraron hasta que ya habia un serio problema
- El encargado de revisarlo depura el filesystem pero comete el error de no validar la conexion a Oracle
- Ya han pasado 15 minutos sin banco y cuando digo sin banco.. es eso, no habia banco por un filesystem que se lleno!
- 15 minutos despues corrigen el estado de Oracle y todo vuelve a la normalidad.
En resumen que un filesystem de 17 Gb en un equipo de miles de dolares, que esta en un cluster que cuesta otros cuantos miles de dolares, con alrededor de 48 cpus, 60 Gb de Ram aprox, con aplicaciones de millones de dolares (solo por mencionar tivoli, oracle, veritas, tuxedo) te tire un banco... no tiene precio.
Heme aqui a estas horas diagnosticando :(
El dia de hoy en la chamba quedo demostrada la teoria:
- Oracle almacena sus archivos de "archive" en un filesystem X.
- Se ejecuta un proceso mensual que provoca que se generen "archives" mas alla de lo normal
- El sistema de respaldos (tsm) no alcanza a depurar este filesystem X por que otro filesystem (el de auditoria) estaba subiendo datos por que tambien se estaba empezando a llenar
- El filesystem se empieza a llenar
- El monitor (tivoli) no funciona
- Se llena el fs X y Oracle se pasma
- Como no hubo alarma solo se enteraron hasta que ya habia un serio problema
- El encargado de revisarlo depura el filesystem pero comete el error de no validar la conexion a Oracle
- Ya han pasado 15 minutos sin banco y cuando digo sin banco.. es eso, no habia banco por un filesystem que se lleno!
- 15 minutos despues corrigen el estado de Oracle y todo vuelve a la normalidad.
En resumen que un filesystem de 17 Gb en un equipo de miles de dolares, que esta en un cluster que cuesta otros cuantos miles de dolares, con alrededor de 48 cpus, 60 Gb de Ram aprox, con aplicaciones de millones de dolares (solo por mencionar tivoli, oracle, veritas, tuxedo) te tire un banco... no tiene precio.
Heme aqui a estas horas diagnosticando :(
Comments
Administrar administrar.
ehecatl
ahora sí en serio, me sigo maravillando de que los bancos continúen funcionando a pesar de la tecnología ;-)