IntelDig

Amazon se disculpa por el “apagón navideño” de Netflix y explica sus razones

Amazon se ha disculpado públicamente por el apagón que dejó a los usuarios de Netflix pasar la víspera de Navidad sorbiendo ponche de huevo con su TV en negro, culpando a un error humano por el tiempo de inactividad del servidor.

Según Amazon, un desarrollador eliminó por error parte de los “datos de estado ELB” que maneja el equilibrio de carga – el que permite a los servidores entregar el contenido a cada usuario a través de diferentes lugares – y tardó varias horas de pruebas y solución de problemas para averiguar lo que había salido mal.

“La interrupción del servicio se inició a las 12:24 PM PST el 24 de diciembre cuando una parte de los datos de estado del ELB fue eliminada lógicamente. Estos datos son utilizados y mantenidos por el plano de control ELB para gestionar la configuración de los equilibradores de carga ELB en la región. Los datos fueron eliminados por un proceso de mantenimiento que se ha ejecutado inadvertidamente contra los datos de estado de producción ELB. Este proceso se llevó a cabo por uno de un número muy pequeño de desarrolladores que tienen acceso a este entorno de producción. Por desgracia, el desarrollador no se dio cuenta del error en el momento. Después de que estos datos fueron eliminados, el plano de control ELB comenzó a experimentar una latencia alta y las tasas de error para las llamadas a la API que administran los balanceadores de carga ELB”.

Desafortunadamente, los esfuerzos iniciales para tomar una instantánea de la configuración del sistema antes de la eliminación accidental – un proceso que tomó varias horas – no funcionaron. Un segundo método fue por medio de cookies, que tuvo más éxito, sin embargo, su instalación y traer todos los sistemas de respaldo en línea no es tan sencillo como simplemente sobrescribir la sección irregular de los datos.

En su lugar, el equipo de AWS de Amazon tuvo que combinar los nuevos datos del ELB con el tiempo – un proceso que tardó casi tres horas – y luego pasó otras cinco horas para volver a habilitar todos los flujos de trabajo de servicios y las API de una manera que no afectará a ningún proceso funcionando correctamente. Amazon dice que el sistema estaba operando con normalidad a las 24:05 PST.

“Por último, pero no menos importante, queremos pedir disculpas. Sabemos lo importante que son nuestros servicios para los negocios de nuestros clientes, y sabemos que esta ruptura se produjo en un momento inoportuno para algunos de nuestros clientes. Haremos todo lo que podamos para aprender de este evento y utilizarlo para impulsar nuevas mejoras en el servicio ELB”.

Además de la disculpa, Amazon dice que ha puesto en marcha nuevas políticas para asegurarse de que el mismo problema no vuelva a ocurrir.

Los datos de estado ELB es ahora más difícil de eliminar sin la aprobación específica, en lugar de los permisos generales para el pequeño número de desarrolladores con acceso, y Amazon ha actualizado su política de recuperación de datos con nuevas habilidades que se ven obligados a aprender.

“Estamos seguros de que podemos recuperar los datos de estado ELB en un evento parecido mucho más rápido (si es necesario) para cualquier evento operacional futuro”, recalcó el equipo de datos de la compañía.