Chaos Monkey y una solución a Netflix

Autor: | Última modificación: 31 de agosto de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

Si te interesas por todo lo relacionado con la resiliencia tecnológica, probablemente hayas escuchado ya acerca de la herramienta Chaos Monkey, una opción específica encargada de probar la resistencia de Netflix.

Este software destaca como una opción dedicada a la prueba continua del sistema, por lo que necesitas conocer más al respecto de Chaos Monkey, así como sus características y utilidades de mayor relevancia.

Origen de Chaos Monkey

Muchas de los sistemas y aplicaciones que conocemos y utilizamos a diario se han trasladado hacía la nube debido a los beneficios que esta migración ofrece. Este es el caso de Netflix, que se reconoce como una plataforma que trata con intensidad los datos de sus clientes para ofrecer servicios de manera más personalizada.

No obstante, el traslado hacia la nube y el manejo de datos en sistemas constituyen una serie de exposiciones a fallas y caídas en las plataforma causadas por su gran extensión o por factores y agentes externos que los afecten.

En el caso particular de Netflix, se evidenció la articulación y ejecución del sistema Chaos Monkey, cuyo sistema consiste en la ejecución de fallas simuladas en la plataforma para determinar una óptima respuesta y mejoramiento de la misma en el caso real de que esto suceda. Asimismo, dicha ejecución corresponde a la mentalidad de Netflix de alcanzar el éxito mejorando y resolviendo posibles fallos en el caso de que sea necesario.

Desde una perspectiva más profunda, Chaos Monkey surge y se diseña a partir de la necesidad del traslado en 2010 de Netflix a la nube, generando así la exposición de sus hosts a ser terminados o reemplazados en algún momento aleatorio. Posteriormente, al ser reiniciados, estos corresponderían a un tipo de memoria caché y base de datos local, que hallarían y resolverían de manera óptima la detección y, luego, la corrección de cualquier falla.

¿Qué es Chaos Monkey?

Chaos Monkey se define como una herramienta diseñada por Netflix bajo la perspectiva de establecer ejecuciones que permitan evaluar el comportamiento del sistema de detecciones y respuestas a posibles fallos que afecten a la estabilidad de la plataforma. Esto se logra a través de la instauración de fallas con carácter aleatorio en las dependencias y estructura de la plataforma.

🔴 ¿Quieres entrar de lleno al mundo DevOps & Cloud Computing? 🔴

Descubre el DevOps & Cloud Computing Full Stack Bootcamp de KeepCoding. La formación más completa del mercado y con empleabilidad garantizada

👉 Prueba gratis el Bootcamp en DevOps & Cloud Computing por una semana

Es importante destacar que la apertura de Netflix hacia la nube determinó su dependencia por el proveedor de servicio de cloud: Amazon Web Service AWS. Se enfocó en la necesaria forma de instaurar medidas de contingencia de manera autónoma, lo que generó el hecho de continuar respondiendo óptimamente ante una posible ausencia de la producción AWS.

De manera que la tecnología de Chaos Monkey se enfoca en causar de manera intencional las fallas en el sistema mediante una simulación que permite desarrollar la detección de dichos fallos, logrando generar respuestas de forma automática en futuros errores.

Otra de las propiedades del sistema de Chaos Monkey es que se encarga de destruir o desconfigurar piezas del sistema, al tiempo que intenta simular todos los posibles problemas que la plataforma podría tener que enfrentar. De la misma manera, la aplicación de esta herramienta permita garantizar que, si un sistema es capaz de recuperarse de este caos, será resistente a otros fallos conocidos.

Características de Chaos Monkey

Dentro de las características destacables de esta herramienta, se encuentra que sigue las premisas del Chaos Engineering, una disciplina enfocada en la detección temprana de fallos y vulnerabilidades.

Así pues, la metodología del Chaos Engineering logra una potencialización gracias a Chaos Monkey, haciendo énfasis en un desarrollo tecnológico sistematizado de tal manera que permite detectar las fallas antes de que se conviertan en interrupciones. Como resultado se obtienen de forma intencional simulaciones en el sistema respecto a posibles fallas que se encuentren y lo que estas podrían generar, evaluando así las formas de respuestas óptimas antes de que se evidencien en el público.

Además, es importante destacar que Netflix optimizó y mejoró, gracias al mantenimiento de la característica de Chaos Monkey de invadir su infraestructura como método de evaluación, con la modificación del desarrollo de otros elementos que permiten la causa de otro tipo de fallas y anomalías en el sistema. Un ejemplo de esto es la ejecución de retrasos artificiales.

¿Cuál es el siguiente paso?

En este artículo has podido conocer qué es Chaos Monkey, así como sus propiedades y características de mayor importancia. Ahora, ha llegado el momento de continuar con tu formación acerca de esta y otras opciones de utilidad en el mundo IT, para lo que te recomendamos dar un paso más en tu aprendizaje y matricularte ahora en nuestro DevOps & Cloud Computing Full Stack Bootcamp.

[email protected]

¿Sabías que hay más de 2.500 vacantes para ingenieros DevOps sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!