Los executors en Spark son una herramienta que cada vez destaca más en el área de los macrodatos, de manera que conocer cómo funciona y para qué sirve es igual de importante. Si planeas convertirte en todo un data scientist, es necesario que te acerques a las principales herramientas del Big Data para poder escoger la más adecuada para el procesamiento de los datos.
Por esta razón, saber como funciona un sistema de computación tan importante como Apache Spark resulta más que necesario, así como conocer desde lo teórico a lo práctico cómo funciona un componente tan relevante como son los executors en Spark.
Por ello, en el desarrollo de este post, te traemos toda la información necesaria sobre los executors en Spark.
¿Qué son los executors en Spark?
Los executors en Spark hacen referencia al proceso en el que estos realizan la carga de trabajo. De manera que los executors obtienen sus tareas desde el driver y llevan a cabo la carga, la transformación y el almacenamiento de los datos.
Por otra parte, los nodos ejecutores o executors en Spark pasan sus tareas al nodo trabajador o Worker Node, de manera que estas máquinas, que dependen del backend, se encargan de ejecutar los procesos de los executors.
Los executors se encuentran en este nodo trabajador (Worker Node) y se responsabilizan de las tareas de aplicación a realizar.
Por otra parte, podrás utilizar ciertos parámetros para la configuración del sistema de cómputo Apache Spark. A continuación, te compartimos los tres parámetros de executors en Spark que puedes encontrar:
- spark.executor.instances: estos hacen referencia a los ejecutores con el valor mínimo de dos en el escalado automático.
- spark.executor.cores: este parámetro se refiere a que un ejecutor puede llegar a desarrollar hasta cinco tareas de forma simultánea.
- spark.executor.memory: este último parámetro se encarga, como su propio nombre indica, de la memoria que manejan los ejecutores durante la implementación del YARN (Yet Another Resource Negociator).
En definitiva, un ejecutor dentro de Apache Spark es uno de los componentes principales que encuentras en el clúster de este sistema. Además, puede considerarse una JVM (Java Virtual Machine O Máquina Virtual Java).
En el desarrollo de este post, te hemos expuesto cómo funcionan los executors en Spark, el popular sistema de computación Big Data. Aun así, esta herramienta se encuentra dentro de un amplio contexto de herramientas y servicios ofrecidos por Apache Spark, de manera que te aconsejamos estudiar mucho más para poder dominarlo.
Para ello, desde KeepCoding te ofrecemos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Allí aprenderás todo lo necesario sobre el entorno de programación mientras trabajas con Apache Spark a partir de la base (procesos de información textual), conteo de palabras, listas top N, operaciones con conjuntos… En suma, aprenderás sobre fuentes de datos múltiples, visualización de relaciones entre valores numéricos (diagramas de dispersión, regresión y clustering), de tipos de datos específicos, como geográficos o mapas de calor, etc. ¡Apúntate ahora y no esperes más para empezar!