Glosario Hadoop: 7 conceptos clave

Contenido del Bootcamp Dirigido por: | Última modificación: 9 de octubre de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Dentro del amplio mundo de herramientas, lenguajes y sistemas del Big Data podrás encontrar una de las estructura de software más empleadas, como lo es Apache Hadoop. Esta se ha posicionado como una de las más empleadas gracias a su variedad de herramientas y efectividad en el procesamiento de los macrodatos.

En este post, te exponemos siete de los conceptos clave de Hadoop dentro del mundo Big Data.

HDFS

El primero de los elementos principales de Hadoop es HDFS (Hadoop Distributed File System). Este es el componente de la arquitectura de Hadoop que se encarga de distribuir grandes cantidades de datos en un clúster.

Por otra parte, HDFS tiene una arquitectura main/workers. Un clúster HDFS consta de un único NameNode, es decir, un servidor maestro que administra el espacio de nombres del sistema de archivos y regula el acceso a los archivos por parte de los clientes.

Por último, para desempeñar sus tareas, los DataNodes administran el almacenamiento.

MapReduce

MapReduce es otro de los elementos principales de esta estructura software y consta de dos factores base, tal y como se puede deducir gracias a su nombre:

Map

Hace referencia a Reading and formatting data, es decir, la capacidad de leer y formatear datos dentro de la estructura interna del Hadoop.

Reduce

Este factor se refiere a Applying transformations and operations on all of the data, lo que en español se traduce como la aplicación de transformaciones y operaciones en todos los datos que se estén manipulando.

YARN

YARN (Yet Another Resource Negotiator u Otro negociador de recursos más) es una capa de control sobre las aplicaciones o comandos que corren sobre la estructura de software Hadoop. Por otro lado, forma parte de los elementos principales de Hadoop, puesto que es una capa muy cercana al HDFS (Hadoop Distributed File System), aunque es de bastante bajo nivel. Además, está desarrollado mediante el lenguaje de programación JAVA.

Hadoop Common

Este es el último componente de los cuatro elementos principales. Hadoop Common es el encargado de administrar el acceso a la serie de bibliotecas y servicios que posee esta estructura de software, de manera que se relacionen los procesos de los objetos comunes de las bibliotecas entre los diversos módulos.

Firewalls

Los firewalls o cortafuegos se conocen como la estrategia de protección para impedir el acceso a sistemas, usuarios, virus o redes sin autorización. Podrás encontrar firewalls en todo tipo de dispositivos y redes, puesto que estos aseguran la información e impiden ataques malware.

Ficheros de configuración

Tal como indica su nombre, los ficheros de configuración en Hadoop son los archivos que ayudan a la modificación del entorno distribuido y de código abierto de Hadoop.

Estos tipos de ficheros se dedican a administrar de forma personalizada el flujo de datos por medio de un clúster. En suma, dichos ficheros se encuentran en determinados directorios de software según su función.

¿Cuál es el siguiente paso?

En este post, te has podido familiarizar con siete de los conceptos clave de Apache Hadoop dentro del mundo Big Data. Sin embargo este es solo un primer acercamiento, ¡aún queda mucho más por aprender!

Ahora bien, si no sabes cómo seguir con el proceso, te recomendamos echar una vistazo a nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Por medio de este, podrás desarrollar todas tus habilidades en el aprendizaje de las herramientas y lenguajes principales en el mundo del manejo de los macrodatos. Además, te especializarás en una gran cantidad de temas relacionados como la forma en la que funcionan los tipos de distribución. Durante todo este proceso también contarás con material extra, webinars y cursos que potenciarán lo aprendido en el bootcamp. ¿A qué estás esperando para empezar? ¡Inscríbete ahora!

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado