Glosario Apache Hive: 5 conceptos fundamentales

| Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

El desarrollo del Big Data cada vez aumenta más y, dentro de este y sus numerosas herramientas, podrás encontrarte con la herramienta de Apache Hive. Para conocerla mejor, en este post te traemos un breve glosario con cinco de los conceptos fundamentales para comprender el desarrollo de Apache Hive.

ETL (extraer, transformar, cargar)

ETL (extraer, transformar, cargar) es un proceso de gestión de datos que permite extraer y mover datos desde múltiples fuentes, transformarlos y cargarlos en el destino, tal como lo hace Apache Hive. En la ilustración que te mostramos a continuación, puedes apreciar cómo se lleva a cabo el flujo de datos desde el source hasta el target a través de la transformation engine.

JDBC (Java Database Connectivity)

JDBC (Java Database Connectivity) se conoce por formar parte de las herramientas manipuladas por Apache Hive, la herramienta de Data Warehousing y ETL (Extract, Transform and Load) construida para funcionar sobre Hadoop.

JDBC te permitirá conectarte con una base de datos vía TCP (Transmission Control Protocol). Para ello, existen drivers de JDBC (Java Database Connectivity) que trabajan con todos los grandes proveedores de bases de datos y con muchos otros lenguajes de programación. Además, concede el acceso y marca la ruta de acceso a los datos almacenados a partir de las peticiones de sus clientes.

Beeline

Apache Beeline en Apache Hive es un cliente simple que se conecta vía JDBC (Java Database Connectivity) a un servidor de HiveServer2, es decir, la última actualización de Hive que facilita el acceso a externos. Esto lo hace a través de los nodos principales por medio del clúster de HDInsight.

Por otra parte, otra de las herramientas con las que cuenta para la agilidad en la gestión de datos es Beeline Shell. Gracias a esta, tendrás la posibilidad de usarla, ya sea a través de un modo remoto o de un modo integrado.

ODBC (Open Database Connectivity)

ODBC (Open Database Connectivity) es una herramienta para el manejo del Big Data creada por Microsoft Corporation que consiste en facilitar el acceso a los datos como una API (Interfaz de programación de aplicaciones). De hecho, su objetivo principal radica en ser independiente del sistema operativo y del lenguaje sobre el que se ejecuta este sistema.

En suma, ODBC (Open Database Connectivity) se caracteriza por cumplir con las mismas funciones de JDBC (Java Database Connectivity), con la diferencia de que se basa en un estándar abierto. Por último, ten en cuenta que este sistema funciona para otros lenguajes fuera del JVM (Java Virtual Machine).

Apache Thrift

Apache Thrift es un protocolo implementado en los procesos de la gestión de los macrodatos. De manera que se trata de un protocolo que permite pasar objetos en binario a partir de un código generado.

Apache Thrift también funciona como un IDL, es decir, un C. También podría presentarse de esta forma en la infraestructura de datos Apache Hive. En suma, este protocolo o IDL también cuenta con una multiplicidad de alternativas para llevar a cabo un funcionamiento efectivo de la gestión de datos. Dentro de ellos, encontrarás una variedad de protocolos, de los transportes y de los servidores.

¿Cuál es el siguiente paso?

En este post has podido familiarizarte con el desarrollo de Apache Hive dentro del mundo del Big Data por medio de sus conceptos clave. Sin embargo, estos conceptos fundamentales sobre Apache Hive son solo cinco, cuando este sistema posee muchos más.

Así que si planeas ser todo un experto en los principales sistemas y lenguajes del universo Big Data, desde KeepCoding te traemos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Durante un período de menos de nueve meses, podrás poner a prueba tus destrezas de la mano de profesionales gracias a nuestra metodología hands on, a partir de la que podrás contar con el aprendizaje teórico y práctico. ¡No esperes más para seguir aprendiendo sobre el Big Data y apúntate!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado