¿Cómo configurar un Hive?

Autor: | Última modificación: 10 de mayo de 2022 | Tiempo de Lectura: 4 minutos
Temas en este post:

Configurar un Hive para llevar a cabo un análisis de los macrodatos supone una serie de pasos y conocimientos de comandos que se instauran como un fundamental en esta plataforma. Al igual que los demás programas y sistemas del Big Data, Apache Hive cuenta con un conjunto múltiple de alternativas para facilitar el análisis de los datos.

En efecto, su desarrollo requiere de estas dinámicas y procesos que optimizan el desenvolvimiento de un estudio ágil y eficaz de los macrodatos. Por ello, si lo que buscas es saber identificar cuál es la mejor herramienta para un análisis de datos específico, contar con este saber es de suma importancia. Así, debido a su relevancia, en este post te exponemos cómo funciona el proceso de configurar un Hive.

¿Qué es Hive?

Hive es reconocida en el mundo Big Data como una infraestructura de almacenaje de datos que se instaura como una herramienta de Data Warehousing y ETL (extraer, transformar, cargar). Se creó para desarrollarse sobre Hadoop y, de manera más específica, sobre YARN (Yet Another Resource Negociator) y HDFS (Hadoop Data File System).

Por otra parte, Apache Hive se muestra como cualquier otra arquitectura de sistemas de SQL. Es decir, Hive cuenta con un layer de servidor para administrar el acceso a las tablas, el disco, los permisos de los usuarios, los esquemas, etc. Además, en Apache Hive también hay otro layer que es el cliente, donde se permite conectar al servidor y ejecutar queries, entre otras funciones.

¿Cómo configurar un Hive? 1

Además, esta infraestructura de almacenamiento de macrodatos te permitirá facilitar, principalmente, tres funciones, que son:

  1. Análisis tipo SQL de datasets con un gran volumen de datos: Hive se encarga de la manipulación de macrodatos de forma simultánea.
  2. Queries Ad-Hoc: desarrollo de peticiones Ad-Hoc (para este propósito), es decir, específicas y personalizadas.
  3. Encapsulamiento de datos: Hive va a establecer una estructura de datos por paquetes para ayudar a la solución de las consultas.

En definitiva, cada una de estas características y funciones se abastecen de la opción de configurar un Hive.

¿Cómo configurar un Hive?

El hecho de configurar un Hive se muestra como un factor decisivo tanto para el procesamiento de datos como para poner a prueba tu conocimiento y práctica sobre esta infraestructura de almacenaje de Hadoop. Por ello, a continuación, te exponemos unos una serie de alternativas para configurar un Hive.
En primer lugar, como todo en Hadoop, podrás encontrar un fichero hive-site.xml donde se pueden configurar varias cuestiones. Para ello, se necesitan los siguientes comandos:

  • cd /opt/hive/conf
  • cat hive-site.xml

Meter los datos del Dataset de Airbnb en HIVE

Ahora, te alentamos a intentar meter los datos del Dataset de un ejemplo de Airbnb en Apache Hive. Para ello, es necesario que metas los datos del CSV (comma-separated values o, en español, valores separados por comas), para que, posteriormente, lo cargues en Apache Hive.

Ya que son un CSV (comma-separated values), para continuar debes ingresar a un Datanode en un nuevo Shell (o intérprete de peticiones):

  1. docker cp .\airbnb-listings.csv hive_datanode_1:/opt/
  2. docker-compose exec datanode bash
  3. /opt/hadoop-2.7.4/bin/hdfs dfs -mkdir input
  4. /opt/hadoop-2.7.4/bin/hdfs dfs -copyFromLocal /opt/airbnb-listings.csv input/

Desde el Apache Hive server con Beeline

Otra forma de configurar un Hive consiste en trabajar con Beeline desde Apache Hive:

  • CREATE TABLE airbnb (ID INT, Listing_Url STRING, Scrape_ID STRING, Last_Scraped STRING, Name STRING, Summary STRING, Space STRING, Description STRING, Experiences_Offered STRING, Neighborhood_Overview STRING, Notes STRING, Transit STRING, Access STRING, Interaction STRING, House_Rules STRING, Thumbnail_Url STRING, Medium_Url STRING, Picture_Url STRING, XL_Picture_Url STRING, Host_ID STRING, Host_URL STRING, Host_Name STRING, Host_Since STRING, Host_Location STRING, Host_About STRING, Host_Response_Time STRING, Host_Response_Rate STRING, Host_Acceptance_Rate STRING, Host_Thumbnail_Url STRING, Host_Picture_Url STRING, Host_Neighbourhood STRING, Host_Listings_Count STRING, Host_Total_Listings_Count STRING, Host_Verifications STRING, Street STRING, Neighbourhood STRING, Neighbourhood_Cleansed STRING, Neighbourhood_Group_Cleansed STRING, City STRING, State STRING, Zipcode STRING, Market STRING, Smart_Location STRING, Country_Code STRING, Country STRING, Latitude STRING, Longitude STRING, Property_Type STRING, Room_Type STRING, Accommodates STRING, Bathrooms STRING, Bedrooms STRING, Beds STRING, Bed_Type STRING, Amenities STRING, Square_Feet STRING, Price FLOAT, Weekly_Price STRING, Monthly_Price STRING, Security_Deposit STRING, Cleaning_Fee STRING, Guests_Included STRING, Extra_People STRING, Minimum_Nights INT, Maximum_Nights INT, Calendar_Updated STRING, Has_Availability STRING, Availability_30 STRING, Availability_60 STRING, Availability_90 STRING, Availability_365 STRING, Calendar_last_Scraped STRING, Number_of_Reviews STRING, First_Review STRING, Last_Review STRING, Review_Scores_Rating STRING, Review_Scores_Accuracy STRING, Review_Scores_Cleanliness STRING, Review_Scores_Checkin STRING, Review_Scores_Communication STRING, Review_Scores_Location STRING, Review_Scores_Value STRING, License STRING, Jurisdiction_Names STRING, Cancellation_Policy STRING, Calculated_host_listings_count STRING, Reviews_per_Month STRING, Geolocation STRING, Features STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘;’;
  • LOAD DATA INPATH ‘input/airbnb-listings.csv’ INTO TABLE airbnb; ## (Debes tener en cuenta que tienes que borrar el CSV de HDFS).
  • SELECT * FROM airbnb LIMIT 5;

¿Cuál es siguiente paso para aprender sobre Big Data?

En este post, has aprendido cómo configurar un Hive dentro del mundo Big Data. Sin embargo, este proceso requiere de muchos más conocimientos y, sobre todo, es necesario contar con una gran práctica al respecto. Por este motivo, te aconsejamos continuar aprendiendo no solo en relación a esta herramienta, sino sobre todas las principales para el manejo Big Data.

Por este motivo, desde KeepCoding te ofrecemos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Por medio de este, podrás aprender más de cómo configurar un Hive y del Big Data en general con módulos como el de Big Data Architecture, en el que verás una pintura completa del proceso de ingesta, clasificación, resguardo, procesamiento y presentación de los datos utilizando diferentes herramientas, sistemas y lenguajes. Además, podrás instruirte tanto de forma teórica como práctica y en remoto desde cualquier sitio. ¡No esperes más y apúntate ahora mismo!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!