¿Cómo ejecutar jobs sin comandos a mano en Dataproc?

| Última modificación: 17 de abril de 2024 | Tiempo de Lectura: 2 minutos

Cómo puedes ejecutar jobs sin comandos a mano en Dataproc es uno de los conocimientos que debes saber para el manejo más profundo y efectivo de Google Cloud Dataproc, puesto que este servicio de Google es uno de los softwares libres de Big Data más utilizados. Además, aporta una gran variedad de herramientas y es totalmente gestionado.

Por ello, en este post, te compartimos una breve guía de cómo ejecutar jobs sin comandos a mano en Dataproc.

Ejecutar jobs sin comandos a mano en Dataproc

En primer lugar, para explicarte cómo ejecutar jobs sin comandos en Dataproc, hay que partir de la facilidad que presta GCP (Google Cloud Plataform) Dataproc en la gestión de datos en una red. Además, dentro de sus posibilidades se encuentra el hecho de que podrás utilizar el control de ficheros de forma directa por medio de la consola.

Por otra parte, también podrás ejecutar jobs de MapRed de la siguiente manera:

jobs sin comandos a mano en Dataproc

Ahora, debes rellenar el formulario con lo siguiente:

jobs sin comandos a mano en Dataproc

Dentro del JAR pondrás: file:////usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar

Posteriormente, podrás ir a la vista de tareas y ver el resultado de los jobs sin comandos a mano en Dataproc.

jobs sin comandos a mano en Dataproc

También puedes ver los logs y el resultado así:

jobs sin comandos a mano en Dataproc

Subir ficheros y utilizarlos

Al crear clústeres, GCP (Google Cloud Plataform) automáticamente crea un storage segment (el equivalente a un bucket de S3 de AWS) conectado a través de un conector.

Por lo tanto, podrás subir los ficheros al bucket y tenerlos disponibles tanto para ejecutar jars como para cargar datos en HDFS (Hadoop Distributed File System):

jobs sin comandos a mano en Dataproc

Una vez dentro, podrás subir ficheros, carpetas, archivos .jar, etc. Estos estarán disponibles para ejecutar tareas o para cargar al HDFS (Hadoop Distributed File System).

Ahora, haz una prueba subiendo el archivo de txt de pruebas de scraping. Para ello, debes descargar un dataset de noticias y, después, subirlo:

jobs sin comandos a mano en Dataproc

Para ello debes emplear: file:////usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar

Después, utilizarás: gs:///bigdata-9/xxxx/xxxx.csv

jobs sin comandos a mano en Dataproc

Finalmente, los resultados deberían estar en:

  • hdfs dfs -ls output

Por último, recuerda apagar al final para no gastar recursos y dinero.

jobs sin comandos a mano en Dataproc

Aprende más sobre Big Data con KeepCoding

En el transcurso de este post, te hemos mostrados una breve guía de cómo ejecutar jobs sin comandos a mano en Dataproc y cuál es su importancia dentro del mundo Big Data. Sin embargo, este es un primer acercamiento a las funciones que cumplen los jobs dentro de Dataproc.

Para continuar aprendiendo y convertirte en un experto, desde KeepCoding te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. En él, te encontrarás con una serie de módulos con las herramientas, sistemas y lenguajes más populares e importantes del mundo Big Data. ¡Apúntate ya!

jobs sin comandos a mano en Dataproc
Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

BIG DATA, IA & MACHINE LEARNING

Full Stack Bootcamp

Clases en Directo | 9 meses | 12 horas lectivas semanales | Acceso a +600 empresas | Sueldos de hasta 80K | 99.24% de empleabilidad