Blog

descubre que son data sets y como conseguirlos

¿Qué son Datasets y dónde conseguirlos?

Con la llegada de nuevas tecnologías como el Big Data, han aparecido nuevos términos que seguramente has visto y puede que aún no sepas de qué se trata . Este es el caso de los “Datasets”, fundamentales para la revolución del procesamiento de datos por la que estamos pasando, y muchas veces, más sencillos de lo que parecen.

Un Dataset no es más que un conjunto de datos tabulados en cualquier sistema de almacenamiento de datos estructurados. El término hace referencia a una única base de datos de origen, la cual se puede relacionar con otras, cada columna del Dataset representa una variable y cada fila corresponde a cualquier dato que estemos tratando. Puede que incluso ahora mismo utilices uno en tu trabajo y no te hayas dado cuenta.

Cuando aplicamos los Datasets al Big Data, es cuando aparecen casos en los que necesitamos empezar a trabajar y visualizar un volumen de datos que sistemas más sencillos no tienen capacidad de interpretar. No es lo mismo tener Datasets con datos acercala edad de los trabajadores de una empresa pequeña, que un Dataset de amazon con la edad de todos sus usuarios a nivel mundial.

Tipos de Datasets

Existen cuatro tipos de Datasets catalogados según su origen y formato, los cuales son usados según las necesidades de los modelos de datos a trabajar.

  • Archivo: es un fichero independiente en el que se almacena toda la información con la que se va a trabajar. Tiene como ventajas, la seguridad y rapidez para el trabajo con los datos, ya que siempre se explotan y se  visualizan de manera local, sin embargo la escalabilidad y conexión con otros Datasets que no están almacenados en la misma máquina se dificulta.
  • Folder: es la suma de diferentes Datasets almacenados en una misma carpeta, los cuales están conectados entre ellos. Estos archivos deben compartir un mismo formato como puede ser .csv, .mif o dxf.
  • Bases de datos: este tipo de Dataset puede llegarse a confundir con el archivo, pero se diferencia por su nivel de especialidad, es decir, son bases de datos con formatos específicos diseñadas para programas puntuales. Por ejemplo las bases de datos de Oracle, las cuales solo funcionan para sus desarrollos.
  • Web: es la compilación de datos que se almacenan dentro de un sitio web. El nombre que se le asigna por defecto a este Dataset es el correspondiente a la URL.

Los Datasets se han vuelto populares por la facilidad de acceso a un gran volumen información pública y privada para la construcción de modelos de Big Data y su posterior programación para Inteligencia Artificial y Machine Learning. Si buscas fuentes gratuitas de Datasets para tus proyectos aquí te recomendamos cuatro sitios confiables que siempre te echarán un cable.

  • FiveThrityEight: podrás encontrar Datasets enfocados en datos actuales de deporte, política y encuestas a nivel mundial.
  • Viz for social good: con información enfocada en el cambio social. Con temas como niños desplazados, refugiados o emprendimiento de personas discriminadas, estos Datasets ayudan a ver problemáticas sociales.
  • Twitter:  esta red social tiene una API para obtener datos de hashtags, tendencias y cuentas. Esta API se puede conectar con Tableau para visualizar lo que queramos. Aquí encontrarás una guía de cómo hacerlo
  • Google Dataset Search: es quizás el buscador online más grande de Datasetsstán indexadas casi todas las fuentes de datos disponibles de manera pública y las webs que tienen su información bajo el marcado de datos estructurados schema.org

Como puedes ver, el mundo de los datos cada día crece más y las oportunidades de innovar con herramientas como los Datasets junto con tus capacidades de desarrollo, te permitirán garantizar un gran éxito en el sector tecnológico. Si quieres convertirte en un crack de los datos, con los conocimientos necesarios para convertirlos en desarrollos de Inteligencia Artificial y Machine Learning, descubre nuestro Full Stack Big Data, AI & ML Bootcamp. 

Descarga el Temario

Pide más información ¡Nosotros te llamamos!

Comments are closed, but trackbacks and pingbacks are open.

Uso de cookies

Utilizamos cookies propias y de terceros para mejorar nuestros servicios y mostrarle publicidad relacionada con sus preferencias mediante el análisis de sus hábitos de navegación. Si continua navegando, consideramos que acepta su uso. y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies