Acceso Alumnos

¿Qué son los Datasets? [4 sitios donde encontrarlos]

Autor: | Última modificación: 16 de mayo de 2023 | Tiempo de Lectura: 3 minutos
Temas en este post:

Algunos de nuestros reconocimientos:

Premios KeepCoding
Con la llegada de nuevas tecnologías como el Big Data, han aparecido nuevos términos que seguramente has visto y puede que aún no sepas de qué se trata. Este es el caso de los “Datasets”, fundamentales para la revolución del procesamiento de datos por la que estamos pasando, y muchas veces, más sencillos de lo que parecen. Un Dataset no es más que un conjunto de datos tabulados en cualquier sistema de almacenamiento de datos estructurados. El término Dataset hace referencia a una única base de datos de origen, la cual se puede relacionar con otras, cada columna del Dataset representa una variable y cada fila corresponde a cualquier dato que estemos tratando. Puede que incluso ahora mismo utilices uno en tu trabajo y no te hayas dado cuenta. que-son-datasets Cuando aplicamos los Datasets al Big Data, es cuando aparecen casos en los que necesitamos empezar a trabajar y visualizar un volumen de datos que sistemas más sencillos no tienen capacidad de interpretar. No es lo mismo tener Datasets con datos acercala edad de los trabajadores de una empresa pequeña, que un Dataset de amazon con la edad de todos sus usuarios a nivel mundial.

Tipos de Datasets

Ya que entiendes qué es un dataset, hablemos de los tipos. Existen cuatro tipos de Datasets catalogados según su origen y formato, los cuales son usados según las necesidades de los modelos de datos a trabajar.
  • Archivo: es un fichero independiente en el que se almacena toda la información con la que se va a trabajar del Dataset. Tiene como ventajas, la seguridad y rapidez para el trabajo con los datos, ya que siempre se explotan y se  visualizan de manera local, sin embargo la escalabilidad y conexión con otros Datasets que no están almacenados en la misma máquina se dificulta.
  • Folder: es la suma de diferentes Datasets almacenados en una misma carpeta, los cuales están conectados entre ellos. Estos archivos deben compartir un mismo formato como puede ser .csv, .mif o dxf.
  • Bases de datos: este tipo de Dataset puede llegarse a confundir con el archivo, pero se diferencia por su nivel de especialidad, es decir, son bases de datos con formatos específicos diseñadas para programas puntuales. Por ejemplo las bases de datos de Oracle, las cuales solo funcionan para sus desarrollos.
  • Web: es la compilación de datos que se almacenan dentro de un sitio web del Dataset. El nombre que se le asigna por defecto a este Dataset es el correspondiente a la URL.

¿Dónde encontrarlos?

Ahora que sabes qué es un dataset, hablemos de donde aparecen. Los Datasets se han vuelto populares por la facilidad de acceso a un gran volumen información pública y privada para la construcción de modelos de Big Data y su posterior programación para Inteligencia Artificial y Machine Learning. Si buscas fuentes gratuitas de Datasets para tus proyectos aquí te recomendamos cuatro sitios confiables que siempre te echarán un cable y en donde encontrarás un dataset para machine learning :
  • FiveThrityEight: podrás encontrar Datasets enfocados en datos actuales de deporte, política y encuestas a nivel mundial.
  • Viz for social good: con información enfocada en el cambio social. Con temas como niños desplazados, refugiados o emprendimiento de personas discriminadas, estos Datasets ayudan a ver problemáticas sociales.
  • Twitter:  esta red social tiene una API para obtener datos de hashtags, tendencias y cuentas. Esta API se puede conectar con Tableau para visualizar lo que queramos. Aquí encontrarás una guía de cómo hacerlo
  • Google Dataset Search: es quizás el buscador online más grande de dataset de empresas en donde están indexadas casi todas las fuentes de datos disponibles de manera pública y las webs que tienen su información bajo el marcado de datos estructurados schema.org
Como puedes ver, sobre qué es un data sert , el mundo de los datos cada día crece más y las oportunidades de innovar con herramientas como los Datasets junto con tus capacidades de desarrollo, te permitirán garantizar un gran éxito en el sector tecnológico. Si quieres convertirte en un crack de los datos, con los conocimientos necesarios para convertirlos en desarrollos de Inteligencia Artificial y Machine Learning, descubre nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. 

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

La IA no te quitará el trabajo, lo hará quien sepa usarla

Conviértete en Data Scientist con el único Bootcamp que además te formará en Inteligencia Artificial Generativa para potenciar tu perfil.