¿Quieres descargar datasets para empezar a trabajar en el ámbito del Big Data? Muchas veces nos enfrentamos a problemas que parecen un lío, pero que tienen fácil solución. Como diría el principio de Ockham: «Las explicaciones nunca deben multiplicar las causas sin necesidad». Puedes encontrarte con que quieres incursionar en el mundo del Big Data y no tienes un dataset con el cual trabajar. Por eso, en este artículo, te mostramos 3 páginas en las que puedes descargar datasets de forma fácil y segura.
Descargar datasets desde Scikit learn
Todo el que quiera aprender de Big Data debe conocer Scikit learn. En esta plataforma, además de poder descargar dataset , vas a poder encontrar miles de cosas, como algoritmos de clasificación, regresión, clustering y reducción de dimensionalidad.
Scikit learn es una librería de aprendizaje automático de Python en la que se pueden encontrar algoritmos de aprendizaje automático y modelado estadístico, entre otras funcionalidades.
Esta herramienta está basada en NumPy, SciPy y Matplotlib y es open source o de código abierto.
Tiene 6 categorías que puedes encontrar en su inicio:
- Classification.
- Regression.
- Clustering.
- Dimensionality reduction.
- Model selection.
- Preprocessing.
Si quieres descargar datasets con Scikit learn, tienes varias opciones que están ubicadas en la pestaña Dataset loading utilities:
- Toy datasets.
- Real world datasets.
- Generated datasets.
- Loading other datasets.
Lo interesante de Scikit learn es que, técnicamente, no tienes que descargar nada, ya que los datasets, en vez de descargarse, se cargan por medio de las siguientes funciones:
- load_boston
- load_iris
- load_diabetes
- load_digits
- load_linnerud
- load_wine
- load_breast_cancer
Lo que hay después del guión bajo es el nombre del respectivo dataset, es decir, en total hay 7 datasets de diferentes tamaños para que escojas cuál quieres usar y se adapta mejor a tus necesidades y objetivos.
Scikit learn también ofrece la opción de descargar datasets por medio de links externos, ya que nos muestra de dónde se ha sacado directamente el dataset. Así, si lo prefieres, puedes descargarlo.
World Health Organization
El sector salud es uno de los más explotados a nivel de ciencia y analítica de datos, debido a la gran cantidad de posibilidades que ofrece para análisis de datos y análisis predictivo.
En otro artículo observamos cómo se hizo la predicción de covid con Big Data, aunque esto es solo un pequeño ejemplo, ya que en esta área se pueden hacer muchísimos análisis respecto a prevención de enfermedades, tumores cancerígenos y todo tipo de infecciones o virosis.
La WHO, como es mundialmente conocida, u organización mundial de la salud posee colecciones de datos en diversas áreas de la salud. Entre otros, se pueden descargar datasets de:
- Salud materna y perinatal.
- Perfiles de paludismo (malaria) por países.
- Datos sobre tuberculosis.
- Carga ambiental de la enfermedad.
En el sector de la salud se aprovechan al máximo la ciencia y la analítica de datos. Si observamos la página de la World Health Organization, está llena de gráficas hechas por medio de analítica predictiva. Asimismo, nos vamos a topar con muchísimos artículos que hablan al respecto. De ahí que esta sea una de las mejores opciones para descargar datasets, ya que ofrece una amplia variedad.
Worldbank o Banco Mundial
El Worldbank o Banco Mundial es uno de los sitios predilectos para descargar datasets, ya que ofrece una amplia variedad de todo tipo de conjuntos de datos. Principalmente hay datos relacionados con la economía mundial, pero también hay data set correspondientes al sector de la educación, salud y ciencia y tecnología.
Entre otros, se encuentran datasets de:
- Las mujeres en la educación.
- El acceso a la electricidad.
- El precio de la comida para la nutrición.
En total, en el catálogo del Banco Mundial existen 5626 datasets disponibles para su descarga.
¿Qué sigue?
Ahora que conoces unas cuantas paginas de datasets seguras de las que puedes descargar datasets, no tienes de qué preocuparte y puedes seguir aprendiendo. Para continuar tu camino hacia el éxito, te recomendamos el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva de 8 meses de duración en la que adquirirás todas las herramientas teóricas y prácticas para incursionar en el mundo del Big Data y convertirte en un gran profesional. ¡Anímate a cambiar tu futuro y solicita más información ahora!