Librería Pandas: aspectos más importantes

Autor: | Última modificación: 5 de marzo de 2024 | Tiempo de Lectura: 3 minutos
Temas en este post:

Algunos de nuestros reconocimientos:

Premios KeepCoding

La librería Pandas es una librería de Python de código abierto u open source especializada en el manejo y análisis de estructuras de datos. Empezó a desarrollarse en 2008 y a finales de 2009 ya era de código abierto, lo que permite que programadores de todo el mundo hagan valiosas contribuciones para mejorar cada día la librería Pandas.

¿Qué contiene la librería Pandas?

La librería Pandas ofrece una serie de herramientas útiles para leer y escribir datos entre estructuras de datos, entre ellos CSV y archivos de texto .txt, xlsx, SQL y formato HDF5. También posee funciones de alineación de datos, transformación y rotación de conjunto de datos de entrenamiento y todo tipo, entre otras cosas.

Veamos algunas de las funcionalidades de Pandas por medio de un ejercicio:

ejemplo1 = pd.read_csv ("./data/ex2data1.txt", sep = " , ", header = None, names = ['x1', 'x2', 'label'])
ejemplo1.head ()
librería pandas

Describe

ejemplo1.describe ()

Describe lo que hace es devolver cierta información estadística de las variables que permiten tener este tipo de información, es decir, las variables numéricas.

Librería Pandas: aspectos más importantes

En este caso, todas las variable son numéricas, así que si hacemos un describe con este ejemplo, nos aparecerá información de las 3 columnas:

Librería Pandas: aspectos más importantes

En caso de que alguna de esas columnas fuera no numérica, no estaría en la lista.

Entonces, ¿qué sabemos con el describe? Pues tenemos el count, es decir, el número de valores; el mean o la media; la desviación típica o std; el valor mínimo min y el máximo max, y los cuartiles (25%, 50%, 75%).

Si bien es información útil, no se utiliza demasiado en casi ningún contexto. No obstante, es importante que la tengas en cuenta por si se te presenta en futuros ejercicios o tienes la oportunidad de usarla.

Shape

El shape es una función dentro de la librería Pandas que devuelve el número de filas y columnas de un array.

ejemplo1.shape ()

(100, 3)

Tail

El tail es lo opuesto a head en la librería Pandas. Esto significa que lo que hace el tail es devolver las últimas n-rows:

ejemplo1.tail ()
Librería Pandas: aspectos más importantes

Dtypes

El dtypes es una función dentro de la librería Pandas en Python que devuelve el tipo de las columnas. Esto es muy útil cuando tenemos que hacer análisis de datos y tenemos conjuntos de datos desconocidos, es decir, cuando no sabemos a qué nos estamos enfrentando:

ejemplo1.dtypes 
x1float64
x2float64
labelint64

dtype: object

Isnull

El isnull nos devuelve los missing values o valores faltantes.

Librería Pandas: aspectos más importantes

El isnull en la librería Pandas nos muestra un dataframe de la misma magnitud que el original, pero con un booleano TRUE/FALSE de si el dato es missing o no, es decir, si el dato está contenido o no.

ejemplo1.isnull ()
Librería Pandas: aspectos más importantes

Como este dataframe es inmanejable, lo que haremos será poner .any después del isnull para que así nos verifique si hay algún valor nulo en alguna de las columnas y, en caso de ser así, que nos lo muestre.

ejemplo1.isnull.any ()
x1False
x2False
labelFalse

dtype: bool

La tabla nos muestra que no hay ninguno.

Para verificar que esto sí funciona, pongamos a prueba el isnull.any.

Dentro del dataset eliminaremos un valor y veremos si se actualiza la tabla dentro de nuestros comandos:

Librería Pandas: aspectos más importantes

Eliminamos el valor señalado, guardamos los cambios y volvemos a cargar el ejercicio.

Librería Pandas: aspectos más importantes
x1False
x2True
labelFalse

Cargamos de nuevo la tabla y vemos que nos aparece x2 en True, porque ahora esta columna tiene un missing value, que es el que nosotros hemos eliminado del dataset anteriormente.

De hecho, si volvemos a hacer el describe, nos dice que ya hay 99 valores, no 100:

Librería Pandas: aspectos más importantes

¿Quieres seguir aprendiendo sobre data science?

Si quieres seguir aprendiendo sobre la librería Pandas en Python y mucho más para ser un experto en el ámbito del data science, nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp te ofrece la posibilidad de lograrlo en pocos meses. Sigue aprendiendo toda la teoría y la práctica necesarias para sumergirte en este mundillo y triunfar en el mercado laboral. ¡Anímate a cambiar tu vida y solicita ahora más información!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado