Librería Pandas: aspectos más importantes

| Última modificación: 20 de septiembre de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

La librería Pandas es una librería de Python de código abierto u open source especializada en el manejo y análisis de estructuras de datos. Empezó a desarrollarse en 2008 y a finales de 2009 ya era de código abierto, lo que permite que programadores de todo el mundo hagan valiosas contribuciones para mejorar cada día la librería Pandas.

¿Qué contiene la librería Pandas?

La librería Pandas ofrece una serie de herramientas útiles para leer y escribir datos entre estructuras de datos, entre ellos CSV y archivos de texto .txt, xlsx, SQL y formato HDF5. También posee funciones de alineación de datos, transformación y rotación de conjunto de datos de entrenamiento y todo tipo, entre otras cosas.

Veamos algunas de las funcionalidades de Pandas por medio de un ejercicio:

ejemplo1 = pd.read_csv ("./data/ex2data1.txt", sep = " , ", header = None, names = ['x1', 'x2', 'label'])
ejemplo1.head ()
librería pandas

Describe

ejemplo1.describe ()

Describe lo que hace es devolver cierta información estadística de las variables que permiten tener este tipo de información, es decir, las variables numéricas.

En este caso, todas las variable son numéricas, así que si hacemos un describe con este ejemplo, nos aparecerá información de las 3 columnas:

En caso de que alguna de esas columnas fuera no numérica, no estaría en la lista.

Entonces, ¿qué sabemos con el describe? Pues tenemos el count, es decir, el número de valores; el mean o la media; la desviación típica o std; el valor mínimo min y el máximo max, y los cuartiles (25%, 50%, 75%).

Si bien es información útil, no se utiliza demasiado en casi ningún contexto. No obstante, es importante que la tengas en cuenta por si se te presenta en futuros ejercicios o tienes la oportunidad de usarla.

Shape

El shape es una función dentro de la librería Pandas que devuelve el número de filas y columnas de un array.

ejemplo1.shape ()

(100, 3)

Tail

El tail es lo opuesto a head en la librería Pandas. Esto significa que lo que hace el tail es devolver las últimas n-rows:

ejemplo1.tail ()

Dtypes

El dtypes es una función dentro de la librería Pandas en Python que devuelve el tipo de las columnas. Esto es muy útil cuando tenemos que hacer análisis de datos y tenemos conjuntos de datos desconocidos, es decir, cuando no sabemos a qué nos estamos enfrentando:

ejemplo1.dtypes 
x1float64
x2float64
labelint64

dtype: object

Isnull

El isnull nos devuelve los missing values o valores faltantes.

El isnull en la librería Pandas nos muestra un dataframe de la misma magnitud que el original, pero con un booleano TRUE/FALSE de si el dato es missing o no, es decir, si el dato está contenido o no.

ejemplo1.isnull ()

Como este dataframe es inmanejable, lo que haremos será poner .any después del isnull para que así nos verifique si hay algún valor nulo en alguna de las columnas y, en caso de ser así, que nos lo muestre.

ejemplo1.isnull.any ()
x1False
x2False
labelFalse

dtype: bool

La tabla nos muestra que no hay ninguno.

Para verificar que esto sí funciona, pongamos a prueba el isnull.any.

Dentro del dataset eliminaremos un valor y veremos si se actualiza la tabla dentro de nuestros comandos:

Eliminamos el valor señalado, guardamos los cambios y volvemos a cargar el ejercicio.

x1False
x2True
labelFalse

Cargamos de nuevo la tabla y vemos que nos aparece x2 en True, porque ahora esta columna tiene un missing value, que es el que nosotros hemos eliminado del dataset anteriormente.

De hecho, si volvemos a hacer el describe, nos dice que ya hay 99 valores, no 100:

Si quieres seguir aprendiendo sobre la librería Pandas en Python y mucho más para ser un experto en el ámbito del data science, nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp te ofrece la posibilidad de lograrlo en pocos meses. Sigue aprendiendo toda la teoría y la práctica necesarias para sumergirte en este mundillo y triunfar en el mercado laboral. ¡Anímate a cambiar tu vida y solicita ahora más información!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado