La librería Pandas es una librería de Python de código abierto u open source especializada en el manejo y análisis de estructuras de datos. Empezó a desarrollarse en 2008 y a finales de 2009 ya era de código abierto, lo que permite que programadores de todo el mundo hagan valiosas contribuciones para mejorar cada día la librería Pandas.
¿Qué contiene la librería Pandas?
La librería Pandas ofrece una serie de herramientas útiles para leer y escribir datos entre estructuras de datos, entre ellos CSV y archivos de texto .txt, xlsx, SQL y formato HDF5. También posee funciones de alineación de datos, transformación y rotación de conjunto de datos de entrenamiento y todo tipo, entre otras cosas.
Veamos algunas de las funcionalidades de Pandas por medio de un ejercicio:
ejemplo1 = pd.read_csv ("./data/ex2data1.txt", sep = " , ", header = None, names = ['x1', 'x2', 'label'])
ejemplo1.head ()
Describe
ejemplo1.describe ()
Describe lo que hace es devolver cierta información estadística de las variables que permiten tener este tipo de información, es decir, las variables numéricas.
En este caso, todas las variable son numéricas, así que si hacemos un describe con este ejemplo, nos aparecerá información de las 3 columnas:
En caso de que alguna de esas columnas fuera no numérica, no estaría en la lista.
Entonces, ¿qué sabemos con el describe? Pues tenemos el count, es decir, el número de valores; el mean o la media; la desviación típica o std; el valor mínimo min y el máximo max, y los cuartiles (25%, 50%, 75%).
Si bien es información útil, no se utiliza demasiado en casi ningún contexto. No obstante, es importante que la tengas en cuenta por si se te presenta en futuros ejercicios o tienes la oportunidad de usarla.
Shape
El shape es una función dentro de la librería Pandas que devuelve el número de filas y columnas de un array.
ejemplo1.shape ()
(100, 3)
Tail
El tail es lo opuesto a head en la librería Pandas. Esto significa que lo que hace el tail es devolver las últimas n-rows:
ejemplo1.tail ()
Dtypes
El dtypes es una función dentro de la librería Pandas en Python que devuelve el tipo de las columnas. Esto es muy útil cuando tenemos que hacer análisis de datos y tenemos conjuntos de datos desconocidos, es decir, cuando no sabemos a qué nos estamos enfrentando:
ejemplo1.dtypes
x1 | float64 |
x2 | float64 |
label | int64 |
dtype: object
Isnull
El isnull nos devuelve los missing values o valores faltantes.
El isnull en la librería Pandas nos muestra un dataframe de la misma magnitud que el original, pero con un booleano TRUE/FALSE de si el dato es missing o no, es decir, si el dato está contenido o no.
ejemplo1.isnull ()
Como este dataframe es inmanejable, lo que haremos será poner .any después del isnull para que así nos verifique si hay algún valor nulo en alguna de las columnas y, en caso de ser así, que nos lo muestre.
ejemplo1.isnull.any ()
x1 | False |
x2 | False |
label | False |
dtype: bool
La tabla nos muestra que no hay ninguno.
Para verificar que esto sí funciona, pongamos a prueba el isnull.any.
Dentro del dataset eliminaremos un valor y veremos si se actualiza la tabla dentro de nuestros comandos:
Eliminamos el valor señalado, guardamos los cambios y volvemos a cargar el ejercicio.
x1 | False |
x2 | True |
label | False |
Cargamos de nuevo la tabla y vemos que nos aparece x2 en True, porque ahora esta columna tiene un missing value, que es el que nosotros hemos eliminado del dataset anteriormente.
De hecho, si volvemos a hacer el describe, nos dice que ya hay 99 valores, no 100:
Si quieres seguir aprendiendo sobre la librería Pandas en Python y mucho más para ser un experto en el ámbito del data science, nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp te ofrece la posibilidad de lograrlo en pocos meses. Sigue aprendiendo toda la teoría y la práctica necesarias para sumergirte en este mundillo y triunfar en el mercado laboral. ¡Anímate a cambiar tu vida y solicita ahora más información!