Existen muchas funcionalidades de la librería Pandas que puede que no conozcas y te van a resultar tremendamente útiles en el momento de ejecutar algún proceso de data science, como la manipulación de datos o análisis de datos, entre otros.
Pandas es una librería open source que pertenece a Python y está especializada en el manejo y análisis de estructuras de datos. Fue desarrollada en 2008 y desde el 2009 no ha parado de crecer gracias a la contribución de miles de programadores. Por ello, en este artículo, te mostraremos algunas de las funcionalidades de la librería Pandas.
¿Cómo hacer un filtro?
Una de las funcionalidades de la librería Pandas es la posibilidad de crear filtros, que son bastante útiles y muy fáciles de hacer.
¿Y qué es un filtro? Imagina que tienes el describe de un dataset con los siguientes valores:
En este describe estamos viendo que la media de x1 es 65 y que el valor mínimo es 30. Entonces, queremos hacer un experimento y saber los valores del dataset que tienen un x1 menor a 40, es decir, los que están entre 30, que es el mínimo, y 40.
Así pues, lo que teclearemos será:
#funcionalidades de la librería pandas
df_menor_40 = ejemplo1 [ejemplo1 ['x1'] < 40]
df_menor_40.describe ()
Aquí vemos cómo hay un total de 13 valores que cumplen este filtro de valores menores a 40.
Índices
Es importante que tengamos en cuenta que, en el interior, los arrays son una seudobase de datos. Por tanto, lo que veremos a continuación como una de las funcionalidades de la librería Pandas es la manera de saber todos los valores del índice dentro de un array.
Recordemos que un array es un tipo de variable multidimensional que puede alojar más de un valor al mismo tiempo, pero no en el mismo lugar. Todos estos valores deben tener el mismo tipo de dato.
Los arrays de la librería numpy pertenecen, al mismo tiempo, a Pandas y el índice o index es la posición que guarda determinado valor dentro de la variable array.
Este es nuestro array:
ejemplo1.indes.values ()
Igual que en el apartado anterior, «ejemplo1» pertenece al nombre del ejercicio en el que estamos trabajando. Es decir, en este campo iría el nombre del ejercicio con el que estemos trabajando, sea cual sea.
Entonces, podemos acceder a los datos mediante su índice. Podemos generar un algoritmo que nos permita ver, por ejemplo, los eventos que están en los lugares 17 y 29:
ejemplo1.iloc [[17, 29]]
El evento iloc es lo que nos devuelve el valor de los índices señalados. Al iloc se le debe pasar una lista de valores; en este caso, serán el 17 y 29, que son los valores que queremos visualizar.
El resultado sería:
x1 | x2 | label | |
17 | 67.946855 | 46.678574 | 0 |
29 | 38.785804 | 64.995681 | 0 |
Esta es una de las funcionalidades de la librería Pandas que muchas veces no resulta necesaria, pero que seguro que puedes llegar a requerir en algún momento, por lo que es bueno saber de su existencia.
Drop
El drop es otra de las funcionalidades de la librería Pandas que se utiliza mucho y sirve para eliminar filas y columnas de una tabla:
#funcionalidades de la librería pandas
e2 = ejemplo1.drop ('x1', axis = 1)
e2.head ()
Algunos de los parámetros que le podemos pasar al drop son:
- Eje o axis: es decir, el eje sobre el cual vamos a eliminar. Si el eje es igual a 0, se trata de filas; si es igual a 1, serán columnas.
- Labels: pueden ser single labels o una lista. En caso de que sea una única columna, la podemos pasar como string; en el caso de que sean varias, lo pasamos como lista (list-like).
- Inplace: es un valor booleano que, por defecto, está en false.
Otra serie de parámetros que no se usan mucho, pero igualmente es bueno enumerar, son las siguientes:
- Index.
- Columns.
- Level.
- Errors.
Estas son, por tanto, algunas de las funcionalidades de la librería Pandas que es necesario que conozcas, ya que la mayoría de ellas vas a tener que usarlas de manera recurrente en tus proyectos de ciencia de datos y analítica.
¿Quieres aprender más?
Existen muchas otras funciones que puedes aprender y te servirán para tus análisis. Si quieres conocerlas todas y seguir aprendiendo sobre la ciencia del momento, tenemos para ti el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva en la que podrás adquirir conocimientos tanto teóricos como prácticos para seguir forjando tu camino. ¡Anímate a transformar tu vida y solicita más información ya!