Conoce los métodos de normalización en Python

| Última modificación: 29 de septiembre de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

En el emocionante mundo del machine learning, uno de los aspectos cruciales que debemos dominar es la normalización de datos. Los métodos de normalización en Python son esenciales para asegurarnos de que nuestros datos estén en la mejor forma posible antes de alimentarlos a nuestros modelos de machine learning.

En este artículo, explorarás cuáles son los métodos de normalización en Python, por qué son importantes y cómo puedes llevarlos a cabo utilizando herramientas como scikit-learn.

¿Por qué necesitamos la normalización de datos?

Antes de sumergirnos en los métodos de normalización en Python, es importante entender por qué esta etapa es crucial en el proceso de entrenamiento de modelos de machine learning. Los datos que utilizamos para entrenar nuestros modelos pueden provenir de diversas fuentes y en diferentes formatos. Algunos datos pueden tener valores que varían significativamente en rango, mientras que otros pueden tener escalas completamente diferentes. Esto puede afectar negativamente al rendimiento de nuestros modelos.

Imagina tener un conjunto de datos que incluye la edad de las personas y sus ingresos mensuales. Los valores de edad pueden variar desde 0 hasta 100 años, mientras que los ingresos pueden variar desde unos pocos cientos de dólares hasta miles o más. Si no normalizamos estos datos, la diferencia en la escala puede hacer que nuestro modelo de machine learning se incline hacia una característica en detrimento de otra. Para evitar esto, necesitamos aplicar métodos de normalización.

Métodos de normalización en Python

Python, con su amplia gama de bibliotecas de machine learning, nos ofrece herramientas poderosas para llevar a cabo la normalización de datos de manera eficiente. Algunos de los métodos de normalización en Python más comunes son:

Normalización por escala min-max

Este método escala los datos al rango [0, 1]. Cada valor se transforma utilizando la siguiente fórmula:

X′=X– Xmin / Xmax​−Xmin​

X es el valor original, X′ es el valor escalado, Xmin​ es el valor mínimo en el conjunto de entrenamiento y Xmax​ es el valor máximo en el conjunto de entrenamiento.

Normalización Z-score

También conocido como normalización estándar, este método transforma los datos para que tengan una media de 0 y una desviación estándar de 1. La fórmula para esto es:

X′=Xμ / ​σ

Aquí, X es el valor original, X′ es el valor normalizado, μ es la media de los datos y σ es la desviación estándar.

Ejemplo de normalización en Python

Para ilustrar estos métodos de normalización en Python, consideremos un ejemplo utilizando una tabla de datos de salarios de empleados en una empresa. Supongamos que quieres normalizar los salarios para que estén en la misma escala que otras características.

import pandas as pd 
from sklearn.preprocessing import MinMaxScaler, StandardScaler 

# Crear un DataFrame de ejemplo 
data = {'Salario': [30000, 50000, 75000, 60000, 80000]} 
df = pd.DataFrame(data) 

# Escala Min-Max 
scaler_minmax = MinMaxScaler() 
df['Salario_MinMax'] = scaler_minmax.fit_transform(df[['Salario']]) 

# Normalización Z-score 
scaler_zscore = StandardScaler() 
df['Salario_ZScore'] = scaler_zscore.fit_transform(df[['Salario']]) 

print(df)

Este código utiliza las clases MinMaxScaler y StandardScaler de scikit-learn para aplicar la normalización por escala min-max y la normalización Z-score a la columna de salarios en el DataFrame.

Los desarrolladores deben saber cómo usar los métodos de normalización en Python porque, en el campo del machine learning, la calidad de los datos es esencial para obtener resultados precisos y confiables. La normalización de datos en Python ayuda a que los modelos funcionen mejor al reducir la variabilidad de las características y permitir que el algoritmo se concentre en patrones significativos en lugar de estar influenciado por diferencias en la escala de las variables.

La normalización de datos en Python es una habilidad esencial para cualquier científico de datos o desarrollador de machine learning. Asegurar que nuestros datos estén en la misma escala y tengan la misma dispersión es fundamental para entrenar modelos precisos y efectivos. Los métodos de normalización, como la normalización por escala min-max y la normalización Z-score, son herramientas poderosas que nos ayudan a lograr este objetivo.

Aprende más en KeepCoding

Si estás interesado en aprender más sobre los métodos de normalización en Python, el emocionante mundo del desarrollo web y cómo se relaciona con la ciencia de datos y el ML, te invitamos a explorar el Desarrollo Web Full Stack Bootcamp de KeepCoding. Este bootcamp te proporcionará las habilidades imprescindibles para ingresar al sector tecnológico, una industria con una alta demanda de profesionales que ofrece salarios altos y una estabilidad laboral que otros sectores no pueden igualar. ¡No pierdas la oportunidad de cambiar tu vida ahora mismo y pide ya más información!

Alberto Casero

Alberto Casero es CTO en Watium, Fundador de Kas Factory & Coordinador del Bootcamp en Desarrollo Web.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Desarrollo web

Full Stack Bootcamp

Conviértete en Full Stack Deeveloper en solo 10 meses. Accede a un sector con el 98,49% de empleabilidad con sueldos de hasta 80K.