¿Sabes qué es el preprocesado en R? Sucede que a veces tenemos que ajustar nuestros datos de entrada para que encajen con lo que espera el algoritmo. A continuación, profundizamos en este concepto.
Escalado de características del preprocesado en R
Muchas veces los datos de diferentes orígenes, columnas, dimensiones, vienen en distintas escalas. Así pues, el escalado de características que forma parte del preprocesado en R es muy importante para algoritmos que utilicen medidas de distancia (kmeans, knearest neighbors) y puede ser interesante para regresiones o redes neuronales para acelerar la convergencia
Ten en cuenta que no es necesario para algoritmos basados en árboles.
¿Por qué es necesario el preprocesado en R?
Cuando estamos trabajando con dataframes con múltiples variables, cada una generalmente se mueve en un rango diferente.
Por ejemplo: a veces tenemos datos en diferentes métricas (distancia, superficie, temperatura energía, etc.) y, aunque se trata de las mismas métricas, se mueven en rangos diferentes.
Para que los datos de las diferentes dimensiones sean comparables, recurrimos al reescalado de dichas variables.
Estandarización
El resultado consiste en dejar nuestros datos con media 0 y varianza 1:
La estandarización nos garantiza que tengamos una desviación típica de 1 y una media de 0.
En este proceso no hay valores límite ni nada acotado, puedes tener un valor de infinito. Es decir, puedes tener valores muy altos o muy bajos, aunque no es aconsejable.
Normalización
En una de las normalizaciones más comunes podemos maximizar para dejar todos nuestros datos en el rango [0,1]:
A veces existen variaciones de esta normalización. El máximo y el mínimo puede ser peligroso si tenemos outliers; es posible que primero tengamos que eliminarlos. También podemos utilizar percentiles.
Existen infinidad de formas diferentes de normalizar los datos.
Con la normalización debes asegurarte de que el mínimo o el máximo no tengan valores muy grandes o muy pequeños, porque este procedimiento, a diferencia del anterior, no acepta este tipo de desviaciones.
Piensa, por ejemplo, en los outliers. Si tienes en el máximo un valor muy extremo, un único valor, puede suceder que se reduzcan todos tus puntos o que hayan valores que sufran desviaciones.
¿Quieres saber más?
Ya sabes cómo funciona el preprocesado en R y cuáles son sus características y funcionalidades. Si te interesa este tema y quieres seguir aprendiendo, puedes inscribirte a nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, en el cual aprenderás, en muy poco tiempo, todo lo necesario para incursionar en el mercado laboral que más demanda tiene actualmente. ¡Anímate y sigue cambiando tu futuro de mano de los mejores profesionales! ¡Te esperamos!