Existen métodos de filtrado para selección de características en machine learning que puedes utilizar, dependiendo de la finalidad que tengas con tu conjunto de datos y del número de características basadas en el método de selección que uses para hacer dicho filtrado.
¿Qué encontrarás en este post?
ToggleMétodos de filtrado para selección de características
Existen diversas cosas que se puede hacer en los métodos de filtrado para selección de características, entre ellas:
- Se evalúa la relevancia de cada característica de forma individual, es decir, no hay ningún tipo de sinergia ni combinación entre características.
- La idea del método de filtrado es que las variables se ordenan de acuerdo con algún índice de relevancia, de forma que las variables con valor más bajo pueden ser eliminadas.
- Con el conjunto de variables seleccionadas entrenamos nuestro modelo de machine learning.
- En scikit learn los métodos de filtrado para selección de características se denominan Univariate feature selection.
Ventajas e inconvenientes de los métodos de filtrado
Una de las grandes ventajas que tienen los métodos de filtrado para selección de características es que son sencillos y rápidos de aplicar.
No obstante, estos presentan una desventaja, y es que no tienen en cuenta las interacciones entre variables.
Métodos F – Test y mutual info
- Para regresión tenemos dos tipos de métodos: f_regression, mutual_info_regression
- Para clasificación también tenemos dos métodos: chi2, f_classif, mutal_info_classif
Los métodos que usaremos más son el f_regression, mutual_info_regression, f_classif y mutal_info_classif. El chi2 no lo usaremos.
Los métodos que se basan en el F – test, es decir, el f_regression y el f_classif, estiman el grado de dependencia lineal entre dos variables. Esto significa que, además de estimar las variables una a una contra target, si entre esa variable y target la dependencia es no lineal, F – test no la carga.
Los métodos de mutual info cogen cualquier tipo de dependencia, pero necesitan más muestras para funcionar bien; mientras que en F – test, con pocas muestras ya se puede sacar algo aceptable.
Esta comparación se hace relacionando variables con la variable que queremos predecir, es decir, la variable objetivo, no con las variables features. No se trabaja entre pares de variables, sino entre:
- Variable A y variable objetivo.
- Variable B y variable objetivo.
- Variable C y variable objetivo.
Así sucesivamente con todas las variables que necesitemos comparar.
Podríamos pensar que los métodos de filtrado para selección de características funcionan como una serie de regresiones lineales juntas, pero en realidad no.
Si recordamos, una regresión lineal se hace con el objetivo de estimar algo; pero en el caso de estos métodos de filtrado, lo que hacemos es una medida de la importancia de la variable respecto al fallo, estamos evaluando cuánto de nuestra variable objetivo es explicada por la variable a.
No es exactamente una estimación o una predicción. Con los métodos de filtrado para selección de características podemos saber, por ejemplo, si una casa vale un millón de euros, cuánta cantidad de ese millón de euros es debido a que la casa tiene dos baños.
Esto quiere decir que se evalúan algunas características, como bien se menciona, y se filtra alguna información dentro de un conjunto de datos que determina el valor de ciertos datos dentro de ese dataset. No hay previsión a futuro, ya habíamos dicho que los métodos de filtrado para selección de características no eran buenos en este aspecto, sino que hay una especie de análisis comparativo y observatorio de donde se pueden sacar ciertas conclusiones.
Por supuesto no se está hablando en términos económicos, sino en términos de varianza y, de hecho, algunos de los test lo que hacen es evaluar el cambio que hay en esa variable objetivo si eliminamos la variable que estamos estudiando, y de allí es de donde se saca toda la información de los métodos de filtrado para selección de características.
Ahora que has visto los métodos de filtrado para selección de características, puedes dar el siguiente paso y seguir aprendiendo sobre una de las disciplinas más demandadas en la actualidad. Para ello tenemos el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva de pocos meses de duración en la que podrás adquirir todas las herramientas teóricas y prácticas y conocimientos necesarios para incursionar en este interesante mundillo. No pierdas la oportunidad de cambiar tu futuro y comienza ahora. ¡Anímate y solicita más información!