¿Conoces cuál es el ciclo de vida de un proyecto en machine learning? Este tiene varias fases y, en este artículo, te contaremos en qué consisten algunas de ellas.
ML pipeline: general
El pipeline general del ciclo de vida de un proyecto en machine learning tiene diversas etapas, como son:
- Adquisición de datos.
- Análisis exploratorio. Este incluye:
- Visualización.
- Estadística.
- Correlación.
- Preprocesamiento. Esta etapa contiene:
- Normalización.
- Reducción de dimensionalidad.
- Combinación de variables.
- Algoritmo machine learning.
- Optimización del modelo.
- Predicción clustering.
Generalmente, la más compleja de estas etapas es la primera, la adquisición de datos. Más que construir el modelo de machine learning o hacer análisis exploratorio en bases de datos, este primer paso es primordial y el más complejo.
ML pipeline: específico
El pipeline específico del ciclo de vida de un proyecto en machine learning empieza con la base de datos, el data lake, excel o cualquier lugar donde sea que tengas tu información y datos alojados.
Después de tener los datos en la base de datos, se realiza un preprocesado, Posteriormente, se generan nuevas variables o se eliminan variables. Luego, se divide entre train/validation y test.
Aquí hay un matiz, ya que en las etapas de preprocesado y las nuevas variables hay que tener muchísimo cuidado con lo que se esté haciendo, porque este pipeline mete la dirección en train y test en el medio, pero también se puede hacer al inicio, una vez tenemos los datos en la base de datos y antes de hacer el preprocesado y generar las nuevas variables.
Así, nos aseguramos de que no exista una mala manipulación en el conjunto de datos de test y se pueda dar una normalización de variables y selección de características óptima. Por eso, poner la división train test al principio nos evita trabajar con datos que pueden ser completamente inútiles.
Veamos un ejemplo en el que hay una serie de columnas que son URL. Podríamos decidir eliminar todas las columnas que son URL de antemano, antes de dividir, porque sabemos, por conocimiento de dominio, que esas columnas no aportan ningún valor. Entonces, antes de dividir entre train y test, quitamos esas columnas por la razón mencionada. Esto es un error, ya que lo que estamos haciendo es manipular el dataset sin haber hecho train y test, lo cual nos puede traer problemas en el futuro.
Después de la división train y test, se sacan los parámetros libres con el cross validation y, posteriormente, se evalúan en train y en test.
Errores similares
En esta última fase del ciclo de vida de un proyecto en machine learning puede suceder que tengamos errores similares, pero de valor elevado. Estos los podemos solucionar de los siguientes modos:
- Añadir nuevas variables.
- Añadir variables polinómicas y/o interacciones.
- Disminuir el valor del parámetro de regularización.
Errores muy distintos
También puede suceder que en esta fase del ciclo de vida de un proyecto en machine learning nos encontremos con errores muy distintos (overfitting), para los cuales presentamos algunas soluciones:
- Conseguir más muestras de entrenamiento.
- Reducir el número de variables.
- Aumentar el valor del parámetro de regularización.
¿Qué sigue?
Ahora que sabemos en qué consiste y qué fase tiene el ciclo de vida de un proyecto en machine learning, podemos dar el siguiente paso en este proceso de aprendizaje. Para ello, te traemos el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, en el que podrás adquirir todos los conocimientos necesarios para incursionar en el mercado laboral en menos de un año.¡Anímate a transformar tu vida y solicita ahora más información!