Existen algunas limitaciones de la división train y test que debes conocer antes de separar los datos que contiene un dataset.
Recordemos que el train consiste en tomar un conjunto de datos con el que alimentamos nuestro modelo para aprender sobre posibles patrones y relaciones subyacentes. Por su parte, el test se ejecuta cuando se toma un conjunto de datos que se usa para aproximar la precisión imparcial de un modelo en un contexto no simulado.
También cabe destacar que entrenar un conjunto de datos completo y luego hacer testing en ese mismo dataset puede conducir a un proceso de sobreajuste, también llamado overfitting.
¿Cuáles son las limitaciones de la división train y test?
Algunas de las limitaciones de la división train y test que se pueden presentar a lo largo del trabajo con modelos y conjuntos de datos son:
- Si las muestra de entrenamiento son escasas, el error en test puede ser muy variable, dependiendo de las muestras incluidas en el conjunto de entrenamiento y el conjunto de test.
Esto quiere decir que hay una dependencia muy grande del tipo de datos que se van a quedar en el porcentaje que se haya separado previamente para test. Existen métodos para solucionar la primera de las limitaciones de la división train y test.
Otra de las limitaciones de la división train y test que nos podemos encontrar es:
- No se permite seleccionar los parámetros del modelo.
Este punto es muy muy importante y, por ello, hay que tenerlo bien claro a la hora de tratar los datos de forma que un conjunto de entrenamiento ejecute los resultados obtenidos y los datos de entrenamiento de manera óptima para ejecutar un buen análisis estadístico. También es importante tenerlo presente en el momento de plantearse todas las demás limitaciones de la división train y test.
Cuando hablamos de que no se permite seleccionar los parámetros del modelo, estamos refiriéndonos a que nosotros, con la división que hemos comentado entre train y test, no podemos saber si el mejor número de vecinos es 5, 7 o 100 (por mencionar cualquier número).
Para que lo entiendas mejor, te ponemos otro ejemplo. Imagina que cogemos nuestros datos de entrenamiento y ejecutamos el modelo con 5 vecinos, ejecutamos luego el modelo con 7 vecinos, luego lo ejecutamos con 10 vecinos, con 12, con 15… En definitiva, con cualquier número de vecinos que queramos o que se nos ocurra.
Con estos modelos vamos probando y nos damos cuenta de que el mejor resultado lo podremos obtener con 10 vecinos. Después de haberlo probado en train, nos vamos a test y lo probamos con los mismos 10, porque sabemos (o al menos creíamos saber) que era lo mejor.
Con esto cabe preguntarse: ¿en serio sabemos que realmente es el mejor? La respuesta es no, ya que solo tenemos conocimiento de que ese modelo sea mejor para ese conjunto de datos determinado, no de manera general.
Lo ideal para arreglar una de las limitaciones de la división train y test más problemática es tener tantos conjuntos de entrenamiento como número de veces queramos probar nuestros datos. Es decir, si tenemos, por ejemplo, 4 números de vecinos con los que queremos probar, debemos tener asimismo 4 conjuntos de datos. Luego probaremos cada uno de esos números con cada uno de los diferentes conjuntos de datos que tenemos. Después de eso, y tras haber evaluado los resultados obtenidos y promediado cuál fue el número que mejor se adaptó entre los cuatro escogidos, elegimos ese número. Ese será el que debemos probar en testing para tener resultados más certeros.
La media del resultado de probar cada uno de los números en los distintos datasets será la forma de evaluar si un número de vecinos es adecuado para testing o no.
Para resumir, la más grande de las limitaciones de la división train y test es que, aunque está bien para evaluar el modelo con datos que no ha visto, no nos permite seleccionar los parámetros del modelo.
¿Quieres seguir aprendiendo sobre estadística en Big Data?
Si te interesa este tema sobre las limitaciones de la división train y test y quieres seguir aprendiendo, te invitamos a que te inscribas en nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva en la que tendrás la oportunidad de aprender de los mejores profesionales y adquirir todos los conocimientos teóricos y prácticos para incursionar en el mundo del Big Data. ¡Anímate a cambiar tu futuro y solicita más información!