Árboles de decisión sobre series temporales

| Última modificación: 1 de julio de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

¿Sabes cómo funcionan los árboles de decisión sobre series temporales?

Recordemos que los árboles de decisión son una de las herramientas más usadas en los algoritmos de clasificación y en los modelos de predicción. Su fama, por supuesto, no es gratuita, ya que los árboles de decisión pueden ayudarnos a tomar decisiones complejas de forma simple. Esto se debe a su estructura en forma de árbol, que permite, con los diagramas de flujo, escoger entre opciones sin el peligro de perdernos en el camino. Así pues, los árboles de decisión representan respuestas binarias.

Árboles de decisión sobre series temporales

Antes de hablar de los árboles de decisión sobre series temporales, repasemos algunas de las características (positivas y negativas) más importantes de los árboles de decisión.

  • Son sencillos y extremadamente interpretables.
  • Sirven para la clasificación binaria y para la clasificación multiclase.
  • Sirven para regresión.
  • Permiten variables numéricas y categóricas.
  • No necesitan la normalización, porque no son sensibles y no están basados en distancias, por lo cual no hay que escalar los datos.
  • Nos dan una estimación de la probabilidad, cosa que otros modelos, como el SVM, no hacen. Es decir, no solo nos dicen qué característica tiene un conjunto, sino que nos da la probabilidad. Por ejemplo, tenemos una clasificación binaria; el árbol de decisión no solo nos dirá “esto es rojo”, sino que nos dirá “esto es rojo, con una probabilidad del 60%, es azul con un 40% de probabilidad”. Con el árbol de decisión no solo sabes X cosas, sino que sabes con cuánta certeza sabes esas X cosas.
  • Son útiles cuando se trabajan en conjunto con:
  • Cuando hay muchas variables, existe riesgo de overfitting, por tanto, hay que procurar controlar la complejidad.
  • Tienen prestaciones peores que las de los algoritmos. Para ello la mejor solución es combinarlos con los random forest y los boosted trees.
  • No miran al futuro.

Esta última característica es una parte importante de la finalidad de este post: hablar de los árboles de decisión sobre series temporales.

La conclusión es que los árboles de decisión sobre series temporales son terriblemente malos, ya que no permiten hacer predicciones de futuro.

Veamos un ejemplo:

Árboles de decisión sobre series temporales

Estamos viendo el precio en dólares por Mbyte. No sabemos si esto hace referencia a la potencia, al almacenaje o a cualquier otra característica, pero en realidad eso no importa.

Lo importante es que en la sección del árbol de decisión sobre series temporales, a medida que avanzan los años, tenemos el training data, que llega hasta el año 2000, y el test data, que llega hasta 2015, más o menos.

Cualquiera podría ver con este diagrama que hay una clarísima tendencia descendente que es prácticamente una línea recta. Una regresión lineal puede evidenciar muy bien esa línea recta, esa tendencia descendente de nuestro modelo. No obstante, cuando hablamos de árboles de decisión sobre series temporales, si miramos el tree prediction, este no es capaz de determinar esa tendencia, porque los árboles de decisión sobre series temporales son imposibles, es decir, estas estructuras no están en la capacidad de trabajar con series temporales.

Entonces, aunque algunas personas hayan logrado hacer que los árboles de decisión sobre series temporales funcionen, que han sido capaces de evidenciar patrones de tiempo en este tipo de estructuras, lo hacen a medias, ya que estos no están adaptados para trabajar con este tipo de series.

El consejo que te podemos dar es: si tienes series temporales, no uses árboles de decisión. Tienes a mano una diversa cantidad de opciones que pueden reemplazar de mejor manera a los árboles. Están, por ejemplo, los modelos de regresión lineal que, como observamos en nuestro ejemplo, evidencian a la perfección este tipo de predicciones, llegando incluso a formar una línea recta sobre las gráficas, ya que perfeccionan bastante bien la predicción que se quiera hacer.

En definitiva, los árboles de decisión sobre series temporales no son la mejor opción en análisis de tiempos prolongados. Si quieres seguir aprendiendo sobre estas temáticas, tenemos para ti el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva de 8 meses en la que tendrás la oportunidad de aprender todo lo necesario para incursionar en el gran mundo del Big Data, el mercado laboral de una de las disciplinas mejor pagadas actualmente. ¡Anímate a cambiar tu vida y solicita más información ahora!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado