¿Sabes qué es la intuición artificial en machine learning? Si has trabajado con árboles de decisión, seguro que has escuchado el concepto de intuición artificial, que consiste en una cadena de if else. A continuación, profundizamos en dicho término.
Intuición artificial en árboles de decisión
Un árbol es un conjunto, una cadena de if else. Más adelante veremos en qué se basa el algoritmo para determinar si cada una de esas decisiones que toma es un if o un else.
Supongamos el problema de clasificación con el ejemplo de concesión de un préstamo:
Partimos de una pregunta inicial: la cantidad de los ingresos. Formulado de otra manera, sería:
- ¿Tiene la persona unos ingresos elevados? La respuesta binaria consiste en un sí y un no.
- Si la respuesta a esa pregunta es un no, surge otra pregunta: ¿tiene esta persona un aval? De nuevo la respuesta es binaria: sí o no. En este caso acabamos aquí:
- Si la respuesta es que no, no se concede el préstamo.
- Si la respuesta es que sí, se procede a conceder el préstamo.
- Volvemos a la pregunta de los ingresos. Si tiene ingresos elevados, surge otra pregunta, que es: ¿tiene otro préstamo?
- Si la respuesta es sí, no se concede el préstamo.
- Si la respuesta es no, se concede el préstamo.
- Si la respuesta a esa pregunta es un no, surge otra pregunta: ¿tiene esta persona un aval? De nuevo la respuesta es binaria: sí o no. En este caso acabamos aquí:
Esto que estamos viendo aquí es un árbol de decisión. En este caso tiene profundidad 2, tiene 4 hojas, 2 nudos intermedios y, como podemos observar, este tipo de algoritmos es muy interpretable, es decir, la intuición artificial es muy alta.
Clasificación binaria con datos reales
En definitiva, esta metodología es un árbol de decisión. Ahora bien, ¿cómo trasladamos este proceso de intuición artificial a datos? Pues segmentando el espacio de características en regiones sencillas.
🔴 ¿Quieres formarte en Inteligencia Artificial a un nivel avanzado? 🔴
Descubre nuestro Inteligencia Artificial Full Stack Bootcamp. La formación más completa del mercado y con empleabilidad garantizada
👉 Prueba gratis el Bootcamp en Inteligencia Artificial por una semanaLo que hace el árbol de decisión, es decir, lo que hace el algoritmo que tiene detrás de la intuición artificial, es segmentar el espacio de características en regiones sencillas mediante líneas rectas. Por ejemplo:
Aquí tenemos dos ejes, x1 y x2, y una serie de variables que, como vemos claramente, se trata del problema de XOR, es decir, no es linealmente separable, pero vemos que sí existe una separación perfecta bastante identificable. Esto significa que este problema se podría separar cogiendo todos los puntos azules y todos los puntos rojos y dividiéndolos en cuatro grupos. No obstante, linealmente no es posible hacer esta división.
Entonces, la primera pregunta relacionada con la intuición artificial que hace el árbol es: ¿x1 es mayor o menor que a?
Si es menor que a, vuelve a segmentar el espacio de características, usando esta vez x2. De modo que, se une al árbol la pregunta: ¿es x2 mayor o menor que b?
Si x2 es menor que b, le corresponde la cuadrícula señalada con color naranja, con un x1 menor que a y un x2 menor que b.
Si x2 es mayor que b, tiene la cuadrícula que está justo arriba del recuadro naranja, señalada con las x color rojo, con un x1 menor que a y un x2 mayor que b.
El árbol podría haber acabado aquí, porque ya hemos hecho una clasificación perfecta. Técnicamente, no ha acabado, porque nos falta la parte de la derecha, en donde x1 es mayor que a. En ese caso, la siguiente pregunta que cabría hacer es: ¿es x2 mayor o menor que c?
Si x2 es menor que c, corresponde a la otra parte del cuadro, señalada con morado, con un x1 mayor que a y un x2 menor que c:
Si x2 es mayor que c, estamos en el conjunto de la parte superior del cuadro, en donde se encuentran las x color azul, con un x1 mayor que a y x2 mayor que c.
Nomenclatura
Por tanto, tenemos que:
- Las hojas son la región y = 1
- Los nodos intermedios son x1 y x2
- Las ramas son todos los <a, >a, <b, >b, <c, >c
A modo de conclusión
Una vez segmentado el espacio de características, para cada nueva observación que cae en alguna de las regiones se predice:
- Clasificación: moda de etiquetas (majority vote).
- Regresión: media de etiquetas.
Ten en cuenta que existen distintos algoritmos para implementar árboles de decisión: ID3, C4.5, CART… Scikit-learn utiliza CART, que solo permite decisiones binarias (cada nodo tiene dos ramas).
¿Qué sigue?
Si quieres seguir aprendiendo más sobre Big Data e intuición artificial, tenemos nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación en la que aprenderás todo lo necesario para incursionar en el mercado laboral. ¡Anímate a impulsar tu futuro y solicita más información!