¿Conoces cuál es la fórmula matemática del aprendizaje supervisado?

Sabemos que el aprendizaje supervisado es aquel tipo de machine learning en el que la máquina requiere un operador (humano) y unos datos de entrada para poder hacer predicciones, entre otras funciones.

Pero ¿sabemos cuál es la fórmula matemática detrás de este proceso? En este artículo te hablamos sobre ello.

¿Qué encontrarás en este post?

Fórmula matemática del aprendizaje supervisado

{x⁽ⁱ⁾, y⁽ⁱ⁾} α p(x, y) i.i.d.,
x(i) ∈d,
y(i) ∈,
i = 1, ... , N,
fω(x(i)) ≈ y(i)

En el aprendizaje supervisado disponemos de unos datos: x⁽ⁱ⁾ ∈ $\mathbb R$ ^d, que es un vector; y⁽ⁱ⁾ ∈ $\mathbb R$ , que es un escalar. El superíndice i lo que va a representar es el número de la distancia, es decir, tenemos una serie de registros, de instancias o muestra; para entenderlo, en una tabla esto equivale a las filas y cada una de esas filas es una instancia.

Cada una de esas filas va a tener un número n de columnas, que son las características o atributos de esa instancia, que es x, y va a tener una única columna, que es la etiqueta de la instancia, la variable target o variable objetivo, que es y⁽ⁱ⁾.

Entonces, el objetivo del aprendizaje supervisado es encontrar una función, una relación entre los datos, es decir, entre los parámetros, los atributos, las características de esa instancia del vector x⁽ⁱ⁾ y la salida, el objetivo, que es y⁽ⁱ⁾. Esta es la fórmula matemática del aprendizaje supervisado explicada detalladamente.

Ejemplo de la fórmula matemática del aprendizaje supervisado

Para que quede más claro, veamos un ejemplo aplicando esta fórmula matemática del aprendizaje supervisado.

🔴 ¿Quieres formarte en Inteligencia Artificial a un nivel avanzado? 🔴

Descubre nuestro Inteligencia Artificial Full Stack Bootcamp. La formación más completa del mercado y con empleabilidad garantizada

👉 Prueba gratis el Bootcamp en Inteligencia Artificial por una semana

Seguro que ya conoces el dataset Iris, un dataset ampliamente usado en algoritmos de aprendizaje supervisado e introducido por Ronald Fisher, un estadístico y biólogo inglés, en su artículo publicado en 1936 y titulado The use of multiple measurements in taxonomic problems («El uso de medidas múltiples en problemas taxonómicos»), para ejemplificar lo que era el análisis discriminante lineal.

Fórmula matemática del aprendizaje supervisado

El dataset Iris incluye tres especies de Iris (plantas rizomatosas) con 50 muestras cada una y con cada una de las propiedades de cada flor. Una especie de flor es linealmente separable de las otras dos, pero las otra dos no son linealmente separables entre sí. Esto quiere decir que, en vez de tres especies de flores, pese a los intentos fallidos con diferentes algoritmos de clasificación y de agrupamiento, apenas se distinguen dos grupos de flores dadas sus características.

Las especies de Iris que se presentan en el dataset son: Iris setosa, Iris virginica e Iris versicolor. Las columnas en este conjunto de datos son: longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo y especie.

Iris tiene muy pocas instancias, es un dataset bastante pequeño, pero muy estudiado. Tiene alrededor de 200 instancias y para cada una de esas instancias, muestras o filas dentro de nuestra tabla hay 5 columnas que ya mencionamos anteriormente. Cuatro de esas columnas corresponden al vector x⁽ⁱ⁾, es decir, las características, y una corresponde al escalar y⁽ⁱ⁾, que vendría siendo la variable objetivo (especie).

Entonces, el objetivo de un aprendizaje supervisado, basándonos en la fórmula matemática del aprendizaje supervisado, sería, en función de esos cuatro datos que tenemos de una flor, determinar el tipo de especie de esa flor. Es decir, determinar a cuál de los tres tipos de Iris pertenece cada sección del conjunto de datos.

Hemos escogido este dataset para aplicar la fórmula matemática del aprendizaje supervisado porque es un dataset simple de entender y porque es pequeño, pero existen casos (en su mayoría) en donde la cosa no es tan simple y tenemos conjuntos de datos inmensos a los que tendremos que aplicarles la misma teoría con la fórmula matemática del aprendizaje supervisado.

En este ejemplo lo que tenemos, por tanto, es una clasificación perfecta. Esto significa que se puede determinar con plena exactitud que, dada una serie de parámetros, una flor pertenece a la especie A, B o C.

Ahora que hemos entendido cómo funciona la fórmula matemática del aprendizaje supervisado, podemos seguir aprendiendo y dar el siguiente paso. Para eso, en KeepCoding tenemos nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva en la que adquirirás todas las herramientas teóricas y prácticas y los conocimientos necesarios para incursionar en el mundo del Big Data. ¡Anímate a conseguir el empleo de tus sueños y solicita más información!