La loss function es una función que se utiliza para optimizar nuestros modelos de machine learning. Veamos en este artículo cómo funciona en los algoritmos de machine learning y en los problemas de clasificación.
Loss function
La loss function es un método increíblemente útil para evaluar lo bien que nuestro algoritmo modela su conjunto de datos. Si las predicciones que hacemos están erradas, nuestra loss function o función de pérdida generará un número más alto. Si son bastante buenas, la loss function generará un número más bajo. A medida que vamos modificando nuestro algoritmo, la loss function nos va indicando si vamos por un buen o por un mal camino.
La fórmula de la loss function es:
1 N
arg min —— ∑ (yi – h (xi))2
N L:1
Esta ecuación es la de mínimos cuadrados o least squeares. Es una ecuación muy usada en diferentes esferas. En ingeniería, por ejemplo, se emplea mucho en diseño 3D, para calcular las mayas o las superficies geométricas, entre otras muchas.
Entonces, la que acabamos de definir es una loss function. Aquí hay varios aspectos muy importantes que mencionar:
- En la ecuación tenemos una yi y una h (xi).
- Lo primero que hay que entender es que esta función la aplicamos, por ejemplo, cuando tenemos un conjunto de datos de la siguiente forma:
S = {(x1, y1), (x2, y2), (x3, y3), … (xi, yi)}
- Es básicamente la forma matemática que utilizamos para aprendizaje supervisado. Cuando nos referimos a aprendizaje supervisado, solo hacemos alusión a la parte en la que denotamos los datos, porque en un problema de aprendizaje supervisado lo que queremos es obtener algo así: y = f (x)
Expliquémoslo por partes: en machine leaarning tenemos dos tipos de aprendizaje, que son el aprendizaje supervisado o supervised learning y el aprendizaje no supervisado o unsupervised learning. La diferencia es que en uno usamos labels y en otro no. ¿Esto qué quiere decir? Pues que, por ejemplo, si tenemos dos categorías, como podrían ser coches y color, en coches ponemos Tesla y en color ponemos azul; luego ponemos Porsche/amarillo; etc.
coches | colores |
Tesla | azul |
Porsche | amarillo |
… | … |
Podemos predecir el color del coche usando estos datos. Los coches serían la x y el color la y. Lo que intentamos en aprendizaje supervisado es encontrar una función f (x) (f de x) que nos permita obtener y. Esto, matemáticamente, es un mapeo que realizamos de una función para obtener un valor resultante, que en este caso sería y.
No obstante, esto no es lo importante de este ejercicio. Lo relevante aquí es cómo hemos definido los datos de forma matemática. Lo que estamos diciendo es que tenemos un conjunto de datos que consta de pares de datos, donde tenemos:
coches | colores | |
Tesla | azul | x1, y1 |
Porsche | amarillo | x2, y2 |
… | … | xi, yi |
¿Qué tipos de loss function existen?
Existen diferentes tipos de loss function:
- El mean squared error (MSE) o error cuadrático medio.
- Función de pérdida de probabilidad o likelihood loss.
- Función de pérdida de registro, pérdida de entropía cruzada o log loss (cross entropy loss).
Fórmula de la loss function
La fórmula de la loss function es la siguiente:
arg min
h

Lo único que hace esta función es, si tenemos una recta y unos puntos como los que vemos a continuación, mide la diferencia entre el punto azul y el punto que nos da la recta (representada por la línea roja).

La recta, entonces, vendría representada por la fórmula h (xi). Si esta fórmula de la loss function la elaboramos, nos daría algo así:

Tenemos el punto morado, que corresponde a (x1, y1). Si usamos nuestro modelo de least squared, el h (xi) (ya hemos visto que es la hipótesis, pero podemos pensar que es simplemente el modelo), ya hemos visto que es el output del modelo. Este output del modelo lo único que va a hacer es darnos un valor de salida. Ese valor de salida sería el punto en la recta, ya que este punto viene dado por h (xi), que en este caso es h (x1), y a su vez, ese valor no sería más que sustituir en y = ax2 + b la x por el valor de nuestro dato.
A lo mejor ya lo has visto en estadística y recuerdas que la parte importante de esta función es que lo que está haciendo es medir la diferencia entre el punto original y el punto que nos proporciona nuestro modelo.
Funciona del siguiente modo: coge nuestros datos, es decir, los datos del modelo que queremos obtener, que corresponde a yi, y y (vector), que se denota como h (xi) y que corresponde al valor predicho de nuestro modelo.
La parte del sumatorio está recorriendo todos los puntos de nuestros datos, ya sea el conjunto de datos de test o el conjunto de datos de entrenamiento, y está tomando la media.
N
∑
L:1
Aquí lo más importante con lo que nos deberíamos quedar es el cuadrado último de la fórmula de la loss function.

¿Por qué es tan fundamental el cuadrado en esta fórmula de la loss function? Hay que aclarar varias cosas:
- Lo primero es que queremos que las distancias sean positivas, porque, en caso contrario, contrarresta.
- Ahora, tenemos dos formas de hacer que los valores sean positivos:
- El mínimo cuadrado.
- El valor absoluto.
- La diferencia entre estas dos y la razón por la que preferimos el mínimo cuadrado por encima del valor absoluto es que existe un punto de no derivabilidad que crea el valor absoluto.
- Si pintamos el valor absoluto de una forma genérica en la recta, tiene forma de v. Si pintamos el cuadrado, tiene una forma parabólica:

La segunda forma, que corresponde al valor absoluto, es una loss function. Con esta loss function lo que pretendemos es encontrar los parámetros que mejor se adapten al modelo, para así poder optimizarlo. ¿Cómo optimizamos la función de pérdida? Usando un optimizador, entre los que se encuentra el gradiente descendente. El gradiente simplemente indica que es una derivada parcial respecto a las variables de la función. ¿Qué sucede con la derivada? Pues que en el punto intermedio de la v que se forma en la recta la derivada no existe.
¿Quieres seguir aprendiendo sobre Big Data?
El Big Data es una de las áreas en las que más trabajos se ofertan. Si quieres ser uno de los afortunados que pueden acceder a este tipo de opciones laborales, tenemos para ti el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva en la que adquirirás todos los conocimientos teóricos y prácticos que te permitirán obtener el trabajo de tus sueños. Estarás acompañado de los mejores profesionales en todo tu proceso formativo para que puedas lograr las metas que te propongas. ¡No esperes más para seguir tu camino hacia el éxito y solicita información ahora!