Entendemos por clasificador un algoritmo que, a partir de un conjunto de muestras/observaciones de entrenamiento, es capaz de identificar a qué clase (categoría) pertenece una nueva observación. Una métrica de calidad que podemos usar para medir las prestaciones de un clasificador es el error de clasificación
Medir las prestaciones de un clasificador
Para medir las prestaciones de un clasificador por medio del error de clasificación vamos a utilizar la siguiente fórmula:
# de muestras mal clasificadas
Error = ——————————————————-
# de muestras totales del problema
Ejemplo: problema de clasificación con dos clases y E 0,1
Etiquetas reales (y true) = [1, 0, 0, 1, 0]
Etiquetas predichas (y pred) = [0, 0, 1, 1, 0]
En este caso:
# de muestras mal clasificadas = 2 2
Error = ————————————————————— = —– = 0.4
# de muestras totales del problema =5 5
Así, el error de clasificación será un numero entre 0 y 1, tal que:
- Error = 0 es el mejor valor posible (no me equivoco nada).
- Error = 1 es el peor valor posible (nos equivocamos en todas las muestras). Ten en cuenta que si nos equivocamos en la clasificación de todas las muestras y en medir las prestaciones de un clasificador, podemos interpretar que el clasificador es bueno, pero que tenemos que hacer justo lo contrario de lo que nos dice. El peor valor de error sería, por tanto, 0.5, en el que la incertidumbre es mayor.
El error de clasificación para medir las prestaciones de un clasificador será un número entre 0 y 1. De modo que si el error es 0, es el mejor valor posible; si el error es 1, es el peor valor posible, lo que significa que nos hemos equivocado en todas las muestras.
Normalmente no se utiliza el error, sino su complementario, la exactitud o accuracy (Acc):
Acc = 1 — Error
Entonces:
- Acc = 1 es el mejor valor posible (no me equivoco nada).
- Acc = 0 es el peor valor posible (me equivoco en todas las muestras).
Si tenemos un 1 y lo invertimos, podríamos decir que es un clasificador perfecto. El peor valor para medir las prestaciones de un clasificador, por tanto, sería 0.4, que es cuando la incertidumbre sería mayor, ya que no pertenece ni a uno ni a otro grupo.
Normalmente no se utiliza el error, sino su complementario, que se llama exactitud o accuracy.
¿Quieres seguir aprendiendo sobre estadística y Big Data?
El tema abordado no solo es de interés para el área de estadística, sino también para el área del Big Data en general. Ya sabemos que ambas disciplinas están muy relacionadas y son importantes para incursionar en el mundo de la analítica de datos.
Por eso, desde KeepCoding queremos asegurarnos de que recibes la mejor formación al respecto: por medio de nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, obtendrás una formación intensiva de 8 meses de duración en la que aprenderás toda la teoría y práctica necesaria para adentrarte en el mundo del Big Data, que tiene una oferta laboral amplia y muy variada y bien remunerada. ¡No esperes más para solicitar información y seguir cambiando tu futuro!