El sesgo en estadística Big Data forma parte de de las propiedades de un muestreo estadístico, en efecto, este es uno de los factores que deben considerarse para el desarrollo efectivo de un procesamiento de la información.
Un buen análisis estadístico te podrá proporcionar unas respuestas que pueden complementar algún modelo posterior de Machine Learning más complejo. Por este motivo, en este post, te presentamos qué es el sesgo en estadística Big Data.
¿Qué es sesgo en estadística Big Data?
El sesgo estadístico Big Data (en inglés bias) sirve para indicar la diferencia entre el valor del estimador esperado y el estimador real.
Varianza como estimador sesgado
Por ejemplo, la varianza de una variable muestreada es un estimador sesgado. Para ello, debes tener en cuenta que la varianza se definía como:
Ahora bien, para comprobar si esto es cierto, puedes suponer que se tiene una distribución uniforme con media cero (0) y varianza cuatro (4). De manera que si tomas una población de cinco elementos, ¿cuál es la varianza típica?
Para saberlo, debes repetir este experimento 10.000 veces para comprobar su resultado, de la siguiente manera se produce su inscripción en la consola:
#r <- rnorm(n, mean=0,sd=2) #r #myVar(r)
options(repr.plot.height=5,repr.plot.width=8 , repr.plot.res = 400) set.seed(1) myVar<-function(X){ v<-0 m<-mean(X) for (xi in X){ v<-v+(xi-m)^2 } v/length(X) } n<-5 varianzaEstimada<-c() for (i in 1:10000){ r <- rnorm(n, mean=0,sd=2) varianzaEstimada<-c(varianzaEstimada,myVar(r)) } print(paste("La varianza esperada es:",mean(varianzaEstimada)))
hist(varianzaEstimada)
Como verás, obtendrás una varianza cercana a 3.242, cuando se sabe que la varianza es realmente 4. Lo que ocurre es que el estimador de la varianza está sesgado, entonces, hay que modificar su fórmula multiplicándolo por el número de elementos de la población muestreada. En este caso, sería N=5, por lo que:
Esto da un valor mucho más próximo al esperado. Así pues, hay que reescribir la fórmula de la varianza de la siguiente forma:
Esta es la fórmula que utiliza R para la función var().
Sesgo de selección
Es un sesgo estadistico en el que hay un error en la selección de elementos de la población. En el ejemplo anterior, el sesgo de selección sería ir a coger jugadores de baloncesto esperando que sean una muestra representativa de la altura española.
Es un error sistemático que no depende del azar, por lo que es necesario identificarlo y tratar de neutraliza su efecto.
Sesgo por omisión de variable
Este sesgo en estadística Big Data ocurre cuando se crea un modelo incorrecto porque no se han tenido en cuenta las variables más importantes.
Ejemplo: brecha de género
Un estudio llevado a cabo en 2007 en EEUU por el departamento de trabajo, calculó que la brecha de género, el salario, entre hombres y mujeres era de un 20.4%. Es decir, las mujeres en media ganan un 20.4% menos que los hombres. Pero si tenemos en cuenta variables ocultas como: interrupción de la carrera profesional, edad, número de hijos, estudios… En ese caso, la brecha de género podría estar entre el 4.8% y el 7.1%.
Aprende más sobre Big Data
Por medio de este post te has acercado a lo que es un sesgo en estadística Big Data y algunas de sus variables, sin embargo, este tipo de propiedad posee muchas más especificaciones que requieren ser estudiadas (existen varios tipos de sesgos en estadística Big Data). Esto es algo que debes tener en cuenta una vez vayas a realizar tu estudio estadístico en el manejo de los macrodatos, así que aún queda mucho más por aprender.
Por este motivo, desde KeepCoding te recomendamos echar un vistazo a nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Puesto que, en el transcurso de esta formación intensiva, podrás aprender mucho más sobre las herramientas, sistemas y lenguajes más populares dentro del mundo Big Data. Todo ello de la mano de grandes profesionales y expertos en el tema. En menos de nueve meses te convertirás en todo un profesional en el manejo de los macrodatos. ¡No lo dudes más y apúntate ahora mismo!