¿Qué es sesgo en estadística Big Data?

Autor: | Última modificación: 13 de julio de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

El sesgo en estadística Big Data forma parte de de las propiedades de un muestreo estadístico, en efecto, este es uno de los factores que deben considerarse para el desarrollo efectivo de un procesamiento de la información.

Un buen análisis estadístico te podrá proporcionar unas respuestas que pueden complementar algún modelo posterior de Machine Learning más complejo. Por este motivo, en este post, te presentamos qué es sesgo en estadística Big Data.

¿Qué es sesgo en estadística Big Data?

El sesgo en estadística Big Data (en inglés bias) sirve para indicar la diferencia entre el valor del estimador esperado y el estimador real.

Varianza como estimador sesgado

Por ejemplo, la varianza de una variable muestreada es un estimador sesgado. Para ello, debes tener en cuenta que la varianza se definía como:

¿Qué es sesgo en estadística Big Data? 1

Ahora bien, para comprobar si esto es cierto, puedes suponer que se tiene una distribución uniforme con media cero (0) y varianza cuatro (4). De manera que si tomas una población de cinco elementos, ¿cuál es la varianza típica?

Para saberlo, debes repetir este experimento 10.000 veces para comprobar su resultado, de la siguiente manera se produce su inscripción en la consola:

#r <- rnorm(n, mean=0,sd=2)
#r
#myVar(r)
options(repr.plot.height=5,repr.plot.width=8 , repr.plot.res = 400)
set.seed(1)

myVar<-function(X){
    v<-0
    m<-mean(X)
    for (xi in X){
        v<-v+(xi-m)^2
    }
    v/length(X)
}

n<-5

varianzaEstimada<-c()
for (i in 1:10000){
    r <- rnorm(n, mean=0,sd=2)
    varianzaEstimada<-c(varianzaEstimada,myVar(r))
}
print(paste("La varianza esperada es:",mean(varianzaEstimada)))
hist(varianzaEstimada)

Como verás, obtendrás una varianza cercana a 3.242, cuando se sabe que la varianza es realmente 4. Lo que ocurre es que el estimador de la varianza está sesgado, entonces, hay que modificar su fórmula multiplicándolo por el número de elementos de la población muestreada. En este caso, sería N=5, por lo que:

¿Qué es sesgo en estadística Big Data? 2

Esto da un valor mucho más próximo al esperado. Así pues, hay que reescribir la fórmula de la varianza de la siguiente forma:

¿Qué es sesgo en estadística Big Data? 3

Esta es la fórmula que utiliza R para la función var().

Sesgo de selección

Es un sesgo en el que hay un error en la selección de elementos de la población. En el ejemplo anterior, el sesgo de selección sería ir a coger jugadores de baloncesto esperando que sean una muestra representativa de la altura española.

Es un error sistemático que no depende del azar, por lo que es necesario identificarlo y tratar de neutraliza su efecto.

Sesgo por omisión de variable

Este sesgo en estadística Big Data ocurre cuando se crea un modelo incorrecto porque no se han tenido en cuenta las variables más importantes.

Ejemplo: brecha de género
Un estudio llevado a cabo en 2007 en EEUU por el departamento de trabajo, calculó que la brecha de género, el salario, entre hombres y mujeres era de un 20.4%. Es decir, las mujeres en media ganan un 20.4% menos que los hombres. Pero si tenemos en cuenta variables ocultas como: interrupción de la carrera profesional, edad, número de hijos, estudios… En ese caso, la brecha de género podría estar entre el 4.8% y el 7.1%.

Aprende más sobre Big Data

Por medio de este post te has acercado a lo que es un sesgo en estadística Big Data y algunas de sus variables, sin embargo, este tipo de propiedad posee muchas más especificaciones que requieren ser estudiadas. Esto es algo que debes tener en cuenta una vez vayas a realizar tu estudio estadístico en el manejo de los macrodatos, así que aún queda mucho más por aprender.

Por este motivo, desde KeepCoding te recomendamos echar un vistazo a nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Puesto que, en el transcurso de esta formación intensiva, podrás aprender mucho más sobre las herramientas, sistemas y lenguajes más populares dentro del mundo Big Data. Todo ello de la mano de grandes profesionales y expertos en el tema. En menos de nueve meses te convertirás en todo un profesional en el manejo de los macrodatos. ¡No lo dudes más y apúntate ahora mismo!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!