Los tipos de tests estadísticos para Big Data son una serie de alternativas para crear hipótesis de determinada muestra de datos. Por esta razón, conocer algunos de estos para que los puedas implementar en tu procesamiento de datos es de suma importancia, ya que, por medio de estos, podrás lograr unos resultados más efectivos para, posteriormente, plantear estrategias con base a su valor destacado.
Para profundizar en este tema, a continuación te presentamos cuatro tipos de tests estadísticos para Big Data.
4 tipos de tests estadísticos para Big Data
Los tests estadísticos se presentan imprescindibles para el desarrollo de análisis de carácter rigoroso en este ámbito del manejo de los macrodatos. Ahora, dentro estos se encuentran cuatro tipos de tests estadísticos para Big Data, en efecto, estos recogen la gran variedad de tests que podrías implementar.
A continuación, te compartimos cuáles son esos tipos de tests estadísticos para Big Data:
Comparando dos grupos de datos cuantitativos
Esto se produce con las medias de dos grupos, por ejemplo, cuando quieres saber si la media de ambos grupos es igual o no. A partir de allí se presentan dos hipótesis:
En la consola se desarrolla así:
‘Vector X: 5.32,6.31,11.68,7.21,7.39’
‘Vector Y: 10.15,6.38,1.2,2.94,3.66,8.67,6.08’
‘La diferencia de medias es: 1.99686759963265 , -1.99686759963265’
¿Cuál es la probabilidad de que volviendo a combinar los valores de las variables X e Y la diferencia de las medias sea superior a la original?
- ‘La probabilidad de que por puro azar E[X] – E[Y] sea mayor de 1.99686759963265 : 0.1323’
- ‘La probabilidad de que por puro azar E[Y] – E[X] sea menor de -1.99686759963265 : 0.1324’
- ‘La probabilidad de que E[X] != E[Y]: 0.2647’
Tablas de contingencia
Una tabla de contingencia es una tabla o matriz que muestra la frecuencia de ocurrencia de diferentes variables.
Test de bondad
Este se emplea para comparar si una distribución de frecuencias observada difiere de una teórica. En esta caso, las observaciones consisten en valores de una única variable independiente (ej: un dado). El valor del test estadístico es:
Varios grupos
Test de Bartlett
El test de Bartlett se usa cuando se tienen varios grupos de datos procedentes de una distribución cualquiera y se quiere saber si la varianza de ambos grupos es la misma. Esto significa que las variables son homocedásticas. La hipótesis con la que trabaja este test es:
n<- 20 df<-data.frame(X=runif(n,min=-1,max=2),group="A") df<-rbind(df,data.frame(X=runif(n,min=0,max=1),group="B")) #head(df) bartlett.test(X~group, data=df)
Comparando normalidad (Shapiro)
El Test de Shapiro–Wilk se usa para comprobar la normalidad de un conjunto de datos. Se plantea como hipótesis nula que una muestra X proviene de una población normalmente distribuida. Se considera como unos de los tests más fiables.
En R se ejecuta llamando a shapiro.test() así:
shapiro.test(rnorm(100,mean=10,sd=4))
# Ejemplo shaprito uniforme shapiro.test(runif(100,min= -10, max=10))
Si el p-valor es muy bajo, deberíamos rechazar la hipótesis nula. Es decir, la distribución no es normal.
En este post te hemos ayudado a identificar cuatro de los tipos de tests estadísticos para Big Data, por medio de los que podrás potenciar el procesamiento de los datos dentro de un estudio estadístico. No obstante, ¡todavía faltan muchos más por estudiar!
Para continuar con tu desarrollo y convertirte en un experto en el manejo de Big Data, desde KeepCoding te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Big Data. En el desarrollo de este, grandes profesionales te ayudarán a tener una visión global del mundo Big Data. ¡Apúntate y conviértete en un data scientist profesional en menos de nueve meses!