4 tipos de tests estadísticos para Big Data

Autor: | Última modificación: 13 de julio de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

Los tipos de tests estadísticos para Big Data son una serie de alternativas para crear hipótesis de determinada muestra de datos. Por esta razón, conocer algunos de estos para que los puedas implementar en tu procesamiento de datos es de suma importancia, ya que, por medio de estos, podrás lograr unos resultados más efectivos para, posteriormente, plantear estrategias con base a su valor destacado.

Para profundizar en este tema, a continuación te presentamos cuatro tipos de tests estadísticos para Big Data.

4 tipos de tests estadísticos para Big Data

Los tests estadísticos se presentan imprescindibles para el desarrollo de análisis de carácter rigoroso en este ámbito del manejo de los macrodatos. Ahora, dentro estos se encuentran cuatro tipos de tests estadísticos para Big Data, en efecto, estos recogen la gran variedad de tests que podrías implementar.

A continuación, te compartimos cuáles son esos tipos de tests estadísticos para Big Data:

Comparando dos grupos de datos cuantitativos

Esto se produce con las medias de dos grupos, por ejemplo, cuando quieres saber si la media de ambos grupos es igual o no. A partir de allí se presentan dos hipótesis:

¿Qué son los tests estadísticos para el manejo Big Data? 1

En la consola se desarrolla así:

¿Qué son los tests estadísticos para el manejo Big Data? 2

‘Vector X: 5.32,6.31,11.68,7.21,7.39’
‘Vector Y: 10.15,6.38,1.2,2.94,3.66,8.67,6.08’
‘La diferencia de medias es: 1.99686759963265 , -1.99686759963265’
¿Cuál es la probabilidad de que volviendo a combinar los valores de las variables X e Y la diferencia de las medias sea superior a la original?

¿Qué son los tests estadísticos para el manejo Big Data? 3
¿Qué son los tests estadísticos para el manejo Big Data? 4
  • ‘La probabilidad de que por puro azar E[X] – E[Y] sea mayor de 1.99686759963265 : 0.1323’
  • ‘La probabilidad de que por puro azar E[Y] – E[X] sea menor de -1.99686759963265 : 0.1324’
  • ‘La probabilidad de que E[X] != E[Y]: 0.2647’
¿Qué son los tests estadísticos para el manejo Big Data? 5
¿Qué son los tests estadísticos para el manejo Big Data? 6
¿Qué son los tests estadísticos para el manejo Big Data? 7
¿Qué son los tests estadísticos para el manejo Big Data? 8

Tablas de contingencia

Una tabla de contingencia es una tabla o matriz que muestra la frecuencia de ocurrencia de diferentes variables.

4 tipos de tests estadísticos para Big Data 1

Test de bondad

Este se emplea para comparar si una distribución de frecuencias observada difiere de una teórica. En esta caso, las observaciones consisten en valores de una única variable independiente (ej: un dado). El valor del test estadístico es:

4 tipos de tests estadísticos para Big Data 2

Varios grupos

Test de Bartlett

El test de Bartlett se usa cuando se tienen varios grupos de datos procedentes de una distribución cualquiera y se quiere saber si la varianza de ambos grupos es la misma. Esto significa que las variables son homocedásticas. La hipótesis con la que trabaja este test es:

4 tipos de tests estadísticos para Big Data 3
n<- 20
df<-data.frame(X=runif(n,min=-1,max=2),group="A")
df<-rbind(df,data.frame(X=runif(n,min=0,max=1),group="B"))

#head(df)

bartlett.test(X~group, data=df)

Comparando normalidad (Shapiro)

El Test de Shapiro–Wilk se usa para comprobar la normalidad de un conjunto de datos. Se plantea como hipótesis nula que una muestra X proviene de una población normalmente distribuida. Se considera como unos de los tests más fiables.

En R se ejecuta llamando a shapiro.test() así:

shapiro.test(rnorm(100,mean=10,sd=4))
# Ejemplo shaprito uniforme
shapiro.test(runif(100,min= -10, max=10))

Si el p-valor es muy bajo, deberíamos rechazar la hipótesis nula. Es decir, la distribución no es normal.

Sigue aprendiendo Big Data

En este post te hemos ayudado a identificar cuatro de los tipos de tests estadísticos para Big Data, por medio de los que podrás potenciar el procesamiento de los datos dentro de un estudio estadístico. No obstante, ¡todavía faltan muchos más por estudiar!

Para continuar con tu desarrollo y convertirte en un experto en el manejo de Big Data, desde KeepCoding te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Big Data. En el desarrollo de este, grandes profesionales te ayudarán a tener una visión global del mundo Big Data¡Apúntate y conviértete en un data scientist profesional en menos de nueve meses!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!