4 tipos de tests estadísticos para Big Data

| Última modificación: 27 de junio de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Los tipos de tests estadísticos para Big Data son una serie de alternativas para crear hipótesis de determinada muestra de datos. Por esta razón, conocer algunos de estos para que los puedas implementar en tu procesamiento de datos es de suma importancia, ya que, por medio de estos, podrás lograr unos resultados más efectivos para, posteriormente, plantear estrategias con base a su valor destacado.

Para profundizar en este tema, a continuación te presentamos cuatro tipos de tests estadísticos para Big Data.

4 tipos de tests estadísticos para Big Data

Los tests estadísticos se presentan imprescindibles para el desarrollo de análisis de carácter rigoroso en este ámbito del manejo de los macrodatos. Ahora, dentro estos se encuentran cuatro tipos de tests estadísticos para Big Data, en efecto, estos recogen la gran variedad de tests que podrías implementar.

A continuación, te compartimos cuáles son esos tipos de tests estadísticos para Big Data:

Comparando dos grupos de datos cuantitativos

Esto se produce con las medias de dos grupos, por ejemplo, cuando quieres saber si la media de ambos grupos es igual o no. A partir de allí se presentan dos hipótesis:

¿Qué son los tests estadísticos para el manejo Big Data? 1

En la consola se desarrolla así:

¿Qué son los tests estadísticos para el manejo Big Data? 2

‘Vector X: 5.32,6.31,11.68,7.21,7.39’
‘Vector Y: 10.15,6.38,1.2,2.94,3.66,8.67,6.08’
‘La diferencia de medias es: 1.99686759963265 , -1.99686759963265’
¿Cuál es la probabilidad de que volviendo a combinar los valores de las variables X e Y la diferencia de las medias sea superior a la original?

¿Qué son los tests estadísticos para el manejo Big Data? 3
¿Qué son los tests estadísticos para el manejo Big Data? 4
  • ‘La probabilidad de que por puro azar E[X] – E[Y] sea mayor de 1.99686759963265 : 0.1323’
  • ‘La probabilidad de que por puro azar E[Y] – E[X] sea menor de -1.99686759963265 : 0.1324’
  • ‘La probabilidad de que E[X] != E[Y]: 0.2647’
¿Qué son los tests estadísticos para el manejo Big Data? 5
¿Qué son los tests estadísticos para el manejo Big Data? 6
¿Qué son los tests estadísticos para el manejo Big Data? 7
¿Qué son los tests estadísticos para el manejo Big Data? 8

Tablas de contingencia

Una tabla de contingencia es una tabla o matriz que muestra la frecuencia de ocurrencia de diferentes variables.

Test de bondad

Este se emplea para comparar si una distribución de frecuencias observada difiere de una teórica. En esta caso, las observaciones consisten en valores de una única variable independiente (ej: un dado). El valor del test estadístico es:

Varios grupos

Test de Bartlett

El test de Bartlett se usa cuando se tienen varios grupos de datos procedentes de una distribución cualquiera y se quiere saber si la varianza de ambos grupos es la misma. Esto significa que las variables son homocedásticas. La hipótesis con la que trabaja este test es:

n<- 20
df<-data.frame(X=runif(n,min=-1,max=2),group="A")
df<-rbind(df,data.frame(X=runif(n,min=0,max=1),group="B"))

#head(df)

bartlett.test(X~group, data=df)

Comparando normalidad (Shapiro)

El Test de Shapiro–Wilk se usa para comprobar la normalidad de un conjunto de datos. Se plantea como hipótesis nula que una muestra X proviene de una población normalmente distribuida. Se considera como unos de los tests más fiables.

En R se ejecuta llamando a shapiro.test() así:

shapiro.test(rnorm(100,mean=10,sd=4))
# Ejemplo shaprito uniforme
shapiro.test(runif(100,min= -10, max=10))

Si el p-valor es muy bajo, deberíamos rechazar la hipótesis nula. Es decir, la distribución no es normal.

En este post te hemos ayudado a identificar cuatro de los tipos de tests estadísticos para Big Data, por medio de los que podrás potenciar el procesamiento de los datos dentro de un estudio estadístico. No obstante, ¡todavía faltan muchos más por estudiar!

Para continuar con tu desarrollo y convertirte en un experto en el manejo de Big Data, desde KeepCoding te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Big Data. En el desarrollo de este, grandes profesionales te ayudarán a tener una visión global del mundo Big Data¡Apúntate y conviértete en un data scientist profesional en menos de nueve meses!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado