Gráfico Q-Q en estadística Big Data

Autor: | Última modificación: 20 de julio de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

El gráfico Q-Q en estadística Big Data es una de las herramientas de esquematización para los macrodatos que se han estudiado por medio de estadísticos que pretendan, a través de una muestra, calcular el comportamiento de una población.

Además, el análisis exploratorio de datos es el primer paso que todo data scientist debe realizar, ya que de esta manera podrá ver qué se le puede preguntar a los datos y qué información se podrá sacar de ellos una vez los resultados hayan sido arrojados.

Por esta razón, conocer la diversidad de alternativas para el desarrollo de un estudio estadístico también se plantea como una base necesaria en un data scientist y, por ello, en este post, te exponemos todo lo relacionado con el gráfico Q-Q en estadística Big Data.

Gráfico Q-Q en estadística Big Data

El grafico Q-Q en estadística Big Data se utiliza para comparar dos distribuciones al ilustrar sus percentiles una contra la otra. Por ello, generalmente se utiliza para comparar si una variable sigue una distribución gausiana, es decir, la distribución normal que es, posiblemente, la distribución de probabilidad más utilizada, ya que su importancia radica en el teorema central del límite.

De manera que el gráfico Q-Q en estadística Big Data se presenta con gran frecuencia en este campo de los estadístico para el manejo de los macrodatos. A continuación, te presentamos cómo se desenvuelve este tipo de gráfico según las operaciones que esquematice:

x<-seq(-4,4,length.out=1000)
plot(x,pnorm(x,lower.tail = F),t="l",ylab="Q(x) - probabilidad",xlab="x - número de desviaciones típicas sobre la media")
grid()
# Es equivalente a:
plot(x,1-pnorm(x),t="l")

Esta operación se ilustraría de la siguiente forma:

Gráfico Q-Q en estadística Big Data 1
numSamples<-10
#Empezamos con una variable aleatoria ordenada
var_random <-sort(runif(numSamples,min=-5,max=5))

#calculamos su probabilidad de que P(X>x)
p = ((numSamples-1):0)/numSamples

#Basandonos en esta probabilidad, calculamos cual sería su valor si fuera gaussiana
z<-qnorm(p,lower.tail = F)

matrix(c(var_random,p,z),nrow=3,byrow = T,
       dimnames=list(c("x","P(X>x) o Q(x)","valor esperado de x si fuera gaussiana"),NULL))

A matrix: 3 × 10 of type dbl:

Gráfico Q-Q en estadística Big Data 2
#plot(p,var_random)
#El gráfico QQ sería:
plot(z,var_random,
     xlab="número de desviaciones típicas sobre la media teórica",
     ylab="valores reales")

Estas desviaciones típicas se esquematizarían de la siguiente manera:

Gráfico Q-Q en estadística Big Data 3

Por otra parte, en cuanto a la distribución gaussiana que suele trabajarse, en este caso, evidentemente, el gráfico Q-Q de una variable gaussiana es una línea recta. A continuación, te exponemos la operación y su respectiva esquematización Q-Q:

numSamples<-1000
gauss_random <-sort(rnorm(numSamples,mean=5,sd=3))
p = ((numSamples-1):0)/numSamples
z<-qnorm(p,lower.tail = F)
plot(z,gauss_random,
     xlab="número de desviaciones típicas sobre la media teoórica",
     ylab="valores reales")
Gráfico Q-Q en estadística Big Data 4

Ahora bien, existe una función para hacer esto mismo:

qqnorm(gauss_random)
qqline(gauss_random, col = 'orange', lwd =2)
Gráfico Q-Q en estadística Big Data 5
unif1<-subset(myRandomDataFrame,numFunctions==1)$val
qqnorm(unif1)
qqline(unif1, col = 'orange', lwd =2)
Gráfico Q-Q en estadística Big Data 6

¿Cómo instruirse en Big Data?

Por medio de este post te has podido familiarizar con todo lo relacionado con el gráfico Q-Q en estadística Big Data a partir de diferentes operaciones que lo utilizan para esquematizar los resultados arrojados. Desde KeepCoding esperamos que esta información haya sido de ayuda para tu procesamiento de datos y te animamos a continuar en este mundo del manejo Big Data.

Por ello, si lo que quieres es aprender más sobre el Big Data y sus herramientas, te recomendamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. A través de este bootcamp, aprenderás a dominar los conocimientos necesarios para implantar cualquier tipo de arquitectura y para los desarrollos necesarios, tanto técnicos como analíticos, dentro del mundo del Big Data. ¡No lo dudes más e inscríbete ya para convertirte en un experto del sector IT!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!