¿Qué es correlación en estadística Big Data?

Autor: | Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 4 minutos
Temas en este post:

Algunos de nuestros reconocimientos:

Premios KeepCoding

La correlación en estadística Big Data forma parte de los estadísticos con los que cuenta toda esta amplia variedad de estrategias que facilitan el análisis de los datos según un sistema de probabilidad. Si planeas aprender mucho más al respecto, ¡este post es ideal para ti!

Conocer cómo funciona debe presentarse por medio de ciertas aclaraciones y determinados ejemplos que te aconsejamos practicar. Por ello, en este post, te exponemos todo lo relacionado a la correlación en estadística Big Data.

¿Qué es estadística para Big Data?

La estadística para el procesamiento del Big Data se basa en entender las variables de la información y la relación entre las variables que se encuentran en determinado conjunto de datos. De hecho, las estadísticas te ayudan a comprender cómo es tu población de los datos. Para ello, esta cuenta con ciertos facilitadores como los estimadores, los percentiles, la moda, la varianza, las operaciones, los tests estadísticos, las asignaciones… Dentro de estos, también se encuentra la correlación en estadística Big Data.

Por otra parte, la estadística es una disciplina que se dedica a analizar los datos de manera minuciosa para identificar las coincidencias de variables con las que cuenta la información. Por ello, cuenta con asignaciones y operaciones en R que hacen referencia a las funciones y comandos para facilitar el análisis estadístico de los macrodatos. Ahora bien, estas parten de dos tipos de datos numéricos: los datos double y los integer.

¿Qué es correlación en estadística Big Data?

La correlación en estadística Big Data es un valor que indica el grado de variación conjunta y lineal de dos variables aleatorias. Es la covarianza normalizada en el rango y, además, es una forma de ignorar la variación de cada una de las variables en sí para centrarse únicamente en la relación que existe entre ambas, ya que una covarianza alta puede venir dada también porque una de las variables a estudiar tenga una varianza elevada.

Imagina que quieres comparar dos variables aleatorias X e Y:

  • Correlación cercana a 1: para valores altos de X, tener mayoritariamente valores altos de Y.
  • Correlación cercana a -1: para valores altos de X, tener mayoritariamente valores bajos de Y.
  • Correlación cercana a 0: para valores altos de X, los valores de Y pueden ser altos o bajos por igual.

La función de correlación en estadística Big Data de Pearson es:

¿Qué es correlación en estadística Big Data?

Al igual que con la covarianza, podrás calcular una matriz de correlación. Se utiliza para ver de forma sencilla cuál es la relación entre varias variables.

En una matriz de correlación la diagonal será siempre 1 (la correlación de una variable consigo misma es 1) y el valor de la celda ij vendrá dado por la correlación de la variable i con j.

En R se calcula con la función cor(x,y):

cr1<-cor(x,y1)
cr2<-cor(x,y2)
paste("La correlación de las variables x,y1 es:",round(cr1,2))
paste("La correlación de las variables x,y2 es:",round(cr2,2))

cr<-cor(x,y)
paste("La correlación de las variables x,y es:",round(cr,2))

Correlación no implica causalidad

Que dos variables estén correlacionadas no implica que una sea la causa de la otra, es decir, que haya una relación directa entre ambas.

Por ejemplo, existe una correlación de 0.992558 entre la tasa de divorcio en el estado de Maine y el consumo de margarina por habitante.

Los fallos comunes que pueden llevar a buscar una correlación alta son:

  • Utiliza solo la ventana de datos que te interesa.
  • Compara muchas variables entre sí, por puro azar algunas evolucionarán a la par.

Dos variables también pueden producir una correlación en estadística Big Data, pero la causalidad puede deberse a una tercera variable oculta que no vemos, por ejemplo:

set.seed(2807)

x<- rnorm(100)
y <- 2*x + 1+ rnorm(100,0,0.1)
paste("La correlación entre x,y es",cor(x,y))


z <- 2*x + 1+ rnorm(100,0,0.1)
paste("La correlación entre x,y es",cor(x,z))


paste("Aunque no existe ninguna relación directa entre z,y existe una alta correlación:", cor(y,z))

Aprende mucho más del Big Data

En el desarrollo de este post te hemos acercado a todo lo relacionado con la correlación en estadística Big Data para el desarrollo de un estudio estadístico de los macrodatos. No obstante, este tipo de cálculo forma parte de una gran variedad que también debes tener en cuenta a la hora de realizar este tipo de procesamiento. ¡Así que aún queda mucho más por aprender sobre el Big Data y su manejo!

Para continuar con tu formación, te recomendamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning, puesto que esta formación intensiva te acercará a muchos más sistemas, lenguajes y herramientas que trabajan con los macrodatos, de forma que te convertirás en un data scientist experto al saber escoger las mejores alternativas para un procesamiento de datos. De hecho, KeepCoding se reconoce por formar profesionales curiosos, cuestionadores, amantes del trabajo eficaz y buscadores incansables de la autosuperación y del desafío intelectual. ¡Apúntate!

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado