¿Cuáles son las relaciones entre variables en estadística Big Data?

Autor: | Última modificación: 13 de julio de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

Las relaciones entre variables en estadística Big Data forman parte de las estrategias para llevar a cabo un análisis estadístico que destaque el valor de los datos y arroje resultados decisivos para comprender la información. Por ello, en este post, te presentamos cuáles son las relaciones entre variables en estadística Big Data.

¿Cuáles son las relaciones entre variables en estadística Big Data?

Dos variables pueden estar relacionadas entre sí de varias formas. En esta sección vamos a ver cuáles son las relaciones entre variables en estadística Big Data a partir dos variables.

Antes debes tener en cuenta:

La variable Y tiene una variación lineal respecto a X si:

¿Cuáles son las relaciones entre variables en estadística Big Data? 1


Donde β y α son constantes fijas que definen la relación entre las dos variables. Pero en cambio, no hay una relación lineal en los siguientes casos:

¿Cuáles son las relaciones entre variables en estadística Big Data? 2

Covarianza

La covarianza es un valor que indica el grado de variación lineal conjunta de dos variables aleatorias respecto a sus medias y es una de las relaciones entre variables en estadística Big Data más empleadas.

Si se comparan dos variables aleatorias X e Y:

  • Alta covarianza (positiva): para valores altos de X se cuenten mayoritariamente valores altos de Y.
  • Baja covarianza (negativa): para valores altos de X se tenga mayoritariamente valores bajos de Y.
  • Covarianza cercana a 0: para valores altos de X, los valores de Y pueden ser altos o bajos por igual.

Su fórmula es la siguiente:

¿Cuáles son las relaciones entre variables en estadística Big Data? 3

Recuerda la fórmula de la varianza:

¿Cuáles son las relaciones entre variables en estadística Big Data? 4

La covarianza de una variable aleatoria consigo misma es igual a la varianza:

¿Cuáles son las relaciones entre variables en estadística Big Data? 5

En R se calcula con la función cov(x,y):

¿Cuáles son las relaciones entre variables en estadística Big Data? 6

En cambio, en el siguiente ejemplo, la covarianza falla al tratar de encontrar una relación entre dos variables por no ser lineal.

¿Cuáles son las relaciones entre variables en estadística Big Data? 7

Correlación

La correlación es un valor que indica el grado de variación conjunta y lineal de dos variables aleatorias. Es la covarianza normalizada en el rango [-1, 1]. Es una forma de ignorar la variación de cada una de las variables en sí y centrarse únicamente en la relación que existe entre ambas, ya que una covarianza alta puede venir dada también porque una de las variables a estudiar tenga una varianza elevada.

Al comparar dos variables aleatorias X e Y:

  • Correlación cercana a 1: para valores altos de X, tengamos mayoritariamente valores altos de Y.
  • Correlación cercana a -1: para valores altos de X, tengamos mayoritariamente valores bajos de Y.
  • Correlación cercana a 0: para valores altos de X, los valores de Y pueden ser altos o bajos por igual.

La función de correlación de Pearson es:

¿Cuáles son las relaciones entre variables en estadística Big Data? 8

Al igual que con la covarianza, se puede calcular una matriz de correlación. Se utiliza para ver de forma sencilla cuál es la relación entre varias variables.

En una matriz de correlación la diagonal será siempre 1 (la correlación de una variable consigo misma es 1) y el valor de la celda ij vendrá dado por la correlación de la variable i con j.

En R se calcula con la función cor(x,y):

¿Cuáles son las relaciones entre variables en estadística Big Data? 9

Regresión lineal

Esta es una de las relaciones entre variables en estadística Big Data y es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, la variables independiente X y un término aleatorio ε. Este modelo puede expresarse como:

¿Cuáles son las relaciones entre variables en estadística Big Data? 10

Teorema de Bayes

El teorema de Bayes describe la probabilidad de un evento basado en conocimientos previos que puede estar relacionado con el evento. Su fórmula es bastante simple:

¿Cuáles son las relaciones entre variables en estadística Big Data? 11

Donde A y B son nuestras variables aleatorias y P(B) ≠ 0:

  • P(A|B) es la probabilidad condicional del evento A, sabiendo que ha ocurrido B.
  • P(B|A) es la probabilidad condicional del evento B, sabiendo que ha ocurrido A.
  • P(A) y P(B) es la probabilidad de observar A y B de forma independiente. Se conoce como la probabilidad marginal.
  • P(B,A) o P(B∩A): es la probabilidad de que ambos eventos A y B ocurran a la vez.

Si son sucesos independientes P(B,A)=P(B)·P(A).
Si son sucesos dependientes P(B,A)=P(B|A)·P(A).

¿Cuál es el siguiente paso Big Data?

Por medio de este post te has familiarizado con cuáles son las relaciones entre variables en estadística Big Data y cómo se comporta cada una de ellas para el manejo de los macrodatos. Sin embargo, todavía falta mucho más por aprender dentro del ámbito de la estadística Big Data.

Es por esto que nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning es ideal para que avances con tu formación. Con él, podrás contar con una serie de módulos que te pondrán en contexto con los desarrolladores y herramientas más importantes para el procesamiento de los macrodatos, como Machine Learning, Spark & Scala, Tableau, Hadoop, etc. Todo ello de forma tanto teórica como práctica y con el acompañamiento de grandes profesionales y expertos en el universo del Big Data. ¿A qué esperas para empezar?

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!