¿Cuáles son las relaciones entre variables en estadística Big Data?

| Última modificación: 9 de octubre de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Las relaciones entre variables en estadística Big Data forman parte de las estrategias para llevar a cabo un análisis estadístico que destaque el valor de los datos y arroje resultados decisivos para comprender la información. Por ello, en este post, te presentamos cuáles son las relaciones entre variables en estadística Big Data.

¿Cuáles son las relaciones entre variables en estadística Big Data?

Dos variables pueden estar relacionadas entre sí de varias formas. En esta sección vamos a ver cuáles son las relaciones entre variables en estadística Big Data a partir dos variables.

Antes debes tener en cuenta:

La variable Y tiene una variación lineal respecto a X si:

relaciones entre variables en estadística Big Data


Donde β y α son constantes fijas que definen la relación entre las dos variables. Pero en cambio, no hay una relación lineal en los siguientes casos:

relaciones entre variables en estadística Big Data

Covarianza

La covarianza es un valor que indica el grado de variación lineal conjunta de dos variables aleatorias respecto a sus medias y es una de las relaciones entre variables en estadística Big Data más empleadas.

Si se comparan dos variables aleatorias X e Y:

  • Alta covarianza (positiva): para valores altos de X se cuenten mayoritariamente valores altos de Y.
  • Baja covarianza (negativa): para valores altos de X se tenga mayoritariamente valores bajos de Y.
  • Covarianza cercana a 0: para valores altos de X, los valores de Y pueden ser altos o bajos por igual.

Su fórmula es la siguiente:

relaciones entre variables en estadística Big Data

Recuerda la fórmula de la varianza:

fórmula varianza

La covarianza de una variable aleatoria consigo misma es igual a la varianza:

covarainza de una variable aleatoria

En R se calcula con la función cov(x,y):

R se calcula con la función cov(x,y)

En cambio, en el siguiente ejemplo, la covarianza falla al tratar de encontrar una relación entre dos variables por no ser lineal.

la covarianza falla

Correlación

La correlación es un valor que indica el grado de variación conjunta y lineal de dos variables aleatorias. Es la covarianza normalizada en el rango [-1, 1]. Es una forma de ignorar la variación de cada una de las variables en sí y centrarse únicamente en la relación que existe entre ambas, ya que una covarianza alta puede venir dada también porque una de las variables a estudiar tenga una varianza elevada.

Al comparar dos variables aleatorias X e Y:

  • Correlación cercana a 1: para valores altos de X, tengamos mayoritariamente valores altos de Y.
  • Correlación cercana a -1: para valores altos de X, tengamos mayoritariamente valores bajos de Y.
  • Correlación cercana a 0: para valores altos de X, los valores de Y pueden ser altos o bajos por igual.

La función de correlación de Pearson es:

función de correlación de Pearson

Al igual que con la covarianza, se puede calcular una matriz de correlación. Se utiliza para ver de forma sencilla cuál es la relación entre varias variables.

En una matriz de correlación la diagonal será siempre 1 (la correlación de una variable consigo misma es 1) y el valor de la celda ij vendrá dado por la correlación de la variable i con j.

En R se calcula con la función cor(x,y):

En R se calcula con la función cor(x,y)

Regresión lineal

Esta es una de las relaciones entre variables en estadística Big Data y es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, la variables independiente X y un término aleatorio ε. Este modelo puede expresarse como:

Regresión lineal

Teorema de Bayes

El teorema de Bayes describe la probabilidad de un evento basado en conocimientos previos que puede estar relacionado con el evento. Su fórmula es bastante simple:

Teorema de Bayes

Donde A y B son nuestras variables aleatorias y P(B) ≠ 0:

  • P(A|B) es la probabilidad condicional del evento A, sabiendo que ha ocurrido B.
  • P(B|A) es la probabilidad condicional del evento B, sabiendo que ha ocurrido A.
  • P(A) y P(B) es la probabilidad de observar A y B de forma independiente. Se conoce como la probabilidad marginal.
  • P(B,A) o P(B∩A): es la probabilidad de que ambos eventos A y B ocurran a la vez.

Si son sucesos independientes P(B,A)=P(B)·P(A).
Si son sucesos dependientes P(B,A)=P(B|A)·P(A).

Por medio de este post te has familiarizado con cuáles son las relaciones entre variables en estadística Big Data y cómo se comporta cada una de ellas para el manejo de los macrodatos. Sin embargo, todavía falta mucho más por aprender dentro del ámbito de la estadística Big Data.

Es por esto que nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning es ideal para que avances con tu formación. Con él, podrás contar con una serie de módulos que te pondrán en contexto con los desarrolladores y herramientas más importantes para el procesamiento de los macrodatos, como Machine Learning, Spark & Scala, Tableau, Hadoop, etc. Todo ello de forma tanto teórica como práctica y con el acompañamiento de grandes profesionales y expertos en el universo del Big Data. ¿A qué esperas para empezar?

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado