La regresión lineal múltiple en estadística Big Data es uno de los múltiples cálculos que se implementan en el desarrollo de un estudio estadístico con respecto al comportamiento de las diferentes variables que se abordan. Por ello, resulta de suma importancia saber cómo funciona y en qué momento un estadístico es necesario para potenciar los resultados arrojados en el procesamiento de los datos.

Por otra parte, para considerar este cálculo, debes tener en cuenta cuáles son las variables que serán estudiadas en el estudio estadístico y cuáles son las relaciones que se establecen entre estas. Por este motivo, en este post, te presentamos qué es la regresión lineal múltiple en estadística Big Data.

¿Qué encontrarás en este post?

Regresión lineal múltiple en estadística Big Data

Hasta ahora habrás visto cómo el cambio en una variable puede afectar a otra, pero ¿qué ocurre si son varias las variables que alteran el comportamiento de la variable objetivo?

Pues bien, para este caso necesitarás utilizar la regresión lineal múltiple en estadística Big Data. Este, en definitiva, es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes X y un término aleatorio ε.

Por otra parte, este modelo de regresión lineal múltiple en estadística Big Data puede ser expresado con la siguiente fórmula:

En la que podrás encontrar:

Y: la variable dependiente.
X1, X2, …, Xp: las variables independientes.
β0, β1, β2, …, βp: los parámetros que determinan que dado un Xk produce el mejor posible Y.
ε: el error o valor aleatorio.

Condiciones para aplicarlo

Que la relación entre las variables sea lineal.
Que los errores en la medición de Xk sean independientes entre sí.
Que los errores tengan una varianza constante.
Que los errores tengan una media aritmética igual a cero.

Ahora bien, para la regresión lineal múltiple en estadística Big Data es necesario calcular el valor óptimo de β. Para ello, vas a tener que utilizar un poco de álgebra lineal, así:

Regresión lineal múltiple en estadística Big Data 2

De igual forma, este cálculo también podrás escribirlo en forma de matriz: [ \begin{bmatrix} y_1 \ y_2 \ \vdots \ y_n.

\end{bmatrix}

Este tipo de matriz es de suma importancia en el cálculo de la regresión lineal múltiple en estadística Big Data y se presenta de la siguiente forma:

Regresión lineal múltiple en estadística Big Data 3

/] Lo que se puede simplificar como:

Al igual que en el caso anterior, podrás estimar β con:

Esto se lleva a cabo en el siguiente proceso de inscripción:

n<-10
x1<-rep(1,n)
x2<-seq(2,to=11,length.out = n)
x3<-seq(0.3,to=5,length.out = n)^2
X<-matrix(c(x1,x2,x3),nrow=n,byrow = F)
print("El valor de la matriz X es:")
X
beta<-matrix(c(5,2,14),nrow=3)
print("El valor de la matriz Y es:")
Y<-X %*% beta+rnorm(n)
Y

[1] “El valor de la matriz X es:”

A matrix: 10 × 3 of type dbl

1	2	0.0900000
1	3	0.6760494
1	4	1.8075309
1	5	3.4844444
1	6	5.7067901
1	7	8.4745679
1	8	11.7877778
1	9	15.6464198
1	10	20.0504938
1	11	25.0000000

[1] “El valor de la matriz Y es:”

A matrix: 10 × 1 of type dbl

9.932899
18.895609
37.937981
65.146657
96.560780
138.376701
186.975475
242.054275
305.354591
376.470304

print("El valor estimado de beta es:")
est_beta<-solve(t(X) %*% X) %*% t(X) %*% Y
est_beta

print("El valor real de beta es:")
beta

[1] “El valor estimado de beta es:”

A matrix: 3 × 1 of type dbl

2.550833

2.709907

13.761831

[1] “El valor real de beta es:”

A matrix: 3 × 1 of type dbl

En la regresión lineal múltiple en estadística Big Data, esto también se puede resolver con la función lm de R. De manera que se ignora el vector x1 porque la función por defecto ya añade el término.

lm(Y~x2+x3)

Regresión lineal múltiple en estadística Big Data 6

Aprende sobre la regresión lineal múltiple en estadística Big Data

En el transcurso de este post, te has podido familiarizar con todo a lo que hace referencia a la regresión lineal múltiple en estadística Big Data, gracias a unos conocimientos teóricos y prácticos que debes tener en cuenta una vez te enfrentes a este tipo de cálculo en tu procesamiento de los macrodatos. Sin embargo, ¡todavía falta mucho por aprender de este tipo de estadístico!

Por esta razón, desde KeepCoding te ofrecemos el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. A través de esta formación intensiva, podrás familiarizarte con un ecosistema de desarrollo, conocer un IDE profesional y profundizar sobre el lenguaje de programación nativo Big Data Scala, ya que con este se ha escrito uno de los motores de procesamiento más conocidos hasta la fecha, Apache Spark. ¡Apúntate ya y sé un experto del Big Data en menos de nueve meses!