Dataset Anscombe en estadística Big Data

Contenido del Bootcamp Dirigido por: | Última modificación: 19 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

El Dataset Anscombe en estadística Big Data es uno de los tantos datasets que podrás encontrarte para el desarrollo de un estudio estadístico. Principalmente, te ayudará para realizar comparaciones, por lo que si lo que planeas es llevar a cabo un análisis de este tipo, ¡este post es ideal para ti!

En primer lugar debes saber que, al igual que los demás estadísticos para el manejo del Big Data, este dataset te ayudará a entender las variables de la información y la relación que tienen los datos. Por esta razón, en el desarrollo de este post, te explicamos qué es y cómo funciona el Dataset Anscombe en estadística Big Data.

Dataset Anscombe en estadística Big Data

El Dataset Anscombe en estadística Big Data es una muestra de que no te puedes fiar simplemente por los estimadores de las variables, la representación gráfica nos proporciona una visión más completa.

En definitiva, el Dataset Anscombe en estadística Big Data es un cuarteto de gráficas que poseen ciertas propiedades y que se representan diferente.

Por otra parte, existen datasets similares, como el datasaurio.

library(datasets)
anscombe

A data.frame: 11 × 8

mean(anscombe$y1)
mean(anscombe$y2)
mean(anscombe$y3)
mean(anscombe$y4)

7.50090909090909
7.50090909090909
7.5
7.50090909090909

var(anscombe$y1)
var(anscombe$y2)
var(anscombe$y3)
var(anscombe$y4)

4.12726909090909

4.12762909090909

4.12262

4.12324909090909

library(ggplot2)
options(repr.plot.height=3,repr.plot.width=4 , repr.plot.res = 400)

ggplot(anscombe)+
 geom_point(aes(x=x1,y=y1),color="red")+
 geom_point(aes(x=x2,y=y2),color="green")+
 geom_point(aes(x=x3,y=y3),color="blue")+
 geom_point(aes(x=x4,y=y4),color="black")
library(grid)
library(gridExtra)
options(repr.plot.height=4,repr.plot.width=8 , repr.plot.res = 200)

g1<-ggplot(anscombe,aes(x=x1,y=y1))+geom_point(color="red")+geom_smooth(method="lm",color="grey",se=F)
g2<-ggplot(anscombe,aes(x=x2,y=y2))+geom_point(color="blue")+geom_smooth(method="lm",color="grey",se=F)
g3<-ggplot(anscombe,aes(x=x3,y=y3))+geom_point(color="blue")+geom_smooth(method="lm",color="grey",se=F)
g4<-ggplot(anscombe,aes(x=x4,y=y4))+geom_point(color="blue")+geom_smooth(method="lm",color="grey",se=F)
 

grid.arrange(g1, g2, g3, g3,nrow = 2,top = textGrob("Anscombe dataset",gp=gpar(fontsize=20,font=3)))
`geom_smooth()` using formula 'y ~ x'

`geom_smooth()` using formula 'y ~ x'

`geom_smooth()` using formula 'y ~ x'

`geom_smooth()` using formula 'y ~ x'

Finalmente, este ejemplo de Dataset Anscombe en estadística Big Data se vería de la siguiente forma en las gráficas:

En el desarrollo de este post, te hemos expuesto qué es y cómo funciona el Dataset Anscombe en estadística Big Data. Sin embargo, esta amplia área del manejo de los macrodatos requiere de muchos más saberes y herramientas que te facilitarán el desarrollo de un estudio estadístico. En suma, esta es una de las vertientes más importantes en el procesamiento de los datos, ya que te ponen al tanto del comportamiento de las variables y las relaciones que se establecen entre ellas.

Por ello, desde KeepCoding te presentamos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Por medio del mismo, podrás aprender más sobre la suite de Talend Open Studio junto a las demás herramientas Big Data a través de diferentes módulos, como el de Big Data Architecture. Allí, verás una imagen completa del proceso de carga, clasificación, resguardo, gestión y presentación de los datos a través de diferentes herramientas, sistemas y lenguajes de programación¡No esperes más y apúntate ya!

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado