Dataset Anscombe en estadística Big Data

Autor: | Última modificación: 2 de agosto de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

Algunos de nuestros reconocimientos:

Premios KeepCoding

El Dataset Anscombe en estadística Big Data es uno de los tantos datasets que podrás encontrarte para el desarrollo de un estudio estadístico. Principalmente, te ayudará para realizar comparaciones, por lo que si lo que planeas es llevar a cabo un análisis de este tipo, ¡este post es ideal para ti!

En primer lugar debes saber que, al igual que los demás estadísticos para el manejo del Big Data, este dataset te ayudará a entender las variables de la información y la relación que tienen los datos. Por esta razón, en el desarrollo de este post, te explicamos qué es y cómo funciona el Dataset Anscombe en estadística Big Data.

¿Cómo funciona la estadística en el Big Data?

La estadística para el manejo Big Data es una disciplina que se dedica a analizar los datos de manera minuciosa con el fin de identificar las coincidencias entre variables con las que cuenta la información. Las estadísticas te ayudan a comprender cómo es tu población de los datos por medio de los estimadores, los percentiles, la varianza, la moda, los tests estadísticos, las operaciones, las asignaciones, etc.

En suma, cuenta con asignaciones y operaciones en R que hacen referencia a las funciones y comandos para facilitar el análisis estadístico de los macrodatos. A su vez, estas parten de dos tipos de datos numéricos: los datos double y los integer.

Dataset Anscombe en estadística Big Data

El Dataset Anscombe en estadística Big Data es una muestra de que no te puedes fiar simplemente por los estimadores de las variables, la representación gráfica nos proporciona una visión más completa.

En definitiva, el Dataset Anscombe en estadística Big Data es un cuarteto de gráficas que poseen ciertas propiedades y que se representan diferente.

Por otra parte, existen datasets similares, como el datasaurio.

library(datasets)
anscombe

A data.frame: 11 × 8

Dataset Anscombe en estadística Big Data
mean(anscombe$y1)
mean(anscombe$y2)
mean(anscombe$y3)
mean(anscombe$y4)

7.50090909090909
7.50090909090909
7.5
7.50090909090909

var(anscombe$y1)
var(anscombe$y2)
var(anscombe$y3)
var(anscombe$y4)

4.12726909090909

4.12762909090909

4.12262

4.12324909090909

library(ggplot2)
options(repr.plot.height=3,repr.plot.width=4 , repr.plot.res = 400)

ggplot(anscombe)+
 geom_point(aes(x=x1,y=y1),color="red")+
 geom_point(aes(x=x2,y=y2),color="green")+
 geom_point(aes(x=x3,y=y3),color="blue")+
 geom_point(aes(x=x4,y=y4),color="black")
Dataset Anscombe en estadística Big Data
library(grid)
library(gridExtra)
options(repr.plot.height=4,repr.plot.width=8 , repr.plot.res = 200)

g1<-ggplot(anscombe,aes(x=x1,y=y1))+geom_point(color="red")+geom_smooth(method="lm",color="grey",se=F)
g2<-ggplot(anscombe,aes(x=x2,y=y2))+geom_point(color="blue")+geom_smooth(method="lm",color="grey",se=F)
g3<-ggplot(anscombe,aes(x=x3,y=y3))+geom_point(color="blue")+geom_smooth(method="lm",color="grey",se=F)
g4<-ggplot(anscombe,aes(x=x4,y=y4))+geom_point(color="blue")+geom_smooth(method="lm",color="grey",se=F)
 

grid.arrange(g1, g2, g3, g3,nrow = 2,top = textGrob("Anscombe dataset",gp=gpar(fontsize=20,font=3)))
`geom_smooth()` using formula 'y ~ x'

`geom_smooth()` using formula 'y ~ x'

`geom_smooth()` using formula 'y ~ x'

`geom_smooth()` using formula 'y ~ x'

Finalmente, este ejemplo de Dataset Anscombe en estadística Big Data se vería de la siguiente forma en las gráficas:

Dataset Anscombe en estadística Big Data

¿Quieres aprender más sobre el Big Data?

En el desarrollo de este post, te hemos expuesto qué es y cómo funciona el Dataset Anscombe en estadística Big Data. Sin embargo, esta amplia área del manejo de los macrodatos requiere de muchos más saberes y herramientas que te facilitarán el desarrollo de un estudio estadístico. En suma, esta es una de las vertientes más importantes en el procesamiento de los datos, ya que te ponen al tanto del comportamiento de las variables y las relaciones que se establecen entre ellas.

Por ello, desde KeepCoding te presentamos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Por medio del mismo, podrás aprender más sobre la suite de Talend Open Studio junto a las demás herramientas Big Data a través de diferentes módulos, como el de Big Data Architecture. Allí, verás una imagen completa del proceso de carga, clasificación, resguardo, gestión y presentación de los datos a través de diferentes herramientas, sistemas y lenguajes. ¡No esperes más y apúntate ya!

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado