Los gráficos en estadística Big Data son una serie de paquetes que han sido desarrollados por el lenguaje de programación R para exponer el estudio estadístico de los datos a partir de una representación visual de la información procesada.
En efecto, este tipo de alternativas para esquematizar todo el análisis realizado forma parte de las herramientas de la estadística que tratan de entender las variables de la información y su relación entre ellas. En suma, las estadísticas te ayudan a comprender cómo es tu población de los datos.
Por esta razón, en este post te presentamos cuáles son los gráficos en estadística Big Data a partir de una serie de ejemplos que te ayuden a comprender cómo implementar estos datasets en tu procesamiento de los macrodatos.
¿Cuáles son los gráficos en estadística Big Data?
En el lenguaje de programación R hay una gran variedad de paquetes que pueden ampliar su funcionalidad con nuevas funciones. En efecto, existe un repositorio oficial en CRAN al que puedes echar un vistazo.
Dentro de estos, R permite gestionar los paquetes mediante los siguientes comandos:
- install.packages(pkgs, respos): a través de este podrás instalar nuevos paquetes.
- installed.packages(): mediante este comando se muestran los paquetes instalados.
- remove.packages(pkgs): como indica su nombre, este borra los paquetes indicados.
- library(pkg): este comando carga en memoria el paquete indicado.
En definitiva, por medio de estos se produce el desarrollo de los gráficos en estadística Big Data. Por esto, debes saber que existe una librería más completa para realizar gráficos que plot y esta se conoce como ggplot2.
#instalación
#install.packages(c(‘ggplot2′), repos=’https://cran.rstudio.com/’)
library(«ggplot2»)
options(repr.plot.height=6,repr.plot.width=8 , repr.plot.res = 200)
Ejemplos de gráficos en estadística Big Data
Ahora bien, para comprender cómo se producen estos gráficos en estadística Big Data, es necesario partir de ejemplos, como los que te mostramos a continuación:
valX <- seq(-5, 5, by=0.5) valY <- valX+valX^2+valX^3 mydf <- data.frame(dfx=valX, dfy=valY) head(mydf)
dim(mydf)
summary(mydf2)
?aes
- #ggplot: crea un objeto para representar gráficos.
- #geom_line: crea una línea sobre el objeto ggplot.
- #geom_point: muestra los puntos sobre el objeto ggplot.
- #El objeto aes: indica qué columnas vamos a usar para las coordenadas x e y.
ggplot(data=mydf, aes(x=dfx, y=dfy))+geom_line(color=’#9a21bf’)+geom_point(color=’red’, size=2)
mydf$type <- 'funcion 1'
head(mydf)
mydf2 <- data.frame(dfx=valX,dfy=1+2*valX+valX^2, type='funcion 2' )
mydf2 <- rbind(mydf,mydf2)
nrow(mydf2)
mydf2[sort(sample(1:nrow(mydf2), 5)),]
summary(mydf2)
g <- ggplot(data=mydf2,aes(x=dfx,y=dfy,color=type))
summary(g)
g<-g+geom_line()+geom_point()
summary(g)
g
ggplot(data=mydf2,aes(x=dfx,y=dfy))+geom_line()+geom_point(aes(color=type))
Dataset de Iris
Un dataset Iris en estadística Big Data se encuentra dentro de las opciones de gráficos en estadística Big Data que se especializa en el análisis estadístico de esta flor que te mostramos a continuación:
Pues bien, este conjunto de datos de iris da medidas en centímetros de las variables longitud y anchura del sépalo, así como de los pétalos, para 50 flores de cada una de las tres especies que hay de iris.
De manera que el análisis del dataset iris en estadística Big Data se genera a partir de las especies setosa, versicolor y virginica.
A continuación, te presentamos cómo se escribe su función por medio del lenguaje de programación R:
summary(iris)
tail(iris)
iris[sample(1:nrow(iris),5),]
ggplot(data=iris,aes(x=Species, y=Sepal.Length,color=Species))+geom_boxplot()+
scale_color_discrete(name=»Longitud»)
ggplot(data=iris,aes(x=Sepal.Width, y =Sepal.Length, color=Species, shape=Species))+
geom_jitter(size=3)+
scale_color_discrete(«Especies»)+
theme_bw()+ xlab(«Anchura del sépalo»)+ylab(«Longitud del sépalo»)+
ggtitle(«Comparación del ancho y longitud del sépalo»)
Dataset de automóviles
Además de esto, también podrás contar con otro tipo de datset como, por ejemplo, un dataset de automóviles y sus respectivos seguros. Su desarrollo en los comandos funciona igual a grandes rasgos, la diferencia radica en que parte de las características específicas de un auto.
A continuación, su inscripción para desarrollar un gráfico estadístico:
autos<-read.csv(«./data//imports-85.data», col.names = c(«risk», «normalized_losses»,
«make», «fuel_type», «aspiration»,
«num_doors», «body_style», «drive_wheels», «engine_location»,
«wheel_base», «length», «width», «height», «curb_weight»,
«engine_type», «num_cylinders», «engine_size», «fuel_system»,
«bore», «stroke», «compression_ratio», «horsepower», «peak_rpm»,
«city_mpg», «highway_mpg», «price»))
ggplot(data=autos, aes(x=length, y=width))+
geom_point(aes(size=height),alpha=0.4)+
scale_size_continuous(name=»Altura»)+
xlab(«Longitud del coche»)+
ylab(«Ancho del coche»)
ggplot(data=autos, aes(y=length))+geom_boxplot()
ggplot(data=autos, aes(x=body_style, y=length, color=body_style))+geom_boxplot().
unique(autos$body_style)
Ejemplo con COVID-19
Para este ejemplo se han descargado los datos del repositorio de la universidad Johns Hopkins, donde se almacena la cantidad de casos acumulados de COVID.
covid_url<-‘https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv’
df<-read.csv(url(covid_url))
head(df)
df$Lat<-NULL
df$Long<-NULL
head(df)
library(reshape2)
df_cov<-melt(df,id.vars=c(«Province.State»,»Country.Region»))
tail(df_cov)
dim(df_cov)
df_cov$fecha<-as.POSIXct(df_cov$variable, format=’X%m.%d.%y’)
head(df_cov)
df_country<-df_cov[df_cov$Country.Region==»Spain» | df_cov$Country.Region==»Italy»,]
tail(df_country)
Continúa aprendiendo sobre el Big Data
Por medio de este post, te hemos ayudado a identificar cuáles son los gráficos en estadística Big Data. Sin embargo, todavía queda una gran variedad de alternativas para llevar a cabo este tipo de análisis estadístico en tu procesamiento de datos, ¡así que aún queda mucho más por saber!
Para ello, desde KeepCoding te ofrecemos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Gracias a él, podrás profundizar en el análisis de los datos mediante el reporting y, para ello, aprenderás a usar una herramienta denominada Tableau, muy conocida en el mundo del Business Intelligence. Además, comprenderás que el análisis visual es el objetivo final en un proyecto de Big data, ya que, a través de este, se puede proporcionar información muy útil para una empresa como respuesta a los problemas de negocio con un aspecto personalizado, ágil e inmediato. ¡No dudes en apuntarte!