Un análisis de dataset Iris en estadística Big Data es uno de los paquetes de datasets que posee el lenguaje de programación R, el predilecto para la estadística de los macrodatos. Puesto que esta destaca que es obligatorio mirar a los datos, de manera que se pueda saber qué preguntar a los datos y qué información se puede sacar de ellos.
Por esta razón, conocer por medio de un breve ejemplo cómo se compartan estos tipos de datos que puedes estudiarse por medio de un dataset de iris puede ayudarte a desempeñar determinado análisis de datos. Por esta razón, en el desarrollo de este post te presentamos un breve análisis de dataset Iris en estadística Big Data.
Gestión de paquetes como dataset Iris en R
Como primera instancia, resulta necesario recordar que este dataset Iris en estadística Big Data forma parte de los paquetes de funciones que ofrece el lenguaje de programación de R diseñado y orientado a la estadística de los macrodatos.
En efecto, R tiene varios datasets incorporados dentro de su multitud de paquetes que pueden ampliar su funcionalidad con nuevas funciones. Existe un repositorio oficial en CRAN, en el que podrás estudiar mucho más sobre estos paquetes del lenguaje de programación R.
Como conocimiento imprescindible, debes saber que R permite gestionar los paquetes mediante los siguientes comandos:
- install.packages(pkgs, respos): por medio de este podrás instalar nuevos paquetes.
- installed.packages(): mediante este comando se muestran los paquetes instalados.
- remove.packages(pkgs): como su nombre indica, este borra los paquetes indicados.
- library(pkg): por último, este comando carga en memoria el paquete indicado.
Análisis de dataset Iris en estadística Big Data
Pues bien, a pesar de la cantidad de datsets que ofrece R, en este caso te presentamos cómo se usa el iris datase En primer lugar, un dataset Iris en estadística Big Data se encuentra dentro de las opciones para desarrollar un gráfico estadístico para un gran volumen de datos.
Por otra parte, como podrás deducir con su nombre, este dataset se especializa en el análisis estadístico de esta flor que te mostramos a continuación:
Pues bien, este dataset iris da medidas en centímetros de las variables longitud y anchura del sépalo y de los pétalos, para 50 flores de cada una de las tres especies de iris.
De manera que el análisis del dataset Iris en estadística Big Data se genera a partir de las especies de iris: setosa, versicolor y virginica.
Ahora, te presentamos cómo se inscribe su función por medio del lenguaje de programación R:
//datos de iris
summary(iris)
//data(iris)
tail(iris)
//data iris
iris[sample(1:nrow(iris),5),]
ggplot(data=iris,aes(x=Species, y=Sepal.Length,color=Species))+geom_boxplot()+
scale_color_discrete(name="Longitud")
ggplot(data=iris,aes(x=Sepal.Width, y =Sepal.Length, color=Species, shape=Species))+
geom_jitter(size=3)+
scale_color_discrete("Especies")+
theme_bw()+ xlab("Anchura del sépalo")+ylab("Longitud del sépalo")+
ggtitle("Comparación del ancho y longitud del sépalo")
Otro tipo de dataset
También podrás contar con otro tipo de datset como, por ejemplo, un dataset de automóviles y sus respectivos seguros. Su desarrollo en los comandos, básicamente, funciona igual solo que que se parte de las características específicas de un auto.
A continuación, su inscripción para desarrollar un gráfico estadístico:
autos<-read.csv("./data//imports-85.data", col.names = c("risk", "normalized_losses",
"make", "fuel_type", "aspiration",
"num_doors", "body_style", "drive_wheels", "engine_location",
"wheel_base", "length", "width", "height", "curb_weight",
"engine_type", "num_cylinders", "engine_size", "fuel_system",
"bore", "stroke", "compression_ratio", "horsepower", "peak_rpm",
"city_mpg", "highway_mpg", "price"))
ggplot(data=autos, aes(x=length, y=width))+
geom_point(aes(size=height),alpha=0.4)+
scale_size_continuous(name="Altura")+
xlab("Longitud del coche")+
ylab("Ancho del coche")
¿Cómo aprender más sobre el Big Data?
En el desarrollo de este post, te hemos expuesto un breve análisis de dataset Iris en estadística Big Data, sin embargo, este análisis posee varias aristas que merece la pena estudiar. La estadística para el estudio de los macrodatos cuenta con un amplio número de herramientas y alternativas para llevarse a cabo y cada una de ellas facilita el procesamiento de los datos.
Por esta razón, desde KeepCoding te ofrecemos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. En el desarrollo de este bootcamp, aprenderás todo lo necesario sobre Big Data a partir de una metodología propia, centrada en formar profesionales diferentes, curiosos, cuestionadores, amantes del trabajo bien hecho y buscadores incansables de la autosuperación y del desafío intelectual. ¡Matricúlate hoy mismo y conviértete en un experto del sector IT!