Saber cómo se desarrolla un dataset frame en R se propone como una de las herramientas para llevar a cabo un estudio estadístico de los macrodatos junto a los demás datasets que maneja este lenguaje de programación.
De igual manera, implementar este tipo de sistemas consigue que el análisis estadístico se potencie y arroje resultados más concisos y claros. A partir de allí, el valor de los datos será aprovechable en la instauración de planes de acción y la toma de decisiones.
Por esta razón, un data scientist debe contar con este tipo de conocimientos para escoger la solución de procesamiento más asertiva. En este post, te explicamos qué es dataset frame en R.
¿Qué es R y para qué sirve en el Big Data?
Antes de explicar qué es dataset frame en R, resulta necesario recordar que este lenguaje de programación predilecto para un estudio estadístico ha sido diseñado y sigue orientado a la estadística del Big Data, por lo que cuenta con una multitud de paquetes que complementan su funcionalidad. Dentro de ellos se encuentran los datasets, como el dataset frame.
Por otra parte, este lenguaje de programación es muy parecido al software SPSS (Statistical Package for Social Sciences o Paquete Estadístico para las Ciencias Sociales, en español) y también a Matlab (MATrix LABoratory o Laboratorio de Matices, en español).
Por último, R es de código abierto (open source), lo que significa que podrás descargar el código y contribuir, como con casi todas las herramientas que existen hoy en día, a la ciencia de los datos. Asimismo, se entrega bajo la licencia GPL (General Public License o Licencia Pública General).
¿Qué es dataset frame en R?
Pues bien, un data frame en el lenguaje R es una tabla como la que se puede encontrar en cualquier hoja de cálculo de Excel. En efecto, su significado en español podría traducirse como «hoja de datos», puesto que su formato remite a este tipo de distribución.
De esta forma, la información se estructura en columnas, así, cada una de las columnas puede ser de un tipo de variable diferente, como, por ejemplo: categórica, numérica, periódica, etc.
Por otra parte, cada una de las filas representa un elemento u objeto cuyos atributos están representados por las columnas.
En definitiva, en el lenguaje de programación R estos valores se definen como un conjunto de vectores de la misma longitud, en los que cada vector puede ser de un tipo diferente. A continuación, te compartimos un breve ejemplo que se basa en tipos de comidas:
plt <- c("Bollo","Palomitas","Limón","Ginebra","Noodles","Caramelo","Patatas fritas","Naranja","Ternera","Cerdo","Sopa") cal <-c(150,200,10,20,200,5,500,15,450,460,30)
idx<- 5 paste("Elemento",idx,":",plt[idx],"-",cal[idx],"cal")
comidas<-data.frame(plato=plt, calorias=cal, sabor=saboresDePlatos, stringsAsFactors = F) comidas str(comidas)
Acceso a elementos de un dataset frame en R
Ahora bien, en muchos casos contar con los datos por separado puede resultar muy útil y más específico, a través de esta alternativa podrás confirmar ciertos resultados arrojados o procesarlos individualmente según el interés del estudio estadístico de los macrodatos.
Así, para acceder a elementos de un dataset frame en R, podrás acudir a diferentes opciones que te clarificamos a continuación:
Acceso por filas
En primer lugar, si se quiere un acceso por filas para el dataset frame en R tendrás que hacer la selección de los datos así:
comidas[2:3,]
comidas[c(-1,-3,-5,-10,-11),]
Acceso por columnas
Al igual que con las filas, este proceso solo requiere que se seleccionen las columnas a las que se pretende tener acceso. Su escritura a partir del ejemplo anterior es la siguiente:
comidas[,c("plato","calorias")]
En este caso, se puede usar el símbolo $ para acceder a una columna.
Sin embargo, las siguientes dos llamadas son equivalentes:
comidas$plato
comidas[,"plato"]
comidas[,1]
comidas[,c(-1,-2)]
comidas$plato[2:3]
comidas[2:3,"plato"]
colnames(comidas)
Por otra parte, si se quiere saber el número de filas que tiene un data frame, se escribe:
nrow(comidas)
También podrás dar nombres a las filas, de manera que se organicen las variables y sus resultados:
rownames(comidas)<-paste0("comida",1:nrow(comidas)) comidas
comidas["comida5","calorias"]
comidas[5,"calorias"]
comidas[c(4,2),c(3,2,1)]
El nombre de las columnas y de las filas se puede obtener y modificar con las funciones colnames() y rownames().
colnames(comidas) rownames(comidas)
Dataset con variables categóricas
Por último, podrás abordar variables categóricas con un dataset frame en R de la siguiente forma:
comidas<-data.frame(plato=plt, calorias=cal, sabor=saboresDePlatos, stringsAsFactors = T) comidas str(comidas)
Sigue aprendiendo Big Data
En este post te hemos explicado detenidamente qué es dataset frame en R, de manera que puedas utilizarlo en el procesamiento de los macrodatos. Sin embargo, sabemos que aún quedan muchas más herramientas para implementar dentro de un estudio estadístico.
Por este motivo, desde KeepCoding te recomendamos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. En el transcurso del mismo, podrás profundizar en el análisis de los datos mediante el reporting. Además, entre otras muchas cosas, comprenderás cómo el análisis visual es el objetivo final en un proyecto de Big Data, ya que, a través de este, se puede proporcionar información muy útil para una empresa como respuesta a los problemas de negocio con un aspecto personalizado, ágil e inmediato. ¡Apúntate y en menos de nueve meses te convertirás en un experto en el manejo del Big Data!