Los valores no disponibles en estadística Big Data se conocen como una estrategia utilizada para determinados valores que tienen algún error, por ello, son de suma importancia para saber qué hacer con este tipo de datos, ya que siempre se presentarán en los estudios estadísticos.
En efecto, los valores no disponibles en estadística Big Data suelen ser ignorados en el proceso de aprendizaje o dejados de último en este, de manera que se puede caer en equivocaciones en los resultados arrojados y pronosticar inefectivamente.
Por esta razón, en este post te compartimos qué son y cómo funcionan los valores no disponibles en estadística Big Data.
Valores no disponibles en estadística Big Data
Los valores no disponibles en estadística Big Data son los valores para los cuales no se tiene ninguna medida, es decir, pertenecen a valores perdidos que no se han podido recuperar, errores de medida, pérdidas de datos, etc.
Estos valores no disponibles en estadística Big Data se representan con un NA (Not Available). En R se detecta con: is.na(x) y también se puede reemplazar su valor con la media, moda, mediana, etc. Por otra parte, simplemente se pueden eliminar con: na.omit(x)
Por último, si estás trabajando con series temporales, es posible que quieras hacer una interpolación de los valores perdidos, esta se hace de la siguiente forma:
zoo::na.approx(x)
Ejemplo práctico
NA
<NA>
data<-c(1,3,NA,6) data
- 1
- 3
- <NA>
- 6
is.na(data)
- FALSE
- FALSE
- TRUE
- FALSE
na.omit(data)
- 1
- 3
- 6
paste("El número de elementos con NA:",length(data[is.na(data)]))
‘El número de elementos con NA: 1’
sum(is.na(data))
1
paste("El número de elementos que NO son NA:",length(data[!is.na(data)]))
‘El número de elementos que NO son NA: 3’
data[1]<-10 data
- 10
- 3
- <NA>
- 6
data[is.na(data)] <- 28 data
- 10
- 3
- 28
- 6
Ejemplo con datos reales
Dataset coches
Para este ejemplo con datos reales se parte del dataset de seguro de automóviles que puedes descargar:
autos<-read.csv("./data//imports-85.data", col.names = c("risk", "normalized_losses", "make", "fuel_type", "aspiration", "num_doors", "body_style", "drive_wheels", "engine_location", "wheel_base", "length", "width", "height", "curb_weight", "engine_type", "num_cylinders", "engine_size", "fuel_system", "bore", "stroke", "compression_ratio", "horsepower", "peak_rpm", "city_mpg", "highway_mpg", "price"))
str(autos)
tail(autos)
A data.frame: 6 × 26
Nos quedamos solo con las columnas: “price”,”horsepower”,”body_style”,”risk”
# Para eliminar una sola columna autos$fuel_type <- NULL
autos <- autos[,c('price','horsepower', 'body_style', 'risk' )] head(autos)
A data.frame: 6 × 4
En este CSV, cuando existe un valor desconocido lo han indicado con el carácter ‘?’. Por ese motivo, las columnas ‘price’ y ‘horsepower’ son factores en lugar de numeric. Así, se tiene que indicar a R que son NA:
autos[autos$price == '?','price'] <- NA
autos$horsepower[autos$horsepower== '?'] <- NA
summary(autos)
Ahora tienes que convertir los factores de ‘price’ y ‘horsepower’ en valores numéricos:
autos$horsepower <- as.numeric(autos$horsepower) autos$price <- as.numeric(autos$price)
summary(autos)
¿Cuántos tipos de body_style hay?
unique(autos$body_style)
- ‘convertible’
- ‘hatchback’
- ‘sedan’
- ‘wagon’
- ‘hardtop’
¿Cuántos elementos hay por cada valor de body_style?
table(autos$body_style)
Por último, se convierte la columna a factor de la siguiente forma:
autos$body_style <- as.factor(autos$body_style) summary(autos)
Por medio de este post te has enfrentado a los valores no disponibles en estadística Big Data; sin embargo, su desarrollo requiere de un práctica constante, por lo que te aconsejamos ensayar su procedimiento en cada uno de los ejemplos presentados. Además, ¡aún falta mucho más por aprender sobre el manejo del Big Data!
Por este motivo, desde KeepCoding te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Durante su desarrollo, no solo tendrás acceso a los módulos oficiales del bootcamp, sino que también podrás acceder a una gran variedad de material extra y webinars. Además, nuestra metodología propia hará que profundices tanto en la teoría como en la práctica. ¡Inscríbete ahora y conviértete en un experto en menos de nueve meses!