Valores no disponibles en estadística Big Data

Contenido del Bootcamp Dirigido por: | Última modificación: 2 de agosto de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Los valores no disponibles en estadística Big Data se conocen como una estrategia utilizada para determinados valores que tienen algún error, por ello, son de suma importancia para saber qué hacer con este tipo de datos, ya que siempre se presentarán en los estudios estadísticos.

En efecto, los valores no disponibles en estadística Big Data suelen ser ignorados en el proceso de aprendizaje o dejados de último en este, de manera que se puede caer en equivocaciones en los resultados arrojados y pronosticar inefectivamente.

Por esta razón, en este post te compartimos qué son y cómo funcionan los valores no disponibles en estadística Big Data.

Valores no disponibles en estadística Big Data

Los valores no disponibles en estadística Big Data son los valores para los cuales no se tiene ninguna medida, es decir, pertenecen a valores perdidos que no se han podido recuperar, errores de medida, pérdidas de datos, etc.

Estos valores no disponibles en estadística Big Data se representan con un NA (Not Available). En R se detecta con: is.na(x) y también se puede reemplazar su valor con la media, moda, mediana, etc. Por otra parte, simplemente se pueden eliminar con: na.omit(x)

Por último, si estás trabajando con series temporales, es posible que quieras hacer una interpolación de los valores perdidos, esta se hace de la siguiente forma:

zoo::na.approx(x)

Ejemplo práctico

NA

<NA>

data<-c(1,3,NA,6)
data
  1. 1
  2. 3
  3. <NA>
  4. 6
is.na(data)
  1. FALSE
  2. FALSE
  3. TRUE
  4. FALSE
na.omit(data)
  1. 1
  2. 3
  3. 6
paste("El número de elementos con NA:",length(data[is.na(data)]))

‘El número de elementos con NA: 1’

sum(is.na(data))

1

paste("El número de elementos que NO son NA:",length(data[!is.na(data)]))

‘El número de elementos que NO son NA: 3’

data[1]<-10
data
  1. 10
  2. 3
  3. <NA>
  4. 6
data[is.na(data)] <- 28
data
  1. 10
  2. 3
  3. 28
  4. 6

Ejemplo con datos reales

Dataset coches

Para este ejemplo con datos reales se parte del dataset de seguro de automóviles que puedes descargar:

autos<-read.csv("./data//imports-85.data", col.names = c("risk", "normalized_losses", 
                                                         "make", "fuel_type", "aspiration",
           "num_doors", "body_style", "drive_wheels", "engine_location",
           "wheel_base", "length", "width", "height", "curb_weight",
           "engine_type", "num_cylinders", "engine_size", "fuel_system",
           "bore", "stroke", "compression_ratio", "horsepower", "peak_rpm",
           "city_mpg", "highway_mpg", "price"))
str(autos)
Valores no disponibles en estadística Big Data
tail(autos)

A data.frame: 6 × 26

Valores no disponibles en estadística Big Data

Nos quedamos solo con las columnas: «price»,»horsepower»,»body_style»,»risk»

# Para eliminar una sola columna
autos$fuel_type <- NULL
autos <- autos[,c('price','horsepower', 'body_style', 'risk' )]
head(autos)

A data.frame: 6 × 4

Valores no disponibles en estadística Big Data

En este CSV, cuando existe un valor desconocido lo han indicado con el carácter ‘?’. Por ese motivo, las columnas ‘price’ y ‘horsepower’ son factores en lugar de numeric. Así, se tiene que indicar a R que son NA:

autos[autos$price == '?','price'] <- NA
autos$horsepower[autos$horsepower== '?'] <- NA
summary(autos)
Valores no disponibles en estadística Big Data

Ahora tienes que convertir los factores de ‘price’ y ‘horsepower’ en valores numéricos:

autos$horsepower <- as.numeric(autos$horsepower)
autos$price <- as.numeric(autos$price)
summary(autos)
Valores no disponibles en estadística Big Data

¿Cuántos tipos de body_style hay?

unique(autos$body_style)
  1. ‘convertible’
  2. ‘hatchback’
  3. ‘sedan’
  4. ‘wagon’
  5. ‘hardtop’

¿Cuántos elementos hay por cada valor de body_style?

table(autos$body_style)
Valores no disponibles en estadística Big Data

Por último, se convierte la columna a factor de la siguiente forma:

autos$body_style <- as.factor(autos$body_style)
summary(autos)
Valores no disponibles en estadística Big Data

Por medio de este post te has enfrentado a los valores no disponibles en estadística Big Data; sin embargo, su desarrollo requiere de un práctica constante, por lo que te aconsejamos ensayar su procedimiento en cada uno de los ejemplos presentados. Además, ¡aún falta mucho más por aprender sobre el manejo del Big Data!

Por este motivo, desde KeepCoding te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Durante su desarrollo, no solo tendrás acceso a los módulos oficiales del bootcamp, sino que también podrás acceder a una gran variedad de material extra y webinars. Además, nuestra metodología propia hará que profundices tanto en la teoría como en la práctica. ¡Inscríbete ahora y conviértete en un experto en menos de nueve meses!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado