Valores no disponibles en estadística Big Data

Autor: | Última modificación: 20 de julio de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

Los valores no disponibles en estadística Big Data se conocen como una estrategia utilizada para determinados valores que tienen algún error, por ello, son de suma importancia para saber qué hacer con este tipo de datos, ya que siempre se presentarán en los estudios estadísticos.

En efecto, los valores no disponibles en estadística Big Data suelen ser ignorados en el proceso de aprendizaje o dejados de último en este, de manera que se puede caer en equivocaciones en los resultados arrojados y pronosticar inefectivamente. Por esta razón, en este post te compartimos qué son y cómo funcionan los valores no disponibles en estadística Big Data.

Valores no disponibles en estadística Big Data

Los valores no disponibles en estadística Big Data son los valores para los cuales no se tiene ninguna medida, es decir, pertenecen a valores perdidos que no se han podido recuperar, errores de medida, pérdidas de datos, etc.

Estos valores no disponibles en estadística Big Data se representan con un NA (Not Available). En R se detecta con: is.na(x) y también se puede reemplazar su valor con la media, moda, mediana, etc. Por otra parte, simplemente se pueden eliminar con: na.omit(x)

Por último, si estás trabajando con series temporales, es posible que quieras hacer una interpolación de los valores perdidos, esta se hace de la siguiente forma:

zoo::na.approx(x)

Ejemplo práctico

NA

<NA>

data<-c(1,3,NA,6)
data
  1. 1
  2. 3
  3. <NA>
  4. 6
is.na(data)
  1. FALSE
  2. FALSE
  3. TRUE
  4. FALSE
na.omit(data)
  1. 1
  2. 3
  3. 6
paste("El número de elementos con NA:",length(data[is.na(data)]))

‘El número de elementos con NA: 1’

sum(is.na(data))

1

paste("El número de elementos que NO son NA:",length(data[!is.na(data)]))

‘El número de elementos que NO son NA: 3’

data[1]<-10
data
  1. 10
  2. 3
  3. <NA>
  4. 6
data[is.na(data)] <- 28
data
  1. 10
  2. 3
  3. 28
  4. 6

Ejemplo con datos reales

Dataset coches

Para este ejemplo con datos reales se parte del dataset de seguro de automóviles que puedes descargar:

autos<-read.csv("./data//imports-85.data", col.names = c("risk", "normalized_losses", 
                                                         "make", "fuel_type", "aspiration",
           "num_doors", "body_style", "drive_wheels", "engine_location",
           "wheel_base", "length", "width", "height", "curb_weight",
           "engine_type", "num_cylinders", "engine_size", "fuel_system",
           "bore", "stroke", "compression_ratio", "horsepower", "peak_rpm",
           "city_mpg", "highway_mpg", "price"))
str(autos)
Valores no disponibles en estadística Big Data 1
tail(autos)

A data.frame: 6 × 26

Valores no disponibles en estadística Big Data 2

Nos quedamos solo con las columnas: «price»,»horsepower»,»body_style»,»risk»

# Para eliminar una sola columna
autos$fuel_type <- NULL
autos <- autos[,c('price','horsepower', 'body_style', 'risk' )]
head(autos)

A data.frame: 6 × 4

Valores no disponibles en estadística Big Data 3

En este CSV, cuando existe un valor desconocido lo han indicado con el carácter ‘?’. Por ese motivo, las columnas ‘price’ y ‘horsepower’ son factores en lugar de numeric. Así, se tiene que indicar a R que son NA:

autos[autos$price == '?','price'] <- NA
autos$horsepower[autos$horsepower== '?'] <- NA
summary(autos)
Valores no disponibles en estadística Big Data 4

Ahora tienes que convertir los factores de ‘price’ y ‘horsepower’ en valores numéricos:

autos$horsepower <- as.numeric(autos$horsepower)
autos$price <- as.numeric(autos$price)
summary(autos)
Valores no disponibles en estadística Big Data 5

¿Cuántos tipos de body_style hay?

unique(autos$body_style)
  1. ‘convertible’
  2. ‘hatchback’
  3. ‘sedan’
  4. ‘wagon’
  5. ‘hardtop’

¿Cuántos elementos hay por cada valor de body_style?

table(autos$body_style)
Valores no disponibles en estadística Big Data 6

Por último, se convierte la columna a factor de la siguiente forma:

autos$body_style <- as.factor(autos$body_style)
summary(autos)
Valores no disponibles en estadística Big Data 7

Continúa aprendiendo sobre el Big Data

Por medio de este post te has enfrentado a los valores no disponibles en estadística Big Data; sin embargo, su desarrollo requiere de un práctica constante, por lo que te aconsejamos ensayar su procedimiento en cada uno de los ejemplos presentados. Además, ¡aún falta mucho más por aprender sobre el manejo del Big Data!

Por este motivo, desde KeepCoding te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Durante su desarrollo, no solo tendrás acceso a los módulos oficiales del bootcamp, sino que también podrás acceder a una gran variedad de material extra y webinars. Además, nuestra metodología propia hará que profundices tanto en la teoría como en la práctica. ¡Inscríbete ahora y conviértete en un experto en menos de nueve meses!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!