Datos de strava en estadística Big Data

Autor: | Última modificación: 26 de julio de 2022 | Tiempo de Lectura: 4 minutos
Temas en este post:

Una de las mejores alternativas para aprender a hacer un estudio estadístico consiste en llevar a cabo diferentes ejemplos que lo pongan en práctica, los datos de strava en estadística Big Data funcionan a la perfección para lograr este cometido.

Por ello, en este post, te explicamos cómo los datos de strava en estadística Big Data sirven para potenciar tu desarrollo en esta rama del manejo de los macrodatos.

Ejemplo con los datos de strava en estadística Big Data

Los datos de strava en estadística Big Data funcionan para practicar cómo desarrollar una recepción, reconocimiento y análisis de los determinados datos. Por esta razón, a continuación te compartimos la lista de pasos a seguir para desarrollar este ejemplo con los datos strava en estadística Big Data:

  1. Primero, debes filtrar y quedarse solo con Activity.Type=»Ride».
  2. Posteriormente, convertir el Activity.Date en un objeto posixct.
  3. Ahora, debes crear una nueva columna que sea día de la semana
  4. Crear una nueva columna que sea ida o vuelta al trabajo, para ello debes tener en cuenta lo siguiente:
  • Tiene que ser un día de lunes a viernes.
  • Ida: entre las 7 y las 9.
  • Vuelta: entre las 14 y las 19.

Ahora bien, para la columna de Moving.Time, debes proceder a calcular el tiempo medio de ida, el tiempo medio de vuelta, la varianza y el boxplot de ambos.

Tener en cuenta como ayuda

  • Para elegir el día de la semana usa la función de weekdays del paquete lubridate().
  • Una vez vayas a parsear la fecha, debes usar el siguiente formato: «%b %d, %Y, %I:%M:%S %p».

Ahora, te compartimos cómo se desarrolla este proceso en la inscripción de los comandos:

Sys.setlocale("LC_ALL","en_EN")
strava = read.csv("data/activities_strava.csv")
str(strava)

Posteriormente, todos los datos de strava en estadística Big Data se visualizarían de la siguiente forma:

Datos de strava en estadística Big Data 1
Datos de strava en estadística Big Data 2
dim(strava)
strava <- strava[strava$Activity.Type=='Ride', ]
dim(strava)
  1. 95
  2. 77
  1. 92
  2. 77
#Lo anterior es equivalente a filtrar con dplyr:
library(dplyr)
strava %>% filter(Activity.Type=='Ride') -> strava
library(lubridate)
strava$weekday <- as.factor(weekdays(strava$Activity.Date))
table(strava$weekday)
Datos de strava en estadística Big Data 3
strava$ida_vuelta <- NA
indice_ida <- which( (hour(strava$Activity.Date)>=6 & hour(strava$Activity.Date)<=9) & 
        !(weekdays(strava$Activity.Date) %in% c('Sunday','Saturday')) )
strava$ida_vuelta[indice_ida] <- "Ida"
indice_vuelta <- which( (hour(strava$Activity.Date)>=13 & hour(strava$Activity.Date)<=19) & 
        !(weekdays(strava$Activity.Date) %in% c('Sunday','Saturday')) )
strava$ida_vuelta[indice_vuelta] <- "Vuelta"
table(strava$ida_vuelta)
Datos de strava en estadística Big Data 4
strava$ida_vuelta <- as.factor(strava$ida_vuelta)
summary(strava[,c('ida_vuelta','weekday','Activity.Date','Moving.Time')])
Datos de strava en estadística Big Data 5
# Media total que coincide con el summary
mean(strava$Moving.Time)
sum(strava$Moving.Time)/length(strava$Moving.Time)

1964.65217391304
1964.65217391304

# Media de Moving.Time en el viaje de ida:
mean(strava$Moving.Time[strava$ida_vuelta=='Ida'], na.rm=T)/60

31.9022727272727

# Media de Moving.Time en el viaje de vuelta:
strava %>% filter(ida_vuelta=='Vuelta') %>% pull(Moving.Time) %>% mean()/60

33.8059259259259

# varianza de Moving.Time en el viaje de ida:
var(strava$Moving.Time[strava$ida_vuelta=='Ida'], na.rm=T)

156555.170995671

# varianza de Moving.Time en el viaje de vuelta:
var(strava$Moving.Time[strava$ida_vuelta=='Vuelta'], na.rm=T)

31276509.0525253

library(ggplot2)
ggplot(strava, aes(y=Moving.Time/60, x=ida_vuelta, color=ida_vuelta))+
geom_boxplot()+ylab('Minutos')
Datos de strava en estadística Big Data 6
max(strava$Moving.Time)


38641

strava[which.max(strava$Moving.Time), c('ida_vuelta','weekday','Activity.Date','Moving.Time')]

A data.frame: 1 × 4

Datos de strava en estadística Big Data 7
strava_clean<-strava[strava$Moving.Time<38000,]
ggplot(strava_clean, aes(y=Moving.Time/60, x=ida_vuelta, color=ida_vuelta))+
geom_boxplot()+ylab('Minutos')
Datos de strava en estadística Big Data 8
print("Varianza Ida")
var(strava_clean$Moving.Time[strava_clean$ida_vuelta=='Ida'], na.rm=T)
print("Varianza vuelta")
var(strava_clean$Moving.Time[strava_clean$ida_vuelta=='Vuelta'], na.rm=T)

[1] «Varianza Ida»
156555.170995671
[1] «Varianza vuelta»
121280.936046512

print("Media Ida")
mean(strava_clean$Moving.Time[strava_clean$ida_vuelta=='Ida'], na.rm=T)/60
print("Media vuelta")
mean(strava_clean$Moving.Time[strava_clean$ida_vuelta=='Vuelta'], na.rm=T)/60

[1] «Media Ida»
31.9022727272727
[1] «Media vuelta»
19.9375

print("Tiempo mediano de ida sin limpiar:")
median(strava$Moving.Time[strava$ida_vuelta=='Vuelta'], na.rm=T)/60
print("Tiempo mediano de ida limpio:")
median(strava_clean$Moving.Time[strava_clean$ida_vuelta=='Vuelta'], na.rm=T)/60

[1] «Tiempo mediano de ida sin limpiar:»
20.0833333333333
[1] «Tiempo mediano de ida limpio:

20.0666666666667

¿Cuál es el siguiente paso?

En el desarrollo de este post, te has familiarizado con cómo se lleva a cabo un análisis estadístico según los datos de strava en estadística Big Data, para que según este ejemplo tengas una idea más profunda de cómo implementar estos estudios en tu procesamiento de los datos. Recuerda que cada uno de ellos requiere de una práctica constante, por eso te recomendamos el método de ensayo y error hasta conseguirlo.

Por otra parte, si quieres continuar aprendiendo y convertirte en un experto en el manejo de Big Data, desde KeepCoding te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Big Data. Esta formación te ayudará a tener una visión global del mundo Big Data y, en ella, explorarás de forma tanto teórica como práctica los sistemas que manejan los macrodatos. ¡Apúntate y conviértete en un data scientist profesional en menos de un año!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!