Ejemplo estadístico de la producción de cereales por hectárea

| Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Un ejemplo estadístico de la producción de cereales por hectárea para comprender cómo funciona la estadística para el manejo del Big Data es una de las mejores estrategias para llevar a la práctica los conocimientos teóricos.

En efecto, llevar a cabo una serie de ejemplos con datos reales te facilitará el entendimiento de este tipo de estudios estadísticos y te prepararán para el desarrollo de estos en tu procesamiento de los macrodatos. Por esta razón, en este post, te exponemos un breve ejemplo estadístico de la producción de cereales por hectárea.

¿Qué es estadística para el manejo Big Data?

La estadística para el Big Data trata de entender las variables de la información y su relación entre ellas. Las estadísticas te ayudan a comprender cómo es tu población de los datos. Para ello, esta cuenta con ciertos elementos, como son los estimadores, los percentiles, la varianza, la moda, las operaciones…

De igual forma, la estadística es una disciplina que se dedica a analizar los datos de manera minuciosa para, posteriormente, identificar las coincidencias de variables con las que cuenta la información. Esto produce, por ejemplo, que una empresa pueda conocer cuáles son las mejores rutas y decisiones para su optimización gracias a los datos procesados.

Ejemplo estadístico de la producción de cereales por hectárea

Para el ejemplo estadístico de la producción de cereales por hectáreas, debes tener en cuenta el siguiente gráfico que muestra cómo ha evolucionado la producción de cereales por hectárea cultivada en Italia desde 1960 hasta 2018:

Alrededor del mundo se observa una tendencia muy parecida a partir de los años 60, en la que nuevas especies híbridas de cereales, junto con nuevos fertilizantes químicos y pesticidas, aumentaron la producción agrícola en todo el mundo en lo que se acabó llamando la revolución verde. El padre de este movimiento suele considerarse que es Norman Borlaug, Premio Nobel de la Paz en 1970.

Ahora, para este ejemplo estadístico de la producción de cereales por hectáreas, se desarrollará el siguiente análisis:

library(ggplot2)
yieldKgIt<-read.csv("data/yieldKgIt.csv")
model <- lm(data=yieldKgIt, formula=yieldCereal~DATE)
summary(model)
yieldKgIt$predicted <- predict(model, yieldKgIt)

ggplot(data=yieldKgIt,aes(x=DATE))+
   geom_point(aes(y=yieldCereal))+
   geom_line(aes(y=predicted),color="blue")+
   theme_bw()+xlab("Año")+ylab("Kg/ha")+ggtitle("Producción de cereales")

Aquí se calcula que, cada año, de media, la producción de cereales aumenta en 67.5kg/ha. De manera que esta sigue una curva lineal con bastante poco error. En la siguiente gráfica se ven los residuos:

confint(model)

A matrix: 2 × 2 of type dbl

2.5 %97.5 %
(Intercept)-138019.25423-122326.52490
DATE63.5529171.44838
ggplot(data=yieldKgIt,aes(x=DATE,y=yieldCereal-predicted))+   
   geom_line(color="blue")+
   geom_point(color="red")+
   theme_bw()+xlab("Año")+ylab("Kg/ha")+ggtitle("Residuos")

Ahora bien, en este ejemplo estadístico de la producción de cereales por hectáreas te preguntarás: ¿por qué a veces la producción de cereales es inferior o superior con la curva esperada? ¿Podría haber factores meteorológicos involucrados?

A pesar de que no se cuenta con el histórico de meteorología de toda Italia, podrás aproximarlo con el histórico de la ciudad de Bolonia:

residuals<-data.frame(DATE=yieldKgIt$DATE,res=model$residuals)
weather<-read.csv("data/ITE00100550.csv")
wc<-merge(weather[,c("DATE","PRCP")],residuals,by="DATE")
cor(wc$PRCP,wc$res,use="complete.obs")
#ggplot(wc,aes(x=DATE,y=PRCP))+geom_point()

0.184783275684307

¿Cómo aprender más sobre el Big Data?

En este post, te hemos expuesto un breve ejemplo estadístico de la producción de cereales por hectáreas, de manera que ahora sabes cómo abordar este tipo de estadísticos con datos reales. Por último, te recomendamos continuar practicando con muchos más ejemplos y seguir aprendiendo sobre el manejo del Big Data.

Para continuar con tu formación, te recomendamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning, puesto que este te acercará a muchos más sistemas, lenguajes y herramientas que trabajan con los macrodatos, como el Control de Cambios (CDC) en Data Warehouse. Por otra parte, gracias a la metodología propia de nuestra formación intensiva, centrada en enseñar hands on, podrás adquirir un conocimiento tanto teórico como práctico que te convertirá en todo un experto. ¡Solicita información e inscríbete ya!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado