Glosario de estadística Big Data: 5 fundamentos

Contenido del Bootcamp dirigido por:

Glosario estadística Big Data
¿Qué encontrarás en este post?

El análisis exploratorio de datos es el primer paso que todo data scientist tiene que tomar, puesto que un buen análisis estadístico te podrá proporcionar respuestas que pueden complementar algún modelo posterior de Machine Learning más complejo.

Por ello, en este post, te exponemos un glosario de estadística Big Data por medio de cinco fundamentos.

Lenguaje de programación R

Para el proceso de hacer uso de la estadística en el Big Data, el lenguaje de programación R es predilecto, ya que se diseñó para ello y, en la actualidad, sigue estando orientado a la estadística, a diferencia, por ejemplo, de Python, que es un lenguaje de programación más generalista.

Por otra parte, la estadística en el Big Data requiere de un sistema de código abierto (open source) como lo es R, por lo que podrás descargar el código y contribuir, como con casi todas las herramientas que existen ahora, a la ciencia de los datos de manera funcional.

Estimador

Un estimador en estadística Big Data posee una serie de variantes según la estrategia utilizada para llevar a cabo un análisis estadístico de los macrodatos. Su principal característica radica en que es un estadístico (esto es, una función de la muestra) usado para estimar un parámetro desconocido de la población, de manera que se presenta como una función que sustrae valores de una muestra de datos y hace un resumen, estima un valor que define la muestra.

Muestreo

Muchas veces es imposible acceder a los datos completos de una población entera por ser una población demasiado grande o, simplemente, porque no toda la población original es visible directamente.

Es por ello que se recurre al muestreo en estadística Big Data, de manera que se sustrae una muestra significativa de la población original y, a partir de ella, se calculan las estadísticas necesarias para el procesamiento de los datos y destacar su valor.

Distribuciones

Los tipos de distribuciones en estadística son parte de las funciones de probabilidad que aparecen con mayor frecuencia cuando se realiza algún estudio estadístico.

A modo resumen, estos son los tipos distribuciones en estadística Big Data:

  • Distribución uniforme: continua; todos los valores tienen la misma posibilidad.
  • Distribución Bernoulli: discreta; dos posibles soluciones. Por ejemplo: tirar una moneda al aire.
  • Distribución Exponencial: continua; tiempo medio entre ocurrencia de eventos de una distribución de Bernoulli.
  • Distribución Binomial: discreta; generalización de Bernoulli. Por ejemplo: tirar varias monedas al aire.
  • Distribución Poisson: discreta; generalización de Binomial cuando hay infinitos eventos de probabilidad muy baja.
  • Distribución Gaussiana: continua; toda combinación de variables aleatorias tiende a una gaussiana. Es la distribución más usada.
  • Distribución Chi cuadrado: continua; el cuadrado de una distribución gaussiana.

Machine Learning

La relación y las disimilitudes entre estadística vs Machine Learning consisten en comprender que estas pueden confundirse; sin embargo, cada una de ellas posee ciertos determinismos.

Mientras la estadística para el Big Data trata de entender las variables de la información y su relación entre ellas, el Machine Learning trata de entender predicciones, crear modelos que, a partir de una población limitada, pueden generalizar y aprender cómo se comportan los datos en su procesamiento para el beneficio de una organización.

Aprende más sobre los macrodatos

En este post te familiarizamos con la estadística Big Data por medio de un breve glosario, sin embargo, este es un tema muy amplio, por lo que aún falta mucho por estudiar para dominarlo.

Por este motivo, en KeepCoding contamos con el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Gracias a este bootcamp, podrás instruirte en profundidad por medio de once módulos sobre los principales sistemas, lenguajes y herramientas que trabajan con el procesamiento de los macrodatos. ¡Apúntate ya!

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado