Glosario de estadística Big Data: 5 fundamentos

Autor: | Última modificación: 14 de julio de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

El análisis exploratorio de datos es el primer paso que todo data scientist tiene que tomar, puesto que un buen análisis estadístico te podrá proporcionar respuestas que pueden complementar algún modelo posterior de Machine Learning más complejo.

Por ello, en este post, te exponemos un glosario de estadística Big Data por medio de cinco fundamentos.

Lenguaje de programación R

Para el proceso de hacer uso de la estadística en el Big Data, el lenguaje de programación R es predilecto, ya que se diseñó para ello y, en la actualidad, sigue estando orientado a la estadística, a diferencia, por ejemplo, de Python, que es un lenguaje de programación más generalista.

Por otra parte, la estadística en el Big Data requiere de un sistema de código abierto (open source) como lo es R, por lo que podrás descargar el código y contribuir, como con casi todas las herramientas que existen ahora, a la ciencia de los datos de manera funcional.

Estimador

Un estimador en estadística Big Data posee una serie de variantes según la estrategia utilizada para llevar a cabo un análisis estadístico de los macrodatos. Su principal característica radica en que es un estadístico (esto es, una función de la muestra) usado para estimar un parámetro desconocido de la población, de manera que se presenta como una función que sustrae valores de una muestra de datos y hace un resumen, estima un valor que define la muestra.

Muestreo

Muchas veces es imposible acceder a los datos completos de una población entera por ser una población demasiado grande o, simplemente, porque no toda la población original es visible directamente.

Es por ello que se recurre al muestreo en estadística Big Data, de manera que se sustrae una muestra significativa de la población original y, a partir de ella, se calculan las estadísticas necesarias para el procesamiento de los datos y destacar su valor.

Distribuciones

Los tipos de distribuciones en estadística son parte de las funciones de probabilidad que aparecen con mayor frecuencia cuando se realiza algún estudio estadístico.

A modo resumen, estos son los tipos distribuciones en estadística Big Data:

  • Distribución uniforme: continua; todos los valores tienen la misma posibilidad.
  • Distribución Bernoulli: discreta; dos posibles soluciones. Por ejemplo: tirar una moneda al aire.
  • Distribución Exponencial: continua; tiempo medio entre ocurrencia de eventos de una distribución de Bernoulli.
  • Distribución Binomial: discreta; generalización de Bernoulli. Por ejemplo: tirar varias monedas al aire.
  • Distribución Poisson: discreta; generalización de Binomial cuando hay infinitos eventos de probabilidad muy baja.
  • Distribución Gaussiana: continua; toda combinación de variables aleatorias tiende a una gaussiana. Es la distribución más usada.
  • Distribución Chi cuadrado: continua; el cuadrado de una distribución gaussiana.

Machine Learning

La relación y las disimilitudes entre estadística vs Machine Learning consisten en comprender que estas pueden confundirse; sin embargo, cada una de ellas posee ciertos determinismos.

Mientras la estadística para el Big Data trata de entender las variables de la información y su relación entre ellas, el Machine Learning trata de entender predicciones, crear modelos que, a partir de una población limitada, pueden generalizar y aprender cómo se comportan los datos en su procesamiento para el beneficio de una organización.

Aprende más sobre los macrodatos

En este post te familiarizamos con la estadística Big Data por medio de un breve glosario, sin embargo, este es un tema muy amplio, por lo que aún falta mucho por estudiar para dominarlo.

Por este motivo, en KeepCoding contamos con el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Gracias a este bootcamp, podrás instruirte en profundidad por medio de once módulos sobre los principales sistemas, lenguajes y herramientas que trabajan con el procesamiento de los macrodatos. ¡Apúntate ya!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!