El Mini-batch Stochastic Gradient Descent es uno de los métodos más utilizados en el uso de las redes de neuronas profundas durante el Deep Learning, puesto que su proceso práctico resulta efectivo y sencillo en comparación con otros métodos de la teoría de optimización.

Es por ello que un data scientist debe contar con este tipo de conocimiento para enfrentarse al Deep Learning. Por esta razón, en el desarrollo de este post te explicamos qué es Mini-batch Stochastic Gradient Descent.

¿Qué es Mini-batch Stochastic Gradient Descent?

El Mini-batch Stochastic Gradient Descent o gradiente descendente estocástico forma parte de la teoría de optimización en el desarrollo del Deep Learning. De hecho, este método de mini batch es el más utilizado en la práctica del manejo de las redes de neuronas profundas.

Ahora, para comprender cómo funciona el método de Mini-batch Stochastic Gradient Descent dentro del Deep Learning, te exponemos un ejemplo práctico del mini batch basado en la siguiente imagen:

¿Qué es Mini-batch Stochastic Gradient Descent?

Aquí, el camino marcado con la línea verde corresponde a este método.

¿Qué te parecería que, en vez de 1 solo elemento, escogiésemos N elementos? De esta forma se establece el mini batch:

Aumentamos la estabilidad del algoritmo, ya que no solo nos fijamos en un solo elemento, sino en k (es decir, disminuímos los cambios de dirección tan abruptos y caóticos que tiene la línea magenta).
Disminuimos el tiempo de ejecución con respecto al gradient descent tradicional, pues pasamos de las N muestras que tiene nuestro training set, a k, donde k<<N.

Normalmente, k se elige para que sea una potencia de 2, ya que eso permite aprovechar algunas optimizaciones que tienen las GPUs implementadas para estos casos. Un k típico podría ser k=32, pero al final esto lo limita la memoria de la GPU.

Cuanto más bajo sea k, más se parecerá al Stochastic Gradient Descent (SGD) o gradiente descendente estocástico puro y más épocas le costará converger, aunque también es verdad que las calculará más rápido.

Y a la inversa, cuanto más alto sea k, más se parecerá al Gradient Descent (GD) puro o gradiente descendente estocástico puro y más le costará calcular cada época, pero necesitará menos para converger.

En este post, te hemos expuesto qué es y cómo funciona el método de Mini-batch Stochastic Gradient Descent; sin embargo, aún falta mucho más por aprender sobre el manejo del Big Data.

Para ayudarte en tu proceso de formación, te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning, por medio del que podrás recibir toda la ayuda necesaria a nivel práctico y teórico. Gracias a esta formación intensiva, en un periodo de menos de nueve meses te convertirás en todo un conocedor de las herramientas, sistemas y lenguajes más influyentes en el amplio mundo del Big Data. Al finalizar, serás capaz de reconocer las ventajas e inconvenientes de los distintos algoritmos estudiados. ¿A qué estás esperando? ¡No dudes en pedir información e inscríbete ya para convertirte en un experto!