Esta semana hemos tenido como invitado a Ivar Quiroz, ingeniero en Informática por la UC3M, con un Máster en Fintechs por la misma universidad. En este caso nos ha hablado del uso del Big Data para negocios, llevando a cabo un caso práctico completo, explicando todos los pasos a seguir.
Este proceso consta de un total de cinco fases, desde el reconocimiento de la necesidad, pasando por el análisis, diseño e implementación de la solución, para terminar con posibles mejoras para el proceso.
¿Qué encontrarás en este post?
Toggle1. Identificación del caso de uso y sus requisitos
Para comenzar con la planificación del proyecto, lo primero que se debe hacer es identificar la necesidad, que puede ser estudiada desde tres perspectivas diferentes: la del dueño del producto, la del arquitecto de datos y la del equipo de desarrollo. En esta ocasión se estudiará el caso de una empresa de retail online que se encuentra en proceso de expansión, cuya principal necesidad es conseguir recomendar a sus clientes productos relacionados con sus compras o búsquedas, una vez al día; además, también buscan que la plataforma estudie el comportamiento de sus clientes para mejorar las recomendaciones. Los datos que se van a utilizar para este proyecto son los datos de inicio de sesión y los de navegación (los logs en el servidor apache). Existen una serie de requisitos para que la plataforma sea efectiva frente a las necesidades del cliente y son que a través de ella sea posible maximizar el ratio entre coste y beneficio y que se cree una estabilidad lineal de costes respecto a las necesidades de capacidad. Además, para garantizar la eficacia de la plataforma, es necesario que cuente con las siguientes capacidades:- Elástica de cómputo y persistencia.
- Capaz de almacenar la información histórica de los clientes.
- Capaz de realizar el análisis y la consulta de la información almacenada.
- Capaz de realizar el proceso de recomendación de los clientes.
2. ¿Cómo implementar el Big Data para negocios?
Se debe comenzar analizando la naturaleza del problema y para ello se realizará un procesamiento de tipo Batch, recopilando una serie de datos desde los servidores apache una vez al día, realizando una ingesta de los mismos y una posterior limpieza para así optimizar el almacenamiento. Para terminar, se procesarán los datos de manera volátil para, finalmente, analizarlos. Además, se llevará a cabo un análisis de la muestra facilitada por los logs de los usuarios. A continuación, se debe decidir qué infraestructura se va a utilizar, en este caso, dado que todas ofrecen lo mismo, se ha decantado por la de menor coste, Google Cloud Platform. Para terminar con el análisis, se debe realizar la arquitectura de la solución, definiendo esta, como podemos ver en la imagen a continuación: