Data Scientist

Junto a nuestros amigos del Grupo CaixaBank y su comunidad tecnológica y digital PeopleXperienceHUB hemos tenido la oportunidad de realizar esta Guía de superviviencia para un Data Scientist.

¿Sabías que entre un 40% a un 80% del tiempo que se dedica a un proyecto de ciencia de datos e información se utiliza en la preparación de estos datos?

El mundo de los datos puede tener un cold-start y puede hacerse cuesta arriba sin los conocimientos que la experiencia aporta, así como la asimilación de las diferentes herramientas que existen a nuestra disposición. Gracias al conocimiento de Pablo Sebastián Pereira hemos podido enumerar y hacer este recopilatorio de consejos para un Data Scientist.

Cuando nos encontramos en un proyecto que implique el manejo de grandes volúmenes de datos, las posibilidades de frustración aumentan proporcionalmente al tamaño de los mismos.

Es aquí donde esta guía te aportará consejos en tu día a día en el tratamiento y preparación de la información. La orientaremos a las tecnologías Oracle+Python+PL/SQL.

Preparación de datos con Pandas & Oracle

Hay dos factores clave que reconocer a la hora de preparar los datos:

  • Dónde nos estamos ubicando, es decir, cuántas rutas de saldo tenemos, qué interconexiones usamos y qué tipos de protocolo vamos a utilizar, entre otras cosas.
  • Cúal el punto más débil es la red, teniendo en cuenta que ésta nos va a dar el punto máximo de flujo de datos que vamos a poder subir y bajar.

Primer Dataset en que trabajo un Data Scientist 

US Consumer Finance. En el webinar y de manera práctica hemos aprendido cómo analizar y obtener conclusiones sobre los tiempos de carga y la metadata de destino. Además, en caso de incidencias, nos ha mostrado cómo buscar una alternativa. Por último, nos enseñó el análisis de resultados, para terminar implementando una carga sin SQLAlquemy. 

Si quieres ver esta práctica de forma extendida y profunda, puedes hacerlo en este enlace.

 

Comparativa entre Pandas y Vaex 

En la segunda parte del taller de consejos para un data scientist, más práctica, nos ha hecho una breve explicación a modo de introducción del ejercicio de comparativa. 

Se han analizado múltiples viajes que se han realizado en taxis en Nueva York, realizado tanto desde Pandas como desde Vaex, a modo de balance entre ambas.

Las similitudes existentes son: formato de entrada HPF5, origen en S3, el período de datos con el fin de analizar las mismas referencias, y la cantidad de registros, con la misma finalidad. 

Mientras que ya de antemano encontramos algunas diferencias: por un lado, sobre Pandas se realiza una carga completa, consumiendo la memoria de manera elevada; mientras que en Vaex se realiza una carga por partes, derivando en un consumo de memoria bajo.

Para ver cómo se desarrolla esta segunda práctica y los resultados obtenidos, visita este enlace para poder ver el webinar completo.

Y recuerda, no es lo mismo realizar un ejercicio con un dataset de 1000 registros que enfrentarse a millones o miles de millones de registros en cientos de tablas y ficheros.

Esperamos que esto os sirva como guía de supervivencia básica en vuestro día a día como Data Scientist.

Como puedes ver el mundillo del Big Data tiene interminables aplicaciones, y si quieres dominar todas las herramientas y metodologías para trabajar en este sector, descubre nuestro Full Stack Big Data, AI & ML Bootcamp. Conoce todos los detalles del programa descargando el temario aquí. 

Otras entradas que te pueden interesar:

¡Conoce nuestros Bootcamps!

Descarga el temario y descubre cómo en 6 meses podrás ser un Full Stack DevOps Bootcamp.

¿Quieres más información?