¿Sabías que entre un 40% a un 80% del tiempo que se dedica a un proyecto de ciencia de datos e información se utiliza en la preparación de estos datos?
El mundo de los datos puede tener un cold-start y puede hacerse cuesta arriba sin los conocimientos que la experiencia aporta, así como la asimilación de las diferentes herramientas que existen a nuestra disposición. Gracias al conocimiento de Pablo Sebastián Pereira hemos podido enumerar y hacer este recopilatorio de consejos para un Data Scientist.
Cuando nos encontramos en un proyecto que implique el manejo de grandes volúmenes de datos, las posibilidades de frustración aumentan proporcionalmente al tamaño de los mismos.
Es aquí donde esta guía te aportará consejos en tu día a día en el tratamiento y preparación de la información. La orientaremos a las tecnologías Oracle+Python+PL/SQL.
¿Qué encontrarás en este post?
TogglePreparación de datos con Pandas & Oracle
Hay dos factores clave que reconocer a la hora de preparar los datos:- Dónde nos estamos ubicando, es decir, cuántas rutas de saldo tenemos, qué interconexiones usamos y qué tipos de protocolo vamos a utilizar, entre otras cosas.
- Cúal el punto más débil de la red, teniendo en cuenta que ésta nos va a dar el punto máximo de flujo de datos que vamos a poder subir y bajar.
Primer Dataset en que trabajo un Data Scientist
US Consumer Finance. En el webinar y de manera práctica hemos aprendido cómo analizar y obtener conclusiones sobre los tiempos de carga y la metadata de destino. Además, en caso de incidencias, nos ha mostrado cómo buscar una alternativa. Por último, nos enseñó el análisis de resultados, para terminar implementando una carga sin SQLAlquemy. Si quieres ver esta práctica de forma extendida y profunda, puedes hacerlo en este enlace.Comparativa entre Pandas y Vaex
En la segunda parte del taller de consejos para un data scientist, nos ha hecho una breve explicación a modo de introducción del ejercicio de comparativa. Se han analizado múltiples viajes que se han realizado en taxis en Nueva York, realizado tanto desde Pandas como desde Vaex, a modo de balance entre ambas. Las similitudes existentes son: formato de entrada HPF5, origen en S3, el período de datos con el fin de analizar las mismas referencias, y la cantidad de registros, con la misma finalidad. Mientras que ya de antemano encontramos algunas diferencias: por un lado, sobre Pandas se realiza una carga completa, consumiendo la memoria de manera elevada; mientras que en Vaex se realiza una carga por partes, derivando en un consumo de memoria bajo.Y recuerda, no es lo mismo realizar un ejercicio con un dataset de 1000 registros que enfrentarse a millones o miles de millones de registros en cientos de tablas y ficheros.
Esperamos que esto os sirva como guía de supervivencia básica en vuestro día a día como Data Scientist.
Como puedes ver el mundillo del Big Data tiene interminables aplicaciones, y si quieres dominar todas las herramientas y metodologías para trabajar en este sector, descubre nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. Conoce todos los detalles del programa descargando el temario aquí.