Guía de supervivencia para un Data Scientist

Autor: | Última modificación: 18 de agosto de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

Algunos de nuestros reconocimientos:

Premios KeepCoding

«No es posible gestionar lo que no se puede medir». Los datos son cada vez más relevantes para las empresas. Sin datos, no se podría ofrecer ningún tipo de productos en el mercado que interesase a los usuarios.

Por esto, un Data Scientist debe saber manejar un gran volumen de datos, gestionarlos, procesarlos, limpiarlos. De esta forma, las empresas consiguen recopilar datos valiosos y útiles para sus productos y/o servicios, que luego se traducirán en una mejora de la productividad.

guia de supervivencia data scientist

Junto a nuestros amigos del Grupo CaixaBank y su comunidad tecnológica y digital PeopleXperienceHUB hemos tenido la oportunidad de realizar esta Guía de supervivencia para un Data Scientist, con consejos prácticos y útiles para cualquiera que quiera iniciarse en esta rama.

¿Sabías que entre un 40% a un 80% del tiempo que se dedica a un proyecto de ciencia de datos e información se utiliza en la preparación de estos datos?

El mundo de los datos puede tener un cold-start y puede hacerse cuesta arriba sin los conocimientos que la experiencia aporta, así como la asimilación de las diferentes herramientas que existen a nuestra disposición. Gracias al conocimiento de Pablo Sebastián Pereira hemos podido enumerar y hacer este recopilatorio de consejos para un Data Scientist.

Cuando nos encontramos en un proyecto que implique el manejo de grandes volúmenes de datos, las posibilidades de frustración aumentan proporcionalmente al tamaño de los mismos.

Es aquí donde esta guía te aportará consejos en tu día a día en el tratamiento y preparación de la información. La orientaremos a las tecnologías Oracle+Python+PL/SQL.

Preparación de datos con Pandas & Oracle

Hay dos factores clave que reconocer a la hora de preparar los datos:

  • Dónde nos estamos ubicando, es decir, cuántas rutas de saldo tenemos, qué interconexiones usamos y qué tipos de protocolo vamos a utilizar, entre otras cosas.
  • Cúal el punto más débil de la red, teniendo en cuenta que ésta nos va a dar el punto máximo de flujo de datos que vamos a poder subir y bajar.

Primer Dataset en que trabajo un Data Scientist 

US Consumer Finance. En el webinar y de manera práctica hemos aprendido cómo analizar y obtener conclusiones sobre los tiempos de carga y la metadata de destino. Además, en caso de incidencias, nos ha mostrado cómo buscar una alternativa. Por último, nos enseñó el análisis de resultados, para terminar implementando una carga sin SQLAlquemy. 

Si quieres ver esta práctica de forma extendida y profunda, puedes hacerlo en este enlace.

YouTube video

Comparativa entre Pandas y Vaex 

En la segunda parte del taller de consejos para un data scientist, nos ha hecho una breve explicación a modo de introducción del ejercicio de comparativa. 

Se han analizado múltiples viajes que se han realizado en taxis en Nueva York, realizado tanto desde Pandas como desde Vaex, a modo de balance entre ambas.

Las similitudes existentes son: formato de entrada HPF5, origen en S3, el período de datos con el fin de analizar las mismas referencias, y la cantidad de registros, con la misma finalidad. 

Mientras que ya de antemano encontramos algunas diferencias: por un lado, sobre Pandas se realiza una carga completa, consumiendo la memoria de manera elevada; mientras que en Vaex se realiza una carga por partes, derivando en un consumo de memoria bajo.

Y recuerda, no es lo mismo realizar un ejercicio con un dataset de 1000 registros que enfrentarse a millones o miles de millones de registros en cientos de tablas y ficheros.

Esperamos que esto os sirva como guía de supervivencia básica en vuestro día a día como Data Scientist.

Como puedes ver el mundillo del Big Data tiene interminables aplicaciones, y si quieres dominar todas las herramientas y metodologías para trabajar en este sector, descubre nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. Conoce todos los detalles del programa descargando el temario aquí. 

Posts Relacionados