Antes de explicar qué habilidades y requisitos necesita un científico de datos, debemos tomar una definición para saber exactamente qué es, qué hace y cómo alguien se convierte en este profesional del Big Data y Machine Learning.
Una explicación podría ser la que nos ofrece Josh Wills, Director de Ingeniería de Datos en Slack: «Data Scientist (n): Persona mejor en estadística que cualquier desarrollador y mejor en programación que cualquier estadístico». Pero reducirlo a eso sería demasiado simple. La ciencia de datos debe ser mucho más que eso para que se esté convirtiendo en una de las profesiones más prometedoras de hoy en día y, si todo sigue así, del futuro.
Así que, ¿qué es un científico de datos?
Según Jose Antonio Guerrero, el mejor científico de datos de España y que en 2013 fue considerado el mejor del mundo por la red social de científicos de datos, Kaggle, ésta es la definición:
Es una persona con fundamentos en matemáticas, estadística y métodos de optimización, con conocimientos en lenguajes de programación y que además tiene una experiencia práctica en el análisis de datos reales y la elaboración de modelos predictivos.
Dentro de esa descripción aparecen los conocimientos que necesita un científico de datos, pero antes de explorarlos en profundidad, vamos a diferenciar entre Big Data y Machine Learning a través de casos reales para entender su importancia y uso.
¿Por qué es tan importante el Big Data y Machine Learning?
Generación de datos en un día normal…
- Los blogs generan cerca de 2 millones de entradas nuevas.
- En Google se realizan más de 5 millones de consultas.
- WhatsApp envía 25 millones de mensajes.
- El número de correos electrónicos que se envían supera los 100 millones.
La búsqueda en esa maraña de datos sin clasificar y la extracción de información valiosa es lo que se conoce como Big Data.
Y sólo se trata de datos públicos, además hay que añadir los datos que se generan en el sector privado, sobre todo consumo, banca, transporte y sector energético. Las cifras de datos que se manejan en internet son astronómicas. Esto ocurre a cada minuto.
Aplicaciones automatizadas en el día a día…
- Facebook analiza tus gustos y palabras clave en los comentarios para mostarte contenido parecido (véase el caso Trump).
- Amazon te sugiere productos dependiendo de tus búsquedas y te propone nuevos productos según tus compras.
- Netflix te recomienda películas y series según la información de las películas que ya has visto junto al tipo de perfil que te considera según tu navegación.
- Dentro de pocos años, podremos comprar coches autónomos, que tomen las decisiones según los datos en reposo y en tiempo real.
La creación de algoritmos o máquinas con la capacidad de tomar decisiones de forma autónoma que, además, dependiendo del resultado de cada una de ellas refuerce su propio aprendizaje, es Machine Learning.
Pero esta ciencia no acaba aquí. A día de hoy estamos lejos de conquistar las estrellas. La tecnología aeronáutica no ha evolucionado lo suficiente como para poder reservar billetes de ida y vuelta a la Luna, y conducir un robot teledirigido por las arenas de Marte buscando información no es la carta de presentación que debería tener la NASA. Ahora, imagina una máquina con capacidad de decisión y aprendizaje continuo aprendiendo sobre la topología de otros planetas y enviándonos la información. Sin duda, los campos a los que aplicar la ciencia de datos es enorme.
Sin embargo, todavía se avanza con lentitud debido a varias causas, pero en mi opinión, la principal es por la escasez de estos perfiles profesionales. Debido a la explosión de internet, el crecimiento exponencial de la potencia computacional, la digitalización de todo tipo de objetos (coches, neveras, relojes, pulseras) y el abaratamiento de las capacidades de almacenamiento; Big Data y Machine Learning se ven necesitados de profesionales.
Desafortunadamente, las habilidades que deben reunir estos profesionales no son fáciles de encontrar en el mercado, y la oferta no puede saciar una demanda que, desde 2014, aumenta un 33% anual.
4 habilidades o requisitos que debe tener un científico de datos
1. Matemáticas
Como en la mayoría de profesiones, hay que diferenciar dos casos, lo que necesitas saber para poder trabajar como Data Scientist, que puede que tengas que utilizar de forma puntual y apoyándote en información de internet, y lo que realmente vas a necesitar aplicar en tu día a día con criterio y fluidez. Piensa que un científico de datos debe conocer los fundamentos, no ser un matemático.
Álgebra lineal
Sobre todo aplicado a Machine Learning, tendrás que tener fundamentos sobre factorización, matrices, proyecciones y vectores.
Estadística
La estadística y la probabilidad van muy ligadas a la capacidad de análisis de un científico de datos: axiomas y leyes de probabilidad, variables aleatorias, distribuciones, varianza…
Cálculo
También son necesarias nociones sobre derivadas, diferenciales, integrales, funciones vectoriales…
Algoritmos
Esto es importante para optimizar la eficiencia computacional y la escalabilidad de nuestros proyectos. Además de tener conocimientos sobre estructuras de datos, grafos, métodos estocásticos…
2. Análisis de datos
Esta es la verdadera habilidad que debe tener un científico de datos y por la que será más valioso. Mucho de los softwares y herramientas utilizados en Big Data y Machine Learning se encargan de hacer la mayor parte de cálculos matemáticos por ti, sin embargo, esto no podrá hacerlo nadie.
El 80% del trabajo de un Data Scientist se basa en preparación de datos y visualización. Es la habilidad mas importante y, por ello, deberá tener habilidades muy sólidas para el análisis de datos. Exploración, limpieza, construcción de modelos y presentación de resultados.
3. Lenguajes de programación y herramientas
Dentro de Big Data y Machine Learning hay multitud de lenguajes, frameworks y herramientas: Spark, Hadoop, Cloudera, Scala… Cuantas más tecnologías sepas manejar, mayor será el valor como científico de datos y mejor el desempeño en diferentes empresas, pero por encima de todo ello, hay tres básicos que se deben conocer.
SQL
El 68% de los científicos de datos usan SQL como gestor de bases de datos relacionales. Es cierto que también deben utilizarse no relacionales porque muchas veces los datos están desestructurados, pero por su velocidad, su rendimiento y su bajo coste al poder ser ejecutado con escasos recursos es una de las tecnologías que no pueden faltar en el kit de habilidades del Data Scientist.
R
El 52% de estos profesionales usan R para su trabajo habitual. Se debe en gran parte a que durante años ha sido el lenguaje estadístico por excelencia. A la costumbre se le une la solidez de los frameworks y herramientas que se han ido creando con el tiempo. Pero poco a poco se está cambiando de paradigma y, a pesar de tener un gran peso en la ciencia de datos, su crecimiento está estancado. Es el lenguaje de los que se acercan a este sector desde ciencias matemáticas y otras ramas científicas.
Python
Está siendo el némesis de R y ya es un 51% quienes lo utilizan. Con una sintaxis clara y fácil, muchos recién iniciados optan por este lenguaje, así como aquellos que vienen de ingenierías informáticas. Otra de las claves es que es un lenguaje que no tiene únicamente un enfoque estadístico, sino que puede ser utilizado para otros propósitos. Aunque a pesar de su crecimiento, aún le queda mucho trabajo por hacer desarrollando toda la infraestructura, que poco a poco es más competitiva, con iniciativas como SciPy, por ejemplo.
4. Inteligencia de negocio
Como vemos, un científico de datos debe tener un compendio de habilidades pertenecientes a mundos diferentes, y se le añade otro campo más: la visión de negocio. Debe tener la capacidad y los conocimientos necesarios para interpretar y detectar tendencias en su área y traducir estos descubrimientos en acciones que impacten sobre el negocio, crear nuevas oportunidades o comunicar sus hallazgos con el fin de promover cambios dentro de la empresa, el producto o los servicios. Porque no sirve de nada aplicar algoritmos complejos de Machine Learning a objetivos que no tienen valor para la empresa. Es ahí donde el científico de datos debe utilizar el conocimiento para impactar en los resultados y jugar un papel importante a la hora de decidir la dirección que puede adoptar una empresa en materia de innovación.
Situación laboral: en búsqueda activa de Data Scientist
Hay un agujero en el mercado laboral para con este profesional. Habilidades difíciles de reunir, gran impacto en el negocio y el hecho de que viene precedido de un boom. Debido a la naturaleza exponencial de la tecnología que ha permitido abaratar los costes y expandir la accesibilidad del Big Data a todo tipo de empresas, la demanda se ha multiplicado mientras que la formación del científico de datos, más lenta, no puede satisfacer al mercado. En otras palabras: en muy poco tiempo ha surgido la necesidad de incoporar un profesional que apenas existía en estos sectores. Y es por ello que a día de hoy se ha convertido en uno de los perfiles más valorados y mejor pagados dentro de las compañías, con sueldos medios en España por encima de los 50.000€ y que pueden llegar hasta los 90.000€.
¿Cuál es el futuro del Data Science?
El científico de datos ha venido para quedarse. Ya consumimos información generada por IA sin darnos cuenta de la diferencia (ni falta que hace), y esta tendencia irá incrementándose. La cantidad de datos aumenta diariamente y el futuro pasa por la automatización de procesos tediosos y la eliminación de tareas mecánicas, para que los humanos podamos destacar por lo que no puede ser sustituido: por nuestra imaginación. Machine Learning puede crear una nueva adaptación musical después de analizar y procesar datos sobre música clásica, pero no puede crear un nuevo estilo musical.
Espera un momento, ¿y Deep Learning?
No iba a enumerar todas las habilidades de un científico de datos y no hablar de Deep Learning, la que es sin duda una de las disciplinas de Machine Learning más interesantes para las grandes empresas y para muchos curiosos y aficionados al cine de ficción (¿Machine Learning + Deep Learning = Terminator?).
El funcionamiento es el siguiente: a través de redes neuronales que simulan el funcionamiento de una neurona (aunque una neurona es infinitamente más compleja), trata de simular la percepción humana para tomar decisiones de forma no supervisada. ¿El robot explorador de planetas del que hablábamos antes? Eso sería un ejemplo de Deep Learning. Pero debido a que no existe la intervención humana en el aprendizaje, sino que son ellos mismos quienes sacan las conclusiones acerca de la semántica embebida en los datos, el resultado de sus acciones no puede preverse, por lo que nos encomendamos a su propia inteligencia.
¿Cómo convertirse en científico de datos?
Si tienes algo que deseas compartir o quieres formar parte de KeepCoding, escríbenos a [email protected].