¿Qué habilidades necesitas para convertirte en Científico de Datos o Data Scientist? Este profesional del Big Data y Machine Learning se encarga de gestionar datos y analizarlos, pero de una forma muy particular.
De acuerdo a la definición de Josh Wills, Director de Ingeniería de Datos en Slack: «Científico de Datos (n): Persona mejor en estadística que cualquier desarrollador y mejor en programación que cualquier estadístico». Pero reducirlo a eso sería demasiado simple. La ciencia de datos debe ser mucho más que eso para que se esté convirtiendo en una de las profesiones más prometedoras de hoy en día y, si todo sigue así, del futuro.
Entonces, ¿cómo ser Data Scientist? Si quieres saber cómo ser científico de datos y sumergirte en el mundo del Big Data, te contamos todo lo que necesitas saber.
¿Qué es un científico de datos?
Según Jose Antonio Guerrero, considerado mejor científico de datos de España y que en 2013 fue nombrado como el mejor del mundo por la red social de científicos de datos Kaggle, esta es la definición para saber como ser científico de datos:
Es una persona con fundamentos en matemáticas, estadística y métodos de optimización, con conocimientos en lenguajes de programación y que además tiene una experiencia práctica en el análisis de datos reales y la elaboración de modelos predictivos.
Perfil de un científico de datos: Un científico de datos debe poseer una combinación única de habilidades técnicas y analíticas, además de una mentalidad curiosa y orientada a la resolución de problemas. Debe ser capaz de comunicar sus hallazgos de manera efectiva y colaborar con otros equipos dentro de una organización.
Habilidades para convertirte en científico de datos
Matemáticas
Como en la mayoría de profesiones, hay que diferenciar dos casos, lo que necesitas saber para poder trabajar como científico de datos, que puede que tengas que utilizar de forma puntual y apoyándote en información de internet, y lo que realmente vas a necesitar aplicar en tu día a día con criterio y fluidez. Piensa que un científico de datos debe conocer los fundamentos, no ser un matemático.
Análisis de datos
Esta es la verdadera habilidad que debe tener un científico de datos y por la que será más valioso. Mucho de los softwares y herramientas utilizados en Big Data y Machine Learning se encargan de hacer la mayor parte de cálculos matemáticos por ti, sin embargo, esto no podrá hacerlo nadie.
El 80% del trabajo de un Data Scientist se basa en preparación de datos y visualización. Es la habilidad mas importante y, por ello, deberá tener habilidades muy sólidas para el análisis de datos. Exploración, limpieza, construcción de modelos y presentación de resultados.
Lenguajes de programación y herramientas
Para ser Data Scientist o cientifico de datos también debes saber lenguajes de programación. Dentro de Big Data y Machine Learning hay multitud de lenguajes, frameworks y herramientas.
Cuantas más tecnologías sepas manejar, mayor será el valor como científico de datos y mejor el desempeño en diferentes empresas, pero por encima de todo ello, hay tres básicos que se deben conocer:
SQL
El 68% de los científicos de datos usan SQL como lenguaje de bases de datos relacionales, por lo que es necesario para estudiar data science que es una disciplina compleja. Es cierto que también deben utilizarse BD no relacionales porque muchas veces los datos están desestructurados, pero por su velocidad, su rendimiento y su bajo coste al poder ser ejecutado con escasos recursos, los SGBD SQL son una de las tecnologías que no pueden faltar en el kit de habilidades del Data Scientist.
R
El 52% de estos profesionales usan el lenguaje R para su trabajo habitual. Se debe en gran parte a que durante años ha sido el lenguaje estadístico por excelencia. A la costumbre se le une la solidez de los frameworks y herramientas que se han ido creando con el tiempo. Pero poco a poco se está cambiando de paradigma y, a pesar de tener un gran peso en la ciencia de datos, su crecimiento está estancado.
Python
Python está siendo el némesis de R y ya es un 51% quienes lo utilizan. Con una sintaxis clara y fácil, muchos recién iniciados optan por este lenguaje, así como aquellos que vienen de ingenierías informáticas. Otra de las claves es que es un lenguaje que no tiene únicamente un enfoque estadístico, sino que puede ser utilizado para otros propósitos. Aunque a pesar de su crecimiento, aún le queda mucho trabajo por hacer desarrollando toda la infraestructura, que poco a poco es más competitiva, con iniciativas como SciPy, por ejemplo.
Inteligencia de negocio
Como vemos, un científico de datos debe tener un compendio de habilidades pertenecientes a mundos diferentes para estudiar data science, y se le añade otro campo más: la visión de negocio. Debe tener la capacidad y los conocimientos necesarios para interpretar y detectar tendencias en su área y traducir estos descubrimientos en acciones que impacten sobre el negocio, crear nuevas oportunidades o comunicar sus hallazgos con el fin de promover cambios dentro de la empresa, el producto o los servicios. Porque no sirve de nada aplicar algoritmos complejos de Machine Learning a objetivos que no tienen valor para la empresa.
Es ahí donde el científico de datos debe utilizar el conocimiento para impactar en los resultados y jugar un papel importante a la hora de decidir la dirección que puede adoptar una empresa en materia de innovación.
La importancia del Big Data y Machine Learning
Situación laboral: en búsqueda activa de Data Scientist
Hay un agujero en el mercado laboral para con este profesional. Habilidades difíciles de reunir, gran impacto en el negocio y el hecho de que viene precedido de un boom. Debido a la naturaleza exponencial de la tecnología que ha permitido abaratar los costes y expandir la accesibilidad del Big Data a todo tipo de empresas, la demanda se ha multiplicado mientras que la formación del científico de datos, más lenta, no puede satisfacer al mercado.
En otras palabras: en muy poco tiempo ha surgido la necesidad de incoporar un profesional que apenas existía en estos sectores. Y es por ello que a día de hoy se ha convertido en uno de los perfiles más valorados y mejor pagados dentro de las compañías, con sueldos medios en España por encima de los 50.000€ y que pueden llegar hasta los 90.000€.